Categoria: LLM Large Language Models

TrueBench: il banco di prova di Samsung per valutare l’efficacia AI nel lavoro reale

Samsung Electronics ha da poco annunciato il lancio di TrueBench, un benchmark interno concepito per misurare in modo più realistico e completo le capacità dei modelli di intelligenza artificiale nel…

Paradosso dell’Intelligenza Frastagliata: perché l’AI brilla nelle sfide più ardue (Olimpiadi delle matematica) e inciampa su ciò che sembra banale (aritmetica delle elementari)

Un sistema d’intelligenza artificiale è capace di risolvere problemi di matematica così complessi da guadagnarsi una medaglia d’oro alle Olimpiadi internazionali della matematica — e poi, con la stessa sicurezza,…