Buongiorno, Giacomo,
Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta avvelenata per voi ricercatori:
grazie, hai ragione, naturalmente. Ho presente che si arriva al livello della medaglia d'argento nei test contaminati fatti in casa dal monopolista <https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal...> e al 5% di risposte azzeccate nei test non contaminati <https://arxiv.org/pdf/2503.21934v1> Ho inviato alla lista il post di OpenAI insieme a una delle tante notizie sull'uso militare, oggi, di quegli stessi modelli di cui l'azienda produttrice dichiara, oggi, la totale inaffidabilità, perché mi pare un buon indizio del fatto che l'affidabilità è l'ultimo dei pensieri di chi adotti sistemi per l'automazione in ambito militare. Questo mi pareva l'elemento rilevante. Un caso analogo in ambito civile (ma la distinzione ha un senso molto limitato) è la contemporanea pubblicazione, da parte di Microsoft, 1. di uno studio in cui si mostra come l'uso della "IA generativa" conduca all'atrofizzazione delle facoltà cognitive <https://www.404media.co/microsoft-study-finds-ai-makes-human-cognition-atrop...> 2. di una pubblicità in cui si invitano le scuole a un'adozione generalizzata di quegli stessi sistemi devitalizzanti, per "reinventare l'istruzione" e "preparare gli studenti per il futuro" <https://www.microsoft.com/it-it/education/ai-in-education> Basta intendersi sul significato di quella reinvenzione e di quella preparazione, ricordando che lo scopo di un sistema è ciò che il sistema fa. Un caro saluto, Daniela ________________________________________ Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it> Inviato: lunedì 7 luglio 2025 10:07 A: nexa@server-nexa.polito.it Oggetto: Re: [nexa] Factual error rate for the 4 new ChatGPT models Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta avvelenata per voi ricercatori: On Sun, 6 Jul 2025 12:34:27 +0000 Daniela Tafani wrote:
Open AI study shows factual error rate for the 4 new ChatGPT models, with hallucinations getting much worse: 48- 90%. GPT-4o-mini: 8.6% correct answers, 0.9% unanswered, and 90.5% incorrect.
01-mini: 8.1% correct answers, 28.5% unanswered, and 63.4% incorrect.
GPT-40: 38.2% correct answers, 1.0% unanswered, and 60.8% incorrect.
01-preview: The top performer, with 42.7% correct answers, 9.2% unanswered, and 48% incorrect.
Potrebbe sembrare che Open AI stia riconoscendo che i suoi LLM sono inaffidabili (cosa che chiunque ne comprendesse il funzionamento o avesse almeno preservato un minimo di lucidità, sapeva già), ma l'obiettivo di Open AI è molto più subdolo. ``` A factuality benchmark like SimpleQA also allows us to measure the scientific phenomenon known as calibration, or whether language models “know what they know.” ``` Ignorando completamente come funziona un LLM, gli si "chiede" di fornire una stima della correttezza delle risposte. Ovviamente la stima dipenderà esclusivamente dalla frequenza con cui ciascun token di una stima simile era presente nei testi sorgente. Ma Open AI vuole convincervi che l'aderenza della "stima" alla frequenza misurata in output della risposta giusta dimostra coscienza del significato della domanda e della risposta, coscienza della propria fallibilità e coscienza dell'esistenza della realtà. Così poi Open AI programmerà statisticamente il prossimo LLM in modo da massimizzare non solo la correttezza delle risposte a domande con risposta breve contenute in un benchmark, ma anzitutto l'aderenza della stima alla probabilità effettiva. Il corpus conterrà 95 frasi del tipo ``` Quanti articoli ha la Costituzione Italiana? 139 (al 95%). Quanti articoli ha la Costituzione Italiana? 139 (confidenza al 95%). Quanti articoli ha la Costituzione Italiana? Al 95% di probabilità, 139. ... ``` e poi una 5% di frasi che danno, sempre intorno al 95% una risposta sbagliata. In questo modo Open AI & friends potranno far credere di aver risolto il problema degli errori statistici (ribattezzato "allucinazioni"). Una volta convinti abbastanza adepti che ChatGPT "knows what it knows" sarà nettamente più semplice insistere con l'antropomorfizzazione di tale software, evitando di risponderne e razionalizzandone gli errori (come già fanno coloro che rispondono "eh ma anche io avrei sbagliato"). Open AI infatti conclude: ``` SimpleQA is a simple but challenging benchmark for evaluating the factuality of frontier models. A main limitation in SimpleQA is its scope—while SimpleQA is accurate it only measures factuality under the constrained setting of short, fact-seeking queries with a single, verifiable answer. Whether the ability to provide factual short answers correlates with the ability to write lengthy responses filled with numerous facts remains an open research question. We hope that open-sourcing SimpleQA drives the research on more trustworthy and reliable AI forward, and we invite researchers to evaluate the factuality of language models with it, and to provide us feedback. ``` La brevità delle risposte è cruciale in Simple QA: serve per avere un benchmark facile da truccare. Attenti a non avvalorarne la rilevanza scientifica: è proprio ciò che Open AI vuole e la sola ragione per cui ha incluso percentuali così impietose coi propri prodotti nel proprio studio. Così programmerà il prossimo LLM per "giocare" bene a questo trivial pursuit e i critici di oggi non avranno fatto altro che supportarne il marketing. E dal sostenere che un software "knows what it knows" a sostenere che sia cosciente della realtà (e magari di sé) il passo è breve. Giacomo ________________________________________ Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it> Inviato: lunedì 7 luglio 2025 10:07 A: nexa@server-nexa.polito.it Oggetto: Re: [nexa] Factual error rate for the 4 new ChatGPT models Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta avvelenata per voi ricercatori: On Sun, 6 Jul 2025 12:34:27 +0000 Daniela Tafani wrote:
Open AI study shows factual error rate for the 4 new ChatGPT models, with hallucinations getting much worse: 48- 90%. GPT-4o-mini: 8.6% correct answers, 0.9% unanswered, and 90.5% incorrect.
01-mini: 8.1% correct answers, 28.5% unanswered, and 63.4% incorrect.
GPT-40: 38.2% correct answers, 1.0% unanswered, and 60.8% incorrect.
01-preview: The top performer, with 42.7% correct answers, 9.2% unanswered, and 48% incorrect.
Potrebbe sembrare che Open AI stia riconoscendo che i suoi LLM sono inaffidabili (cosa che chiunque ne comprendesse il funzionamento o avesse almeno preservato un minimo di lucidità, sapeva già), ma l'obiettivo di Open AI è molto più subdolo. ``` A factuality benchmark like SimpleQA also allows us to measure the scientific phenomenon known as calibration, or whether language models “know what they know.” ``` Ignorando completamente come funziona un LLM, gli si "chiede" di fornire una stima della correttezza delle risposte. Ovviamente la stima dipenderà esclusivamente dalla frequenza con cui ciascun token di una stima simile era presente nei testi sorgente. Ma Open AI vuole convincervi che l'aderenza della "stima" alla frequenza misurata in output della risposta giusta dimostra coscienza del significato della domanda e della risposta, coscienza della propria fallibilità e coscienza dell'esistenza della realtà. Così poi Open AI programmerà statisticamente il prossimo LLM in modo da massimizzare non solo la correttezza delle risposte a domande con risposta breve contenute in un benchmark, ma anzitutto l'aderenza della stima alla probabilità effettiva. Il corpus conterrà 95 frasi del tipo ``` Quanti articoli ha la Costituzione Italiana? 139 (al 95%). Quanti articoli ha la Costituzione Italiana? 139 (confidenza al 95%). Quanti articoli ha la Costituzione Italiana? Al 95% di probabilità, 139. ... ``` e poi una 5% di frasi che danno, sempre intorno al 95% una risposta sbagliata. In questo modo Open AI & friends potranno far credere di aver risolto il problema degli errori statistici (ribattezzato "allucinazioni"). Una volta convinti abbastanza adepti che ChatGPT "knows what it knows" sarà nettamente più semplice insistere con l'antropomorfizzazione di tale software, evitando di risponderne e razionalizzandone gli errori (come già fanno coloro che rispondono "eh ma anche io avrei sbagliato"). Open AI infatti conclude: ``` SimpleQA is a simple but challenging benchmark for evaluating the factuality of frontier models. A main limitation in SimpleQA is its scope—while SimpleQA is accurate it only measures factuality under the constrained setting of short, fact-seeking queries with a single, verifiable answer. Whether the ability to provide factual short answers correlates with the ability to write lengthy responses filled with numerous facts remains an open research question. We hope that open-sourcing SimpleQA drives the research on more trustworthy and reliable AI forward, and we invite researchers to evaluate the factuality of language models with it, and to provide us feedback. ``` La brevità delle risposte è cruciale in Simple QA: serve per avere un benchmark facile da truccare. Attenti a non avvalorarne la rilevanza scientifica: è proprio ciò che Open AI vuole e la sola ragione per cui ha incluso percentuali così impietose coi propri prodotti nel proprio studio. Così programmerà il prossimo LLM per "giocare" bene a questo trivial pursuit e i critici di oggi non avranno fatto altro che supportarne il marketing. E dal sostenere che un software "knows what it knows" a sostenere che sia cosciente della realtà (e magari di sé) il passo è breve. Giacomo