[nexa] R: Factual error rate for the 4 new ChatGPT models

July 7, 2025

      Buongiorno, Giacomo,
...
Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta avvelenata per voi ricercatori:
grazie, hai ragione, naturalmente.

Ho presente che si arriva al livello della medaglia d'argento nei test contaminati fatti in casa dal monopolista
<https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal...>

e al 5% di risposte azzeccate nei test non contaminati
<https://arxiv.org/pdf/2503.21934v1>

Ho inviato alla lista il post di OpenAI insieme a una delle tante notizie sull'uso militare, oggi,
di quegli stessi modelli di cui l'azienda produttrice dichiara, oggi, la totale inaffidabilità,
perché mi pare un buon indizio del fatto che l'affidabilità è l'ultimo dei pensieri di chi adotti sistemi per l'automazione in ambito militare.
Questo mi pareva l'elemento rilevante.

Un caso analogo in ambito civile (ma la distinzione ha un senso molto limitato) è la contemporanea pubblicazione, da parte di Microsoft,

1.  di uno studio in cui si mostra come l'uso della "IA generativa" conduca all'atrofizzazione delle facoltà cognitive
<https://www.404media.co/microsoft-study-finds-ai-makes-human-cognition-atrop...>

2.  di una pubblicità in cui si invitano le scuole a un'adozione generalizzata
di quegli stessi sistemi devitalizzanti, per "reinventare l'istruzione" e "preparare gli studenti per il futuro"
<https://www.microsoft.com/it-it/education/ai-in-education>

Basta intendersi sul significato di quella reinvenzione e di quella preparazione, ricordando che lo scopo di un sistema è ciò che il sistema fa.

Un caro saluto,
Daniela

________________________________________
Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it>
Inviato: lunedì 7 luglio 2025 10:07
A: nexa@server-nexa.polito.it
Oggetto: Re: [nexa] Factual error rate for the 4 new ChatGPT models

Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta
avvelenata per voi ricercatori:

On Sun, 6 Jul 2025 12:34:27 +0000 Daniela Tafani wrote:
...
Open AI study shows factual error rate for the 4 new ChatGPT models,
with hallucinations getting much worse: 48- 90%.
GPT-4o-mini: 8.6% correct answers, 0.9% unanswered, and 90.5%
incorrect.
01-mini: 8.1% correct answers, 28.5% unanswered, and
63.4% incorrect.
GPT-40: 38.2% correct answers, 1.0% unanswered, and 60.8% incorrect.
01-preview: The top performer, with 42.7% correct answers, 9.2%
unanswered, and 48% incorrect.
Potrebbe sembrare che Open AI stia riconoscendo che i suoi LLM sono
inaffidabili (cosa che chiunque ne comprendesse il funzionamento o
avesse almeno preservato un minimo di lucidità, sapeva già), ma
l'obiettivo di Open AI è molto più subdolo.

```
A factuality benchmark like SimpleQA also allows us to measure the
scientific phenomenon known as calibration, or whether language models
“know what they know.”
```

Ignorando completamente come funziona un LLM, gli si "chiede" di
fornire una stima della correttezza delle risposte.
Ovviamente la stima dipenderà esclusivamente dalla frequenza con cui
ciascun token di una stima simile era presente nei testi sorgente.

Ma Open AI vuole convincervi che l'aderenza della "stima" alla
frequenza misurata in output della risposta giusta dimostra
coscienza del significato della domanda e della risposta, coscienza
della propria fallibilità e coscienza dell'esistenza della realtà.

Così poi Open AI programmerà statisticamente il prossimo LLM in modo da
massimizzare non solo la correttezza delle risposte a domande con
risposta breve contenute in un benchmark, ma anzitutto l'aderenza
della stima alla probabilità effettiva.

Il corpus conterrà 95 frasi del tipo
```
Quanti articoli ha la Costituzione Italiana? 139 (al 95%).
Quanti articoli ha la Costituzione Italiana? 139 (confidenza al 95%).
Quanti articoli ha la Costituzione Italiana? Al 95% di probabilità, 139.
...
```
e poi una 5% di frasi che danno, sempre intorno al 95% una risposta
sbagliata.

In questo modo Open AI & friends potranno far credere di aver risolto
il problema degli errori statistici (ribattezzato "allucinazioni").

Una volta convinti abbastanza adepti che ChatGPT "knows what it knows"
sarà nettamente più semplice insistere con l'antropomorfizzazione di
tale software, evitando di risponderne e razionalizzandone gli errori
(come già fanno coloro che rispondono "eh ma anche io avrei sbagliato").

Open AI infatti conclude:
```
SimpleQA is a simple but challenging benchmark for evaluating the
factuality of frontier models. A main limitation in SimpleQA is its
scope—while SimpleQA is accurate it only measures factuality under the
constrained setting of short, fact-seeking queries with a single,
verifiable answer. Whether the ability to provide factual short answers
correlates with the ability to write lengthy responses filled with
numerous facts remains an open research question. We hope that
open-sourcing SimpleQA drives the research on more trustworthy and
reliable AI forward, and we invite researchers to evaluate the
factuality of language models with it, and to provide us feedback.
```

La brevità delle risposte è cruciale in Simple QA: serve per avere un
benchmark facile da truccare.

Attenti a non avvalorarne la rilevanza scientifica: è proprio ciò che
Open AI vuole e la sola ragione per cui ha incluso percentuali così
impietose coi propri prodotti nel proprio studio.

Così programmerà il prossimo LLM per "giocare" bene a questo trivial
pursuit e i critici di oggi non avranno fatto altro che supportarne
il marketing.

E dal sostenere che un software "knows what it knows" a sostenere che
sia cosciente della realtà (e magari di sé) il passo è breve.

Giacomo

________________________________________
Da: nexa <nexa-bounces@server-nexa.polito.it> per conto di Giacomo Tesio <giacomo@tesio.it>
Inviato: lunedì 7 luglio 2025 10:07
A: nexa@server-nexa.polito.it
Oggetto: Re: [nexa] Factual error rate for the 4 new ChatGPT models

Attenta Daniela che questo "trivial pursuit for LLMs" è una polpetta
avvelenata per voi ricercatori:

On Sun, 6 Jul 2025 12:34:27 +0000 Daniela Tafani wrote:
...
Open AI study shows factual error rate for the 4 new ChatGPT models,
with hallucinations getting much worse: 48- 90%.
GPT-4o-mini: 8.6% correct answers, 0.9% unanswered, and 90.5%
incorrect.
01-mini: 8.1% correct answers, 28.5% unanswered, and
63.4% incorrect.
GPT-40: 38.2% correct answers, 1.0% unanswered, and 60.8% incorrect.
01-preview: The top performer, with 42.7% correct answers, 9.2%
unanswered, and 48% incorrect.
Potrebbe sembrare che Open AI stia riconoscendo che i suoi LLM sono
inaffidabili (cosa che chiunque ne comprendesse il funzionamento o
avesse almeno preservato un minimo di lucidità, sapeva già), ma
l'obiettivo di Open AI è molto più subdolo.

```
A factuality benchmark like SimpleQA also allows us to measure the
scientific phenomenon known as calibration, or whether language models
“know what they know.”
```