Re: [nexa] Learning to reason [but not to count] with LLMs

Sept. 14, 2024

      Ma vedi Daniela, 

On Fri, 13 Sep 2024 18:59:01 +0000 Daniela Tafani wrote:
...
...
On Fri, 13 Sep 2024 00:36:09 +0200 Giuseppe Attardi wrote:
Learning to Reason with LLMs openai.com
https://openai.com/index/learning-to-reason-with-llms/
<https://nitter.poast.org/MelMitchell1/status/1834424918580076843>
il problema non è tanto che o1 non funzioni [1], ma che persone
autorevoli e preparate si bevano le sciocchezze che quelli di
Open AI scrivono e si prestino a diffonderle ed amplificarle!

Stiamo parlando della stessa Open AI che diffonde benchmark non
riproducibili che confronta con statistiche biased [2] per dedurne
dichiarazioni sensazionalistiche che vengono ripetute "a pappagallo" da
pappagalli stocastici e non.

Ma d'altro canto, che aspettarsi da chi utilizzava output cherry-picked
dichiaratamente non riproducibili per dichiarare la presenza di
"scintille di intelligenza generale" in GPT-4? [3]

Tutto ciò è molto deprimente.

Talmente deprimente che persino il CEO di HuggingFace [4] ha reagito
alla pagliacciata

```
Once again, an AI system is not "thinking", it's "processing", "running
predictions",... just like Google or computers do. Giving the false
impression that technology systems are human is just cheap snake oil
and marketing to fool you into thinking it's more clever than it is.
```
<https://nitter.lucabased.xyz/ClementDelangue/status/1834283206474191320>

Che poi, non ci vuole un esperto per riconoscere un sistema soggetto a
overfit [5].

Ed infatti la documentazione delle SDK ammonisce

```
Limit additional context in retrieval-augmented generation (RAG): When
providing additional context or documents, include only the most
relevant information to prevent the model from overcomplicating its
response. ```
<https://sdk.vercel.ai/docs/guides/o1>

Se o1 sapesse "ragionare come un PhD", saprebbe distinguere i dati
superflui come fa un bambino alle elementari.

Ma poiché riproduce in output versioni alterate dei manuali usati per
la sua programmazione statistica, statisticamente correlate ai termini
usati nel prompt, ogni termine in più, può alterare la navigazione dei
contenuti compressi generando sciocchezze.

Lo sapevano e hanno messo le mani avanti.

Ma un prompt minimale e attinente ai casi d'uso previsti per o1 come
quello provato da Colin Fraser: "can you solve the equation 9.11 - x =
9.9 + x?" dovrebbe funzionare.

E invece, no.

Sa contare le r in "Strawberry"... ma non le t.
Overfitting, appunto.

E devono esserne ben consapevoli se Tworek (ricercatore capo di OpenAI)
dice a The Verge che non credono si possa comparare "AI model thinking"
con "human thinking" [6] e Joanne Jang (OpenAI product manager) ha
scritto su Twitter: "There's a lot of o1 hype on my feed, so I'm worried
that it might be setting the wrong expectations."

Ma nel loro annuncio "reason" compare 18 volte e "think" 9.

Perché rischiare la faccia così?
https://www.bloomberg.com/news/articles/2024-09-11/openai-fundraising-set-to...

Pump & dump.

Ed è triste vedere come molti si prestino al loro gioco.

Giacomo

[1] e non funziona (immagini in allegato, per archiviazione):
    https://nitter.poast.org/pic/orig/media%2FGXXjx11a4AA4UyG.png
    https://nitter.poast.org/pic/orig/media%2FGXXj6M0bcAAxruz.png
    https://nitter.poast.org/pic/orig/media%2FGXXkpmfawAA6Umf.png

[2]
<https://www.fastcompany.com/91073277/did-openais-gpt-4-really-pass-the-bar-e...>
ricorda in questo le ricerche pseudo-scientifiche che dimostravano come
un bicchiere di vino al giorno allungasse la vita rispetto a zero
bicchieri, includendo nel campione pazienti terminali che non si
alimentavano da soli e a cui non venivano somministrati alcolici.

[3] <https://arxiv.org/abs/2303.12712>

[4] non certo uno stinco di santo

[5] <https://en.m.wikipedia.org/wiki/Overfitting>

[6]
https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawb...

Re: [nexa] Learning to reason [but not to count] with LLMs

Giacomo Tesio