Ma vedi Daniela, On Fri, 13 Sep 2024 18:59:01 +0000 Daniela Tafani wrote:
On Fri, 13 Sep 2024 00:36:09 +0200 Giuseppe Attardi wrote: Learning to Reason with LLMs openai.com https://openai.com/index/learning-to-reason-with-llms/
<https://nitter.poast.org/MelMitchell1/status/1834424918580076843>
il problema non è tanto che o1 non funzioni [1], ma che persone autorevoli e preparate si bevano le sciocchezze che quelli di Open AI scrivono e si prestino a diffonderle ed amplificarle! Stiamo parlando della stessa Open AI che diffonde benchmark non riproducibili che confronta con statistiche biased [2] per dedurne dichiarazioni sensazionalistiche che vengono ripetute "a pappagallo" da pappagalli stocastici e non. Ma d'altro canto, che aspettarsi da chi utilizzava output cherry-picked dichiaratamente non riproducibili per dichiarare la presenza di "scintille di intelligenza generale" in GPT-4? [3] Tutto ciò è molto deprimente. Talmente deprimente che persino il CEO di HuggingFace [4] ha reagito alla pagliacciata ``` Once again, an AI system is not "thinking", it's "processing", "running predictions",... just like Google or computers do. Giving the false impression that technology systems are human is just cheap snake oil and marketing to fool you into thinking it's more clever than it is. ``` <https://nitter.lucabased.xyz/ClementDelangue/status/1834283206474191320> Che poi, non ci vuole un esperto per riconoscere un sistema soggetto a overfit [5]. Ed infatti la documentazione delle SDK ammonisce ``` Limit additional context in retrieval-augmented generation (RAG): When providing additional context or documents, include only the most relevant information to prevent the model from overcomplicating its response. ``` <https://sdk.vercel.ai/docs/guides/o1> Se o1 sapesse "ragionare come un PhD", saprebbe distinguere i dati superflui come fa un bambino alle elementari. Ma poiché riproduce in output versioni alterate dei manuali usati per la sua programmazione statistica, statisticamente correlate ai termini usati nel prompt, ogni termine in più, può alterare la navigazione dei contenuti compressi generando sciocchezze. Lo sapevano e hanno messo le mani avanti. Ma un prompt minimale e attinente ai casi d'uso previsti per o1 come quello provato da Colin Fraser: "can you solve the equation 9.11 - x = 9.9 + x?" dovrebbe funzionare. E invece, no. Sa contare le r in "Strawberry"... ma non le t. Overfitting, appunto. E devono esserne ben consapevoli se Tworek (ricercatore capo di OpenAI) dice a The Verge che non credono si possa comparare "AI model thinking" con "human thinking" [6] e Joanne Jang (OpenAI product manager) ha scritto su Twitter: "There's a lot of o1 hype on my feed, so I'm worried that it might be setting the wrong expectations." Ma nel loro annuncio "reason" compare 18 volte e "think" 9. Perché rischiare la faccia così? https://www.bloomberg.com/news/articles/2024-09-11/openai-fundraising-set-to... Pump & dump. Ed è triste vedere come molti si prestino al loro gioco. Giacomo [1] e non funziona (immagini in allegato, per archiviazione): https://nitter.poast.org/pic/orig/media%2FGXXjx11a4AA4UyG.png https://nitter.poast.org/pic/orig/media%2FGXXj6M0bcAAxruz.png https://nitter.poast.org/pic/orig/media%2FGXXkpmfawAA6Umf.png [2] <https://www.fastcompany.com/91073277/did-openais-gpt-4-really-pass-the-bar-e...> ricorda in questo le ricerche pseudo-scientifiche che dimostravano come un bicchiere di vino al giorno allungasse la vita rispetto a zero bicchieri, includendo nel campione pazienti terminali che non si alimentavano da soli e a cui non venivano somministrati alcolici. [3] <https://arxiv.org/abs/2303.12712> [4] non certo uno stinco di santo [5] <https://en.m.wikipedia.org/wiki/Overfitting> [6] https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawb...