Ho trovato su facebook questo "divertente" (per me) post di Walter Quattrociocchi (https://www.facebook.com/share/p/1FuLevWrGQ/); relata refero.

Quando si scambia un motore linguistico per altro

Qualche tempo fa spiegavo agli studenti a cosa si va incontro con un esempio pratico usando gli LLM per fare analisi dei dati.

Ho preso una serie di dati epidemiologici dal 2010 al 2014 e ho chiesto al modello di costruire un grafico. Il risultato conteneva anche valori del 2020–2021, cioè il periodo in cui la disponibilità di dati esplode per via della pandemia. Non ha “rispettato i dati”; ha seguito il punto di massima densità informativa.

Questi sistemi non “leggono” il tuo dataset, si muovono in uno spazio linguistico che è già stratificato intorno alle zone dove il dato è più abbondante, più ripetuto, più recente, più statisticamente conveniente. Io gli chiedo 2010–2014; lui mi porta comunque a 2020–2021 perché lì il terreno è più fertile, più denso, più “sicuro” dal punto di vista della plausibilità.

Se metto accanto a questo esperimento quello che via via raccolgo e annoto, la trama è sempre la stessa. C’è chi prova a usare un modello per generare codice o markup ripetitivo. All’inizio la procedura sembra funzionare, poi, pagina dopo pagina, l’uscita si sfalda, la coerenza si perde, le stesse istruzioni producono varianti divergenti, e il costo di correzione supera quello di fare il lavoro a mano.

C’è chi usa il modello su contenuti specialistici (musica, armonia, analisi di testi complessi) e ottiene risposte formalmente ben confezionate ma concettualmente vuote. Dalle frasi lunghe con lessico corretto, ma regole sbagliate in modo grossolano, come se il sistema imitasse il rumore di fondo della disciplina senza averne mai incontrato la struttura.

Il meccanismo è sempre lo stesso, in ambito tecnico succede lo stesso: conversioni numeriche semplici, corrette per le prime richieste, cominciano a deragliare non appena si aumenta leggermente la complessità o la quantità di esempi. La procedura non si stabilizza, non si “irrobustisce”, si ridispone ogni volta come se fosse la prima. Quando si passa al dominio fattuale, la cosa diventa più inquietante: cronologie storiche riscritte con sicurezza, programmi esistiti dichiarati inesistenti o viceversa, riferimenti geografici inventati, dettagli biografici attribuiti a persone reali senza alcuna base; solo chi conosce già l’argomento ha gli strumenti per riconoscere l’invenzione. Chi non sa, prende atto. E integra.

Nel dominio medico il pattern è ancora più evidente (alla faccia dei racconti metaforici e appezzotati fatti a botte di epistemia). Un referto viene interpretato con apparente competenza, alcuni dettagli sono spiegati in modo plausibile, poi una sigla viene proiettata in un contesto completamente incompatibile (ostetrico in presenza di un apparato genitale maschile), e il sistema razionalizza l’errore invece di riconoscerlo. Non dice “non lo so”, dice “ho capito, è un refuso”. Nella produzione di testi culturali (guida turistica, analisi letteraria, citazione poetica) si vede l’altro lato della stessa cosa, ovvero la capacità di generare un testo perfettamente leggibile, tonalmente adeguato, ritmato nel modo “giusto”, ma privo di informazioni.

Pagine intere che potresti spostare da un luogo all’altro del mondo senza che cambi nulla.

Infine ci sono i casi di delega integrale con strumenti configurati per monitorare notizie, che ripropongono come “nuovi” articoli vecchi di mesi, oppure ne saltano di rilevanti senza criterio apparente; manager convinti di risparmiare tempo affidando a un modello la ricostruzione di cifre complesse, che si ritrovano con numeri sbagliati di ordini di grandezza, ma esposti con tale sicurezza lessicale da passare il primo vaglio superficiale.

Quello che tiene insieme tutte queste situazioni non è il singolo errore, ma la combinazione di tre elementi: la fluidità del linguaggio, la pressione verso le aree ad alta densità di dato e l’assenza di una rappresentazione del mondo che faccia da vincolo.

L’idea bislacca, ma molto diffusa, che “basterebbe cambiare la base di conoscenza” per risolvere il problema è la versione aggiornata della vecchia fede nella fonte giusta. Come se il difetto fosse “cosa ha letto il modello”, e non il modo in cui funziona. Aggiungere più dati, o dati migliori, può ridurre alcuni errori di superficie, ma questi sistemi non operano su un modello del mondo, non possiedono strutture interne che garantiscano coerenza temporale, causale o concettuale.

Operano su distribuzioni di probabilità condizionate: massimizzano la plausibilità linguistica locale, frase per frase, token per token. Quando c’è molta informazione su un certo periodo, un certo evento, un certo modo di parlare, il gradiente le spinge lì, anche se tu stai chiedendo altro. Quando una spiegazione è stilisticamente convincente, la produce, anche in assenza di un criterio che la colleghi a qualcosa di vero.

L’EpistemIA nasce esattamente in questo punto di contatto: dove un meccanismo cieco rispetto al mondo incontra un utente che cerca conoscenza, non testo. L’utente vede coerenza grammaticale, tono competente, riferimenti plausibili, e scambia tutto questo per prova. Ma il modello non “sa” se ciò che dice è vero; non ha un luogo interno dove la verità possa essere rappresentata o controllata. La verifica, se avviene, è sempre esterna: siamo noi. E proprio mentre ci affidiamo al sistema per risparmiarci la fatica della verifica, la verifica stessa scompare dall’orizzonte cognitivo: non viene più concepita come fase necessaria del processo, perché è delegata.

Infatti il numero di ricercatori indipendenti, dotti-immaginari e tutto il cucuzzaro di gente che dice menate cresce ogni giorno di più.

Per questo i vostri esempi sono così importanti: mostrano che non siamo davanti a una collezione di bug da correggere con l’aggiornamento successivo, ma a una trasformazione strutturale del rapporto tra linguaggio e conoscenza. Non è un problema di “accuratezza percentuale”, è lo slittamento da un ecosistema informativo basato sulla ricerca e sul confronto di fonti a uno basato sulla simulazione continua di risposte plausibili. Se non teniamo fermo questo punto, ci ritroviamo a discutere di queste tecnologie come se fossero motori di ricerca più evoluti o assistenti infallibili, mentre sono un’altra cosa.

Sono interfacce che ricostruiscono il mondo a partire da come ne abbiamo scritto, non da com'è.

Continuare a raccogliere casi non serve a fare l’elenco degli errori, ma a mappare il perimetro di questa nuova condizione: un ambiente in cui la facilità di produzione di testo può dare l’impressione che la conoscenza sia a portata di chat, mentre in realtà si è solo spostato, e reso invisibile, il lavoro più importante: quello della verifica.