Quando si scambia un motore
linguistico per altro
Qualche tempo fa spiegavo agli studenti
a cosa si va incontro con un esempio pratico usando gli LLM per fare analisi dei
dati.
Ho preso una serie di dati
epidemiologici dal 2010 al 2014 e ho chiesto al modello di costruire un grafico.
Il risultato conteneva anche valori del 2020–2021, cioè il periodo in cui la
disponibilità di dati esplode per via della pandemia. Non ha “rispettato i
dati”; ha seguito il punto di massima densità informativa.
Questi sistemi non “leggono” il tuo
dataset, si muovono in uno spazio linguistico che è già stratificato intorno
alle zone dove il dato è più abbondante, più ripetuto, più recente, più
statisticamente conveniente. Io gli chiedo 2010–2014; lui mi porta comunque a
2020–2021 perché lì il terreno è più fertile, più denso, più “sicuro” dal punto
di vista della plausibilità.
Se metto accanto a questo esperimento
quello che via via raccolgo e annoto, la trama è sempre la stessa. C’è chi prova
a usare un modello per generare codice o markup ripetitivo. All’inizio la
procedura sembra funzionare, poi, pagina dopo pagina, l’uscita si sfalda, la
coerenza si perde, le stesse istruzioni producono varianti divergenti, e il
costo di correzione supera quello di fare il lavoro a mano.
C’è chi usa il modello su contenuti
specialistici (musica, armonia, analisi di testi complessi) e ottiene risposte
formalmente ben confezionate ma concettualmente vuote. Dalle frasi lunghe con
lessico corretto, ma regole sbagliate in modo grossolano, come se il sistema
imitasse il rumore di fondo della disciplina senza averne mai incontrato la
struttura.
Il meccanismo è sempre lo stesso, in
ambito tecnico succede lo stesso: conversioni numeriche semplici, corrette per
le prime richieste, cominciano a deragliare non appena si aumenta leggermente la
complessità o la quantità di esempi. La procedura non si stabilizza, non si
“irrobustisce”, si ridispone ogni volta come se fosse la prima. Quando si passa
al dominio fattuale, la cosa diventa più inquietante: cronologie storiche
riscritte con sicurezza, programmi esistiti dichiarati inesistenti o viceversa,
riferimenti geografici inventati, dettagli biografici attribuiti a persone reali
senza alcuna base; solo chi conosce già l’argomento ha gli strumenti per
riconoscere l’invenzione. Chi non sa, prende atto. E integra.
Nel dominio medico il pattern è ancora
più evidente (alla faccia dei racconti metaforici e appezzotati fatti a botte di
epistemia). Un referto viene interpretato con apparente competenza, alcuni
dettagli sono spiegati in modo plausibile, poi una sigla viene proiettata in un
contesto completamente incompatibile (ostetrico in presenza di un apparato
genitale maschile), e il sistema razionalizza l’errore invece di riconoscerlo.
Non dice “non lo so”, dice “ho capito, è un refuso”. Nella produzione di testi
culturali (guida turistica, analisi letteraria, citazione poetica) si vede
l’altro lato della stessa cosa, ovvero la capacità di generare un testo
perfettamente leggibile, tonalmente adeguato, ritmato nel modo “giusto”, ma
privo di informazioni.
Pagine intere che potresti spostare da
un luogo all’altro del mondo senza che cambi nulla.
Infine ci sono i casi di delega
integrale con strumenti configurati per monitorare notizie, che ripropongono
come “nuovi” articoli vecchi di mesi, oppure ne saltano di rilevanti senza
criterio apparente; manager convinti di risparmiare tempo affidando a un modello
la ricostruzione di cifre complesse, che si ritrovano con numeri sbagliati di
ordini di grandezza, ma esposti con tale sicurezza lessicale da passare il primo
vaglio superficiale.
Quello che tiene insieme tutte queste
situazioni non è il singolo errore, ma la combinazione di tre elementi: la
fluidità del linguaggio, la pressione verso le aree ad alta densità di dato e
l’assenza di una rappresentazione del mondo che faccia da vincolo.
L’idea bislacca, ma molto diffusa, che
“basterebbe cambiare la base di conoscenza” per risolvere il problema è la
versione aggiornata della vecchia fede nella fonte giusta. Come se il difetto
fosse “cosa ha letto il modello”, e non il modo in cui funziona. Aggiungere più
dati, o dati migliori, può ridurre alcuni errori di superficie, ma questi
sistemi non operano su un modello del mondo, non possiedono strutture interne
che garantiscano coerenza temporale, causale o concettuale.
Operano su distribuzioni di probabilità
condizionate: massimizzano la plausibilità linguistica locale, frase per frase,
token per token. Quando c’è molta informazione su un certo periodo, un certo
evento, un certo modo di parlare, il gradiente le spinge lì, anche se tu stai
chiedendo altro. Quando una spiegazione è stilisticamente convincente, la
produce, anche in assenza di un criterio che la colleghi a qualcosa di
vero.
L’EpistemIA nasce esattamente in questo
punto di contatto: dove un meccanismo cieco rispetto al mondo incontra un utente
che cerca conoscenza, non testo. L’utente vede coerenza grammaticale, tono
competente, riferimenti plausibili, e scambia tutto questo per prova. Ma il
modello non “sa” se ciò che dice è vero; non ha un luogo interno dove la verità
possa essere rappresentata o controllata. La verifica, se avviene, è sempre
esterna: siamo noi. E proprio mentre ci affidiamo al sistema per risparmiarci la
fatica della verifica, la verifica stessa scompare dall’orizzonte cognitivo: non
viene più concepita come fase necessaria del processo, perché è
delegata.
Infatti il numero di ricercatori
indipendenti, dotti-immaginari e tutto il cucuzzaro di gente che dice menate
cresce ogni giorno di più.
Per questo i vostri esempi sono così
importanti: mostrano che non siamo davanti a una collezione di bug da correggere
con l’aggiornamento successivo, ma a una trasformazione strutturale del rapporto
tra linguaggio e conoscenza. Non è un problema di “accuratezza percentuale”, è
lo slittamento da un ecosistema informativo basato sulla ricerca e sul confronto
di fonti a uno basato sulla simulazione continua di risposte plausibili. Se non
teniamo fermo questo punto, ci ritroviamo a discutere di queste tecnologie come
se fossero motori di ricerca più evoluti o assistenti infallibili, mentre sono
un’altra cosa.
Sono interfacce che ricostruiscono il
mondo a partire da come ne abbiamo scritto, non da com'è.
Continuare a raccogliere casi non serve
a fare l’elenco degli errori, ma a mappare il perimetro di questa nuova
condizione: un ambiente in cui la facilità di produzione di testo può dare
l’impressione che la conoscenza sia a portata di chat, mentre in realtà si è
solo spostato, e reso invisibile, il lavoro più importante: quello della
verifica.