Se l'intelligenza artificiale inizia a cibarsi dei dati che ha prodotto, abbiamo un problema

Nov. 14, 2023

      QED

<https://www.wired.it/article/intelligenza-artificiale-collasso-modelli-fonda...>

Da poco più di un anno, chiunque abbia accesso a internet può 
sperimentare liberamente con l'intelligenza artificiale generativa. I 
contenuti prodotti con ChatGPT, Bard, Mid Journey, Dall-E e Stable 
Diffusion, solo per nominare le più diffuse, sono ovunque. Utilizzate da 
professionisti e utenti alle prime armi, le AI generative permettono di 
creare testi e immagini che hanno improvvisamente invaso il web, dalle 
agenzie creative alle classifiche dei libri più venduti su Amazon. La 
proliferazione di questi contenuti però, potrebbe creare un corto 
circuito su cui ricercatori di diversi paesi si stanno concentrando: il 
model collapse.

Il fenomeno è stato descritto per la prima volta da un gruppo di ricerca 
di cui fanno parte membri di università britanniche e canadesi. Lo 
definiscono come un processo degenerativo in cui i contenuti generati 
finiscono per inquinare i dataset delle prossime generazioni di modelli, 
che, addestrati con dati inquinati, avranno una percezione sbagliata 
della realtà. In sostanza, se le informazioni a cui queste AI attingono 
sono quelli prodotte dalle stesse AI, potrebbe verificarsi un processo 
di degenerazione dei risultati.

L’idea di base è tutto sommato intuitiva: queste AI producono risultati 
su base statistica e tendono a eliminare progressivamente ogni evento 
poco probabile ad ogni successiva iterazione. I modelli linguistici di 
grandi dimensioni – comunemente chiamati Large Language Model o LLM – 
sono la tecnologia che permette a questi programmi di funzionare sulla 
base di prompt, o input, forniti in linguaggio naturale dall’utente. 
Basandosi su enormi quantità di parametri, gli algoritmi di deep 
learning utilizzati per far funzionare queste tecnologie vengono 
addestrati su dati ricavati anche tramite scraping da fonti online. E se 
i dati contengono errori o bias, l'AI non farà che riprodurli.

Finora possiamo dire che i contenuti su cui si basano le risposte di 
ChatGPT sono stati creati da esseri umani, ma questo era vero solo fino 
allo scorso anno. In futuro un ipotetico GPT-6 (la futura generazione 
del LLM di ChatGPT) potrebbe trovare un dataset diverso da quello usato 
da GPT-3, in cui molte informazioni sono state prodotte utilizzando le 
versioni precedenti della stessa tecnologia. Come sottolineato dai 
ricercatori questo implica che “i dati sulle interazioni degli umani con 
gli LLM saranno sempre più preziosi”. Ma cosa succede quando una 
crescente quantità di informazioni è di origine “sintetica”, ovvero 
creata dalle macchine? Soffriranno di quello che un’altra ricerca 
americana ha chiamato Mad, Model autophagy disorder. Una disfunzione 
determinata da modelli che si nutrono delle informazioni che hanno creato.
Il sistema di intelligenza artificiale ChatGPT
L'Europa vuole mettere più paletti ai grandi modelli di intelligenza 
artificiale, come GPT
È la proposta di accordo su cui convergono Parlamento, Commissione e 
Consiglio europeo nei negoziati sull'AI Act e prevede più obblighi per i 
foundation models

Dagli studi effettuati emerge che la qualità del lessico peggiora, 
appiattendosi su un livello che offre una minore diversità di 
linguaggio. Se pensiamo che una delle prime forme di intelligenza 
artificiale con la quale siamo entrati in contatto quotidianamente è 
l’autocomplete del telefono, la cosa ci appare subito più chiara e 
semplice da estendere ad altre categorie. Il correttore automatico ci 
offre come soluzioni quelle più statisticamente più probabili. Con i 
dovuti distinguo, anche altri sistemi di raccomandazione funzionano 
nello stesso modo, che siano combinazioni di parole, prodotti che 
compriamo online, contenuti social o canzoni su Spotify. La differenza 
principale sta nei parametri considerati e nella capacità del sistema di 
imparare dai nuovi dati che vengono forniti alle macchine. Tutti i 
sistemi basati su tecnologie simili sono sensibili all’inquinamento dei 
dati. Questo non avviene solo per i testi, ma anche nel caso delle 
immagini. E in questo caso i risultati sono forse ancora più visibili. 
Il “rumore” di fondo può aumentare a tal punto da rendere i soggetti 
quasi indistinguibili e coperti da una patina opaca, oppure le immagini 
possono risultare visibilmente artefatte.

Di recente Microsoft e Google hanno incorporato i propri chatbot in 
diversi prodotti e nei loro motori di ricerca, una mossa che potrebbe 
amplificare i problemi che generano. Non solo espongono gli utenti alle 
cosiddette allucinazioni, gli errori degli LLM che generano risposte che 
non trovano riscontro nella realtà, ma anche a feedback loop in cui gli 
eventi meno frequenti tendono a scomparire. I sistemi di raccomandazione 
possono creare camere dell’eco in cui trovano rappresentazione solo gli 
eventi più probabili.

Secondo Daniele Gambetta, dottorando in intelligenza artificiale presso 
l'Università di Pisa, “ognuno di questi casi è rilevante nella 
comprensione di fenomeni che saranno sempre più diffusi e che potrebbero 
portare a implicazioni indesiderate. La ricerca si sta muovendo in 
questa direzione, intersecando conoscenze tecniche e informatiche con 
strumenti e teorie provenienti dalla sociologia e dalla psicologia".

Alberto Cammozzo

Alberto Cammozzo

tags

participants (1)