Se l'intelligenza artificiale inizia a cibarsi dei dati che ha prodotto, abbiamo un problema
QED <https://www.wired.it/article/intelligenza-artificiale-collasso-modelli-fonda...> Da poco più di un anno, chiunque abbia accesso a internet può sperimentare liberamente con l'intelligenza artificiale generativa. I contenuti prodotti con ChatGPT, Bard, Mid Journey, Dall-E e Stable Diffusion, solo per nominare le più diffuse, sono ovunque. Utilizzate da professionisti e utenti alle prime armi, le AI generative permettono di creare testi e immagini che hanno improvvisamente invaso il web, dalle agenzie creative alle classifiche dei libri più venduti su Amazon. La proliferazione di questi contenuti però, potrebbe creare un corto circuito su cui ricercatori di diversi paesi si stanno concentrando: il model collapse. Il fenomeno è stato descritto per la prima volta da un gruppo di ricerca di cui fanno parte membri di università britanniche e canadesi. Lo definiscono come un processo degenerativo in cui i contenuti generati finiscono per inquinare i dataset delle prossime generazioni di modelli, che, addestrati con dati inquinati, avranno una percezione sbagliata della realtà. In sostanza, se le informazioni a cui queste AI attingono sono quelli prodotte dalle stesse AI, potrebbe verificarsi un processo di degenerazione dei risultati. L’idea di base è tutto sommato intuitiva: queste AI producono risultati su base statistica e tendono a eliminare progressivamente ogni evento poco probabile ad ogni successiva iterazione. I modelli linguistici di grandi dimensioni – comunemente chiamati Large Language Model o LLM – sono la tecnologia che permette a questi programmi di funzionare sulla base di prompt, o input, forniti in linguaggio naturale dall’utente. Basandosi su enormi quantità di parametri, gli algoritmi di deep learning utilizzati per far funzionare queste tecnologie vengono addestrati su dati ricavati anche tramite scraping da fonti online. E se i dati contengono errori o bias, l'AI non farà che riprodurli. Finora possiamo dire che i contenuti su cui si basano le risposte di ChatGPT sono stati creati da esseri umani, ma questo era vero solo fino allo scorso anno. In futuro un ipotetico GPT-6 (la futura generazione del LLM di ChatGPT) potrebbe trovare un dataset diverso da quello usato da GPT-3, in cui molte informazioni sono state prodotte utilizzando le versioni precedenti della stessa tecnologia. Come sottolineato dai ricercatori questo implica che “i dati sulle interazioni degli umani con gli LLM saranno sempre più preziosi”. Ma cosa succede quando una crescente quantità di informazioni è di origine “sintetica”, ovvero creata dalle macchine? Soffriranno di quello che un’altra ricerca americana ha chiamato Mad, Model autophagy disorder. Una disfunzione determinata da modelli che si nutrono delle informazioni che hanno creato. Il sistema di intelligenza artificiale ChatGPT L'Europa vuole mettere più paletti ai grandi modelli di intelligenza artificiale, come GPT È la proposta di accordo su cui convergono Parlamento, Commissione e Consiglio europeo nei negoziati sull'AI Act e prevede più obblighi per i foundation models Dagli studi effettuati emerge che la qualità del lessico peggiora, appiattendosi su un livello che offre una minore diversità di linguaggio. Se pensiamo che una delle prime forme di intelligenza artificiale con la quale siamo entrati in contatto quotidianamente è l’autocomplete del telefono, la cosa ci appare subito più chiara e semplice da estendere ad altre categorie. Il correttore automatico ci offre come soluzioni quelle più statisticamente più probabili. Con i dovuti distinguo, anche altri sistemi di raccomandazione funzionano nello stesso modo, che siano combinazioni di parole, prodotti che compriamo online, contenuti social o canzoni su Spotify. La differenza principale sta nei parametri considerati e nella capacità del sistema di imparare dai nuovi dati che vengono forniti alle macchine. Tutti i sistemi basati su tecnologie simili sono sensibili all’inquinamento dei dati. Questo non avviene solo per i testi, ma anche nel caso delle immagini. E in questo caso i risultati sono forse ancora più visibili. Il “rumore” di fondo può aumentare a tal punto da rendere i soggetti quasi indistinguibili e coperti da una patina opaca, oppure le immagini possono risultare visibilmente artefatte. Di recente Microsoft e Google hanno incorporato i propri chatbot in diversi prodotti e nei loro motori di ricerca, una mossa che potrebbe amplificare i problemi che generano. Non solo espongono gli utenti alle cosiddette allucinazioni, gli errori degli LLM che generano risposte che non trovano riscontro nella realtà, ma anche a feedback loop in cui gli eventi meno frequenti tendono a scomparire. I sistemi di raccomandazione possono creare camere dell’eco in cui trovano rappresentazione solo gli eventi più probabili. Secondo Daniele Gambetta, dottorando in intelligenza artificiale presso l'Università di Pisa, “ognuno di questi casi è rilevante nella comprensione di fenomeni che saranno sempre più diffusi e che potrebbero portare a implicazioni indesiderate. La ricerca si sta muovendo in questa direzione, intersecando conoscenze tecniche e informatiche con strumenti e teorie provenienti dalla sociologia e dalla psicologia".
Come previsto questo rappresenta un problema per i motori di ricerca. Vediamo in azione 'fast-forward' la dinamica industriale globale: per non potersi fermare distrugge il proprio ecosistema. Come se la caveranno? <https://arxiv.org/pdf/2305.17493.pdf> Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as model collapse1 and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet. [...] Discussion and Conclusion We now discuss the implications of Model Collapse on the underlying learning dynamics of LLMs. Long-term poisoning attacks on language models are not new. For example, we saw the creation of click, content, and troll farms – a form of human ‘language models’, whose job is to misguide social networks and search algorithms. The negative effect these poisoning attacks had on search results led to changes in search algorithms: e.g., Google downgraded farmed articles , putting more emphasis on content produced by trustworthy sources e.g. education domains, while DuckDuckGo removed them altogether. What is different with the arrival of LLMs is the scale at which such poisoning can happen once it is automated. Preserving the ability of LLMs to model low-probability events is essential to the fairness of their predictions: such events are often relevant to marginalised groups. Low-probability events are also vital to understand complex systems [Taleb, 2007]. Our evaluation suggests a “first mover advantage” when it comes to training models such as LLMs. In our work we demonstrate that training on samples from another generative model can induce a distribution shift, which over time causes Model Collapse. This in turn causes the model to mis-perceive the underlying learning task. To make sure that learning is sustained over a long time period, one needs to make sure that access to the original data source is preserved and that additional data not generated by LLMs remain available over time. The need to distinguish data generated by LLMs from other data raises questions around the provenance of content that is crawled from the Internet: it is unclear how content generated by LLMs can be tracked at scale. One option is community-wide coordination to ensure that different parties involved in LLM creation and deployment share the information needed to resolve questions of provenance. Otherwise, it may become increasingly difficult to train newer versions of LLMs without access to data that was crawled from the Internet prior to the mass adoption of the technology, or direct access to data generated by humans at scale. On 14/11/23 12:55, Alberto Cammozzo via nexa wrote:
QED
<https://www.wired.it/article/intelligenza-artificiale-collasso-modelli-fonda...>
Da poco più di un anno, chiunque abbia accesso a internet può sperimentare liberamente con l'intelligenza artificiale generativa. I contenuti prodotti con ChatGPT, Bard, Mid Journey, Dall-E e Stable Diffusion, solo per nominare le più diffuse, sono ovunque. Utilizzate da professionisti e utenti alle prime armi, le AI generative permettono di creare testi e immagini che hanno improvvisamente invaso il web, dalle agenzie creative alle classifiche dei libri più venduti su Amazon. La proliferazione di questi contenuti però, potrebbe creare un corto circuito su cui ricercatori di diversi paesi si stanno concentrando: il model collapse.
Il fenomeno è stato descritto per la prima volta da un gruppo di ricerca di cui fanno parte membri di università britanniche e canadesi. Lo definiscono come un processo degenerativo in cui i contenuti generati finiscono per inquinare i dataset delle prossime generazioni di modelli, che, addestrati con dati inquinati, avranno una percezione sbagliata della realtà. In sostanza, se le informazioni a cui queste AI attingono sono quelli prodotte dalle stesse AI, potrebbe verificarsi un processo di degenerazione dei risultati.
L’idea di base è tutto sommato intuitiva: queste AI producono risultati su base statistica e tendono a eliminare progressivamente ogni evento poco probabile ad ogni successiva iterazione. I modelli linguistici di grandi dimensioni – comunemente chiamati Large Language Model o LLM – sono la tecnologia che permette a questi programmi di funzionare sulla base di prompt, o input, forniti in linguaggio naturale dall’utente. Basandosi su enormi quantità di parametri, gli algoritmi di deep learning utilizzati per far funzionare queste tecnologie vengono addestrati su dati ricavati anche tramite scraping da fonti online. E se i dati contengono errori o bias, l'AI non farà che riprodurli.
Finora possiamo dire che i contenuti su cui si basano le risposte di ChatGPT sono stati creati da esseri umani, ma questo era vero solo fino allo scorso anno. In futuro un ipotetico GPT-6 (la futura generazione del LLM di ChatGPT) potrebbe trovare un dataset diverso da quello usato da GPT-3, in cui molte informazioni sono state prodotte utilizzando le versioni precedenti della stessa tecnologia. Come sottolineato dai ricercatori questo implica che “i dati sulle interazioni degli umani con gli LLM saranno sempre più preziosi”. Ma cosa succede quando una crescente quantità di informazioni è di origine “sintetica”, ovvero creata dalle macchine? Soffriranno di quello che un’altra ricerca americana ha chiamato Mad, Model autophagy disorder. Una disfunzione determinata da modelli che si nutrono delle informazioni che hanno creato. Il sistema di intelligenza artificiale ChatGPT L'Europa vuole mettere più paletti ai grandi modelli di intelligenza artificiale, come GPT È la proposta di accordo su cui convergono Parlamento, Commissione e Consiglio europeo nei negoziati sull'AI Act e prevede più obblighi per i foundation models
Dagli studi effettuati emerge che la qualità del lessico peggiora, appiattendosi su un livello che offre una minore diversità di linguaggio. Se pensiamo che una delle prime forme di intelligenza artificiale con la quale siamo entrati in contatto quotidianamente è l’autocomplete del telefono, la cosa ci appare subito più chiara e semplice da estendere ad altre categorie. Il correttore automatico ci offre come soluzioni quelle più statisticamente più probabili. Con i dovuti distinguo, anche altri sistemi di raccomandazione funzionano nello stesso modo, che siano combinazioni di parole, prodotti che compriamo online, contenuti social o canzoni su Spotify. La differenza principale sta nei parametri considerati e nella capacità del sistema di imparare dai nuovi dati che vengono forniti alle macchine. Tutti i sistemi basati su tecnologie simili sono sensibili all’inquinamento dei dati. Questo non avviene solo per i testi, ma anche nel caso delle immagini. E in questo caso i risultati sono forse ancora più visibili. Il “rumore” di fondo può aumentare a tal punto da rendere i soggetti quasi indistinguibili e coperti da una patina opaca, oppure le immagini possono risultare visibilmente artefatte.
Di recente Microsoft e Google hanno incorporato i propri chatbot in diversi prodotti e nei loro motori di ricerca, una mossa che potrebbe amplificare i problemi che generano. Non solo espongono gli utenti alle cosiddette allucinazioni, gli errori degli LLM che generano risposte che non trovano riscontro nella realtà, ma anche a feedback loop in cui gli eventi meno frequenti tendono a scomparire. I sistemi di raccomandazione possono creare camere dell’eco in cui trovano rappresentazione solo gli eventi più probabili.
Secondo Daniele Gambetta, dottorando in intelligenza artificiale presso l'Università di Pisa, “ognuno di questi casi è rilevante nella comprensione di fenomeni che saranno sempre più diffusi e che potrebbero portare a implicazioni indesiderate. La ricerca si sta muovendo in questa direzione, intersecando conoscenze tecniche e informatiche con strumenti e teorie provenienti dalla sociologia e dalla psicologia".
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
participants (1)
-
Alberto Cammozzo