<https://www.corriere.it/opinioni/24_febbraio_05/chat-cattiva-che-scaccia-quella-buona-a0311f16-c43a-11ee-93f1-a16183fd09f8.shtml>

I dati che alimentano ChatGPT durante la fase di allenamento sono la parte essenziale del suo funzionamento e della qualità delle sue risposte. È quindi molto importante capire quali siano le sorgenti di questi dati, come è stato evidenziato nella causa del New York Times contro OpenAI e Microsoft da cui emerge chiaramente che il 4° sito frequentato dai web crawler di OpenAI è stato proprio quello del NYT. Ormai il 90% dei principali giornali, in USA come in Europa o in Italia, hanno iniziato a bloccare l’accesso ai web crawler dei chatbot generativi.

Molti, ma non tutti, come ha mostrato una recente analisi di Originality AI sui dati dei crawling effettuati nel mese di gennaio. Negli USA i giornali e siti di destra come Fox News, DailyCaller e Breitbart, non bloccano i crawlers che alimentano gli algoritmi generativi. Non si sa se sia un ritardo nell’attivazione del blocco, o se invece sia un modo per sfruttare a proprio favore il filtro degli altri giornali, per incidere sull’allenamento dell’algoritmo influenzandone le risposte con le posizioni dell’ estrema destra repubblicana. Del resto è un tema ben noto anche in Italia, dove, in un contesto di difficoltà del settore dell’ informazione, l’ accesso a pagamento alle più autorevoli testate subisce la concorrenza di canali di informazione gratuiti, di minore qualità ma molto diffusi.

Non è il solo esempio di politicizzazione di ChatGPT: Bernie Bot, la versione cinese di ChatGPT, è stata costruito in modo da evitare a con cura discussioni su Taiwan o su Xi Jinping e potremmo continuare. Ma il caso dei filtri delle testate giornalistiche è anche più interessante, perché mostra come regolamentare il mercato dei dati possa risultare altrettanto difficile di quello finanziario. Se io faccio pagare i miei dati, il mio concorrente li può regalare ottenendo un vantaggio competitivo che, alla lunga, può influenzare le risposte di un chatbot. Insomma la chat cattiva che scaccia quella buona. La qualità delle risposte di ChatGPT dipende anche dal fatto che il web sia così grande da assicurare un ragionevole equilibrio relativamente ai vari punti di vista.

Già oggi non è vero, considerato che ChatGPT è stata allenata principalmente su una base culturale occidentale e anglofona. Probabilmente è inevitabile: con l’andare del tempo i chatbot generativi verranno allenati su data base sempre più culturalmente circoscritti. Questo non solo per meglio interpretare i dettagli di una cultura o di una lingua, recentemente è stato lanciato Modello Italia, il ChatGPT italiano che vuole essere migliorativo rispetto alla versione di OpenAI, ma anche per renderli megafoni di una visione del mondo piuttosto che di un altra. Questa rischia di essere la strada maestra per rendere questi algoritmi i nuovi strumenti per una temibile manipolazione dell’ opinione pubblica, questione particolarmente delicata nel 2024, anno in cui più della metà della popolazione mondiale parteciperà a processi elettorali.

L’interfaccia rimane quella suadente e amichevole a cui siamo abituati, ma i contenuti sono quelli scelti a monte da chi ha costruito il modello di linguaggio. Nulla di più, nulla di meno, direte, di un talk show, di un comizio o di un giornale schierato politicamente. Nel caso dei chatbot generativi si tratta però di sistemi interattivi, flessibili, personalizzati e continuamente adattabili all’interlocutore con cui interagiscono in linguaggio naturale, per questo molto più potenti ed efficaci nell’ azione di orientamento delle opinioni.