Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni
Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di significati, condivisione di significati) che progressivamente lega parole, frasi, testi al loro significato? A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in questi scambi. Sbaglio? Si può automatizzare "cum grano salis" che cita Antonio? Grazie e cordialità. Duccio (Alessandro Marzocchi) Il giorno mer 22 mag 2024 alle ore 09:17 <nexa-request@server-nexa.polito.it> ha scritto:
Message: 3 Date: Tue, 21 May 2024 22:34:14 +0200 From: Antonio <antonio@piumarossa.it> To: nexa@server-nexa.polito.it Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3779@piumarossa.it> Content-Type: text/plain; charset=ISO-8859-1
sul fatto di usare un tokenizzatore morfologico sono in polemica coi giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di learning, così come in fase di inference. Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, così: man-gi-ars-elo. Il mio tokenizer (testi di letteratura pretrattati), in tre token: man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. A.
Buonasera, per chi volesse approfondire le tematiche della linguistica computazionale (e dintorni), segnalo in questo thread che in questi giorni a Torino ci sono i convegni internazionali COLING e LREC al Lingotto: https://lrec-coling-2024.org/ Quest’anno sono arrivate circa 3k submission (di cui credo 30% dalla Cina). Gli LLM hanno una parte rilevante nel convegno. Buona serata, Andrea Il giorno mer 22 mag 2024 alle 10:08 alessandro marzocchi < alemarzoc@gmail.com> ha scritto:
Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di significati, condivisione di significati) che progressivamente lega parole, frasi, testi al loro significato? A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in questi scambi. Sbaglio? Si può automatizzare "cum grano salis" che cita Antonio? Grazie e cordialità. Duccio (Alessandro Marzocchi)
Il giorno mer 22 mag 2024 alle ore 09:17 < nexa-request@server-nexa.polito.it> ha scritto:
Message: 3 Date: Tue, 21 May 2024 22:34:14 +0200 From: Antonio <antonio@piumarossa.it> To: nexa@server-nexa.polito.it Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3779@piumarossa.it> Content-Type: text/plain; charset=ISO-8859-1
sul fatto di usare un tokenizzatore morfologico sono in polemica coi giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di learning, così come in fase di inference. Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, così: man-gi-ars-elo. Il mio tokenizer (testi di letteratura pretrattati), in tre token: man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. A.
Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di significati, condivisione di significati) che progressivamente lega parole, frasi, testi al loro significato?
La relazione che lega parole al loro significato è un passo avanti nel funzionamento dell'IA generativa. La mia era solo una considerazione statistico/morfologica. Provo ad argomentare con un esempio più "letterario". Se Alessandro Manzoni avesse scritto i Promessi Sposi al computer avrebbe avuto bisogno di 85 "caratteri" diversi, tra lettere, numeri, segni, lettere accentate, ecc. Nella distribuzione statistica del romanzo si passa dai 196194 'spazi' alle 119916 'e', per finire con 3 W (Wallenstein) e una sola á (a con accento acuto) in: "il podestà co’ soldati era andato a reconocer la casa, y a ver si hallará algunos vestigios". Bene, chiamiamo questi 85 caratteri alfabeto esteso. Prendiamo la prima frase del testo: "Quel ramo del lago di Como, che volge a mezzogiorno, tra " e proviamo ad indovinare la parola di tre caratteri successiva. La probabilità di riuscirci al primo tentativo è di 1/85*1/85*1/85 = 1 su 614125. Se considerassimo solo le lettere minuscole, la probabilità scenderebbe a 1/24 * 1/24 * 1/24 = 1 su 13824 (24 e non 26 perché nel testo dei Promessi Sposi mancano k e w), ma ovviamente non possiamo limitarci alle sole lettere minuscole. Ora, costruiamoci un alfabeto esteso composto oltre che da unigramma, anche da digramma e trigramma, scelti su base statistica. Avremo un alfabeto esteso, composto da più di 85 elementi, mettiamo 1000 elementi. Calcolando la probabilità, prima scegliendo i trigramma, poi componendo un digramma ed un unigramma, questa probabilità scenderà di molto. Nel test che ho fatto 186 degli elementi erano trigramma, ed uno è proprio la parola che stavamo cercando. Ovvero "due". La probabilità è scesa da 1/614125 a 1/186. Tutto questo per dire che la scelta degli elementi dell'alfabeto esteso è molto importante e non bisogna "sprecare" caselle. L'alfabeto esteso di GPT2/3 è di poco più di 50000 elementi, LLaMA di Facebook 32000, Minerva 32768, ecc. Antonio
participants (3)
-
alessandro marzocchi -
Andrea Bolioli -
Antonio