Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

May 22, 2024

      Buonasera,

per chi volesse approfondire le tematiche della linguistica computazionale
(e dintorni), segnalo in questo thread che in questi giorni a Torino ci
sono i convegni internazionali COLING e LREC al Lingotto:
https://lrec-coling-2024.org/

Quest’anno sono arrivate circa 3k submission (di cui credo 30% dalla Cina).
Gli LLM hanno una parte rilevante nel convegno.

Buona serata,
Andrea

Il giorno mer 22 mag 2024 alle 10:08 alessandro marzocchi <
alemarzoc@gmail.com> ha scritto:
...
Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di
significati, condivisione di significati) che progressivamente lega parole,
frasi, testi al loro significato?
A me pare di si e che sia inevitabile, mi pare anche di trovare conferma
in questi scambi. Sbaglio?
Si può automatizzare "cum grano salis" che cita Antonio?
Grazie e cordialità. Duccio (Alessandro Marzocchi)
Il giorno mer 22 mag 2024 alle ore 09:17 <
nexa-request@server-nexa.polito.it> ha scritto:
...
Message: 3
Date: Tue, 21 May 2024 22:34:14 +0200
From: Antonio <antonio@piumarossa.it>
To: nexa@server-nexa.polito.it
Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
        Manzoni
Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3779@piumarossa.it>
Content-Type: text/plain; charset=ISO-8859-1
...
sul fatto di usare un tokenizzatore morfologico sono in polemica coi
giovani nerd con cui lavoro i quali dicono che sono un vecchio
parruccone e
che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente
morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano
salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi
propri, toponimi, ecc.). Occorre un'attenzione particolare al
"vocabolario", perché mentre i testi per l'addestramento possono cambiare,
il vocabolario (ovvero la tavola di conversione, token -> numero) rimane
sempre lo stesso, in fase di learning, così come in fase di inference.
Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro
token, così: man-gi-ars-elo.
Il mio tokenizer (testi di letteratura pretrattati), in tre token:
man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
A.

Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

Andrea Bolioli