New subject: Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

May 22, 2024


      Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di
significati, condivisione di significati) che progressivamente lega parole,
frasi, testi al loro significato?
A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in
questi scambi. Sbaglio?
Si può automatizzare "cum grano salis" che cita Antonio?
Grazie e cordialità. Duccio (Alessandro Marzocchi)

Il giorno mer 22 mag 2024 alle ore 09:17 <nexa-request@server-nexa.polito.it>
ha scritto:
...
Message: 3
Date: Tue, 21 May 2024 22:34:14 +0200
From: Antonio <antonio@piumarossa.it>
To: nexa@server-nexa.polito.it
Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e
        Manzoni
Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3779@piumarossa.it>
Content-Type: text/plain; charset=ISO-8859-1
...
sul fatto di usare un tokenizzatore morfologico sono in polemica coi
giovani nerd con cui lavoro i quali dicono che sono un vecchio
parruccone e
che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente
morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano
salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi
propri, toponimi, ecc.). Occorre un'attenzione particolare al
"vocabolario", perché mentre i testi per l'addestramento possono cambiare,
il vocabolario (ovvero la tavola di conversione, token -> numero) rimane
sempre lo stesso, in fase di learning, così come in fase di inference.
Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro
token, così: man-gi-ars-elo.
Il mio tokenizer (testi di letteratura pretrattati), in tre token:
man-gia-rselo. Morfologicamente errato ma statisticamente efficiente.
A.

Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni

alessandro marzocchi

Andrea Bolioli

Antonio

tags

participants (3)