Buonasera, per chi volesse approfondire le tematiche della linguistica computazionale (e dintorni), segnalo in questo thread che in questi giorni a Torino ci sono i convegni internazionali COLING e LREC al Lingotto: https://lrec-coling-2024.org/ Quest’anno sono arrivate circa 3k submission (di cui credo 30% dalla Cina). Gli LLM hanno una parte rilevante nel convegno. Buona serata, Andrea Il giorno mer 22 mag 2024 alle 10:08 alessandro marzocchi < alemarzoc@gmail.com> ha scritto:
Domando: c'è una relazione statistica (frequenza d'uso, attribuzione di significati, condivisione di significati) che progressivamente lega parole, frasi, testi al loro significato? A me pare di si e che sia inevitabile, mi pare anche di trovare conferma in questi scambi. Sbaglio? Si può automatizzare "cum grano salis" che cita Antonio? Grazie e cordialità. Duccio (Alessandro Marzocchi)
Il giorno mer 22 mag 2024 alle ore 09:17 < nexa-request@server-nexa.polito.it> ha scritto:
Message: 3 Date: Tue, 21 May 2024 22:34:14 +0200 From: Antonio <antonio@piumarossa.it> To: nexa@server-nexa.polito.it Subject: Re: [nexa] Minerva, l'IA italiana al bivio tra Vannacci e Manzoni Message-ID: <20240521223414.54b9eda7fb6de7b43e7f3779@piumarossa.it> Content-Type: text/plain; charset=ISO-8859-1
sul fatto di usare un tokenizzatore morfologico sono in polemica coi giovani nerd con cui lavoro i quali dicono che sono un vecchio parruccone e che all'atto pratico la cosa non servirebbe.
Da ex giovane nerd, sono convinto pure io che un tokenizzatore solamente morfologico non servirebbe. Bisogna usare la statistica, ma "cum grano salis", pretrattando i testi (ad esempio eliminando segni, simboli, nomi propri, toponimi, ecc.). Occorre un'attenzione particolare al "vocabolario", perché mentre i testi per l'addestramento possono cambiare, il vocabolario (ovvero la tavola di conversione, token -> numero) rimane sempre lo stesso, in fase di learning, così come in fase di inference. Tornando al tuo esempio, "mangiarselo", Minerva lo tokenizza in quattro token, così: man-gi-ars-elo. Il mio tokenizer (testi di letteratura pretrattati), in tre token: man-gia-rselo. Morfologicamente errato ma statisticamente efficiente. A.