>
Eh, ma ragioni da linguista, non da statistico ;)
lo so, è una vergogna :-)
quando gli amici mathematicos, in tempi non sospetti, mi illustrarono queste tecniche, li presi in giro dicendo che era una spannometria (span=espansione)
adesso sono loro che prendono in giro me, perché la cosa ha funzionato :-O
il fatto è che sui grandi numeri emerge in effetti qualcosa di morfologico, ma servono appunto i grandi numeri, sia in termini di dati di addestramento, sia dei parametri del modello
per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno insegnato a scuola
staremo a vedere
G.
PS: i mathematicos poi sbagliano quando reificano i loro intrugli algoritmici promuovendoli a una linguistica alternativa tutta giocata sul piano del significante