On 11/06/21 09:33, Guido Vetere wrote:
vale la pena di spenderci ancora due parole a quanto sembra di capire superficialmente, l'automatismo che ha censurato il post fa un'analisi del contenuto abbastanza banale. Basta che ci sia la presenza simultanea di alcune parolette che scatta l'allarme, a prescindere se quelle parole siano 'embeddate' in una frase di istigazione all'odio o no. Oltre alla insensibilità all'ironia che richiamava JC, sembra ci sia proprio l'incapacità di leggere il contesto, come se si usasse appunto qualche algoritmo banale (bag of words et similia) . Questo un po' mi stupisce, perché Facebook ha un gruppo di ricerca di Natural Language Processing molto forte.
Le competenze NLP in una lingua non si adattano facilmente ad altre. Da una rapida analisi dei paper pubblicati dal gruppo NLP di FB, il loro approccio prevalente sembra essere di adattare le altre lingue all'inglese attraverso la traduzione automatica. <https://ai.facebook.com/research/nlp> <https://ai.facebook.com/results/?content_types%5B0%5D=publication&research_a...> Ad es: XNLI: Evaluating Cross-lingual Sentence Representations We introduce a dataset, called XNLI, that will catalyze research in cross-lingual sentence understanding by providing an informative standard evaluation task in 15 languages, including low-resource languages such as Swahili and Urdu. [...] In this work, we introduce a benchmark that we call the Cross-lingual Natural Language In- ference corpus, or XNLI, by extending these NLI corpora to 15 languages. XNLI consists of 7500 human-annotated development and test examples in NLI three-way classification format in English, French, Spanish, German, Greek, Bulgarian, Rus- sian, Turkish, Arabic, Vietnamese, Thai, Chi- nese, Hindi, Swahili and Urdu, making a total of 112,500 annotated pairs. [...] Translating, rather than generating new hypoth- esis sentences in each language separately, has multiple advantages. First, it ensures that the data distributions are maximally similar across lan- guages. As speakers of different languages may have slightly different intuitions about how to fill in the supplied prompt, this allows us to avoid adding this unwanted degree of freedom. Second, it allows us to use the same trusted pool of work- ers as was used prior NLI crowdsourcing efforts,[...] Va notato che l'italiano non è compreso nella lista Alberto
Sarebbe interessante capire se per l'inglese abbiano sviluppato classificatori neurali di maggiore accuratezza. In tal caso emergerebbe un tema di 'divide' abbastanza inquietante, perché riguarderebbe la diversa agibilità dello spazio sociale anglofono rispetto a quello di tutti gli altri. G.
On Fri, 11 Jun 2021 at 09:05, Giacomo Tesio <giacomo@tesio.it <mailto:giacomo@tesio.it>> wrote:
On June 10, 2021 8:30:00 PM UTC, "vetere.guido" wrote: > certo che a fare algoritmi così scemi sono buoni tutti, eh ..
Davvero?
Che fantastica notizia! :-)
Se tutti fossero capaci di scrivere programmi "scemi", potrebbero anche leggere i programmi intelligenti.
Molti VORREBBERO leggerli! Ammesso di trovarli, ovviamente.
I GAFAM sarebbero già falliti e le nostre democrazie sarebbero più solide.
Temo però che tu sia troppo ottimista, Guido.
Pochissimi sanno programmare. Meno ancora sanno debuggare.
Tutti gli altri eseguono ciecamente (o lasciano eseguire su di sé) quanto deciso da altri. E quel che è peggio è che sono più che rassegnati: sono profondamente convinti di poter continuare nella propria ignoranza.
Giacomo
PS: gli algoritmi non si fanno, si pensano. Facebook scrive software (malware, per la precisione), non algoritmi.
La differenza è fondamentale. Il software è pieno di bug anche quando gli algoritmi che rappresenta non ne hanno.
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa