L'AI e il cambio di paradigma
Immaginate che il prossimo primo d'aprile, le BigTech facciano al mondo un bel pesce d'aprile. Si mettano d'accordo e spengano i loro server. Una disconnessione, non di un paio d'ore come è successo il 5 marzo con Facebook e consorelle [1], ma per sempre, o comunque per un periodo molto lungo. A parte lo shock iniziale, la comunità di sviluppatori open source sarebbe in grado, nel giro di poco tempo, di mettere su delle alternative valide, considerata l'enorme quantità di software libero in grado di coprire la quasi totalità dei servizi "offerti" dalle Big. Già, la quasi ... Ma con l'intelligenza artificiale come la mettiamo? Non è questione di software, l'AI è basata su una manciata di linee di codice (v. il mio nanoLLaMA [2]) disponibile in rete liberamente. Non è questione di dati in input. Common Crawl [3] è lì per questo, basta una connessione ed un hard disk decente e i dati sono pronti. E' ovviamente una questione di potenza di calcolo e di corrente elettrica, insomma, dei "chip" che riescano ad effettuare miliardi di miliardi di "moltiplicazioni" al secondo e accesi per mesi e mesi [4]. Quindi ... siamo "bloccati". Il miglior lock-in che l'industria del hardware (Nvidia) e del software è riuscita a mettere in atto. A. [1] https://notizie.tiscali.it/cronaca/articoli/anomalie-siti-meta/ [2] https://github.com/opensignature/stories [3] https://commoncrawl.org/ [4] https://www.saela.eu/flops/
Ciao Antonio, Il 16 Marzo 2024 12:53:15 CET, Antonio ha scritto:
Immaginate che il prossimo primo d'aprile, le BigTech facciano al mondo un bel pesce d'aprile. Si mettano d'accordo e spengano i loro server. Una disconnessione, non di un paio d'ore come è successo il 5 marzo con Facebook e consorelle [1], ma per sempre, o comunque per un periodo molto lungo.
Sognamo ad occhi aperti? :-D
A parte lo shock iniziale,
In effetti... una sbornia epica... :-)
la comunità di sviluppatori open source sarebbe in grado, nel giro di poco tempo, di mettere su delle alternative valide
Pochi giorni, considerata l'enorme domanda non più servita da un mercato drogato dalle sovvenzioni militari USA.
Già, la quasi ... Ma con l'intelligenza artificiale come la mettiamo?
Perché, quella naturale è già esaurita? Giacomo
in realtà gli array di gpu servono in training, ma per far girare in inferenza o anche in fine-tuning un LLM aperto decente bastano schede da poche migliaia di euro. il problema è la scalabilità per applicazioni 'consumer', tipo GPT, ed è il motivo per cui Mistral ha fatto l'accordo con Microsoft per il suo modello 'large' alla fine il collo di bottiglia è proprio il cloud, perché per il training, una tantum, ce la possiamo cavare anche con Leonardo tutto questo nella situazione attuale, poi domani chissà che succede, magari nuove architetture tipo 'mixture of experts' saranno più scalabili, magari il mercato consumer si differenzia la risorsa scarsa che mi preoccupa di più è quella delle competenze G. On Sat, 16 Mar 2024 at 12:53, Antonio <antonio@piumarossa.it> wrote:
Immaginate che il prossimo primo d'aprile, le BigTech facciano al mondo un bel pesce d'aprile. Si mettano d'accordo e spengano i loro server. Una disconnessione, non di un paio d'ore come è successo il 5 marzo con Facebook e consorelle [1], ma per sempre, o comunque per un periodo molto lungo. A parte lo shock iniziale, la comunità di sviluppatori open source sarebbe in grado, nel giro di poco tempo, di mettere su delle alternative valide, considerata l'enorme quantità di software libero in grado di coprire la quasi totalità dei servizi "offerti" dalle Big. Già, la quasi ... Ma con l'intelligenza artificiale come la mettiamo? Non è questione di software, l'AI è basata su una manciata di linee di codice (v. il mio nanoLLaMA [2]) disponibile in rete liberamente. Non è questione di dati in input. Common Crawl [3] è lì per questo, basta una connessione ed un hard disk decente e i dati sono pronti. E' ovviamente una questione di potenza di calcolo e di corrente elettrica, insomma, dei "chip" che riescano ad effettuare miliardi di miliardi di "moltiplicazioni" al secondo e accesi per mesi e mesi [4]. Quindi ... siamo "bloccati". Il miglior lock-in che l'industria del hardware (Nvidia) e del software è riuscita a mettere in atto.
A.
[1] https://notizie.tiscali.it/cronaca/articoli/anomalie-siti-meta/ [2] https://github.com/opensignature/stories [3] https://commoncrawl.org/ [4] https://www.saela.eu/flops/ _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
alla fine il collo di bottiglia è proprio il cloud, perché per il training, una tantum, ce la possiamo cavare anche con Leonardo
Beh, allora aspettiamo, prima dell'estate, "Modello Italia" [1] Intanto ieri XAI-ORG ha pubblicato su Github, Grok-1 [2] A. [1] https://www.wired.it/article/modello-italia-intelligenza-artificiale-igenius... [2] https://github.com/xai-org/grok-1/
nelle prime interviste al CEO di i-Genius c'era un appello alla lingua come 'genio del popolo', orecchiato forse da Vico, che mi fece un po' ridere ma c'è un'arietta di autarchia che, questa sì, sembra un ricorso della Storia fare un LLM competitivo con dataset limitati (solo italiano, no copyright, no bias, etc) mi sembra una cosa tecnicamente improbabile, forse l'idea è quella di imporlo come modello 'certificato' alla PA: un modello 'kosher' rispettoso dei canoni dell'AI Act (en passant: 'il manifesto della razza' sarà incluso nel dataset; essendo libero da copyright?) quello che si intravede è il confronto tra supremazia tecnologica e cogenza normativa che è un aspetto critico dell'attuale approccio EU portare questo confronto sul piano dei 'foundational models' secondo me è uno sbaglio, ma parliamone G. On Mon, 18 Mar 2024 at 20:43, Antonio <antonio@piumarossa.it> wrote:
alla fine il collo di bottiglia è proprio il cloud, perché per il training, una tantum, ce la possiamo cavare anche con Leonardo
Beh, allora aspettiamo, prima dell'estate, "Modello Italia" [1] Intanto ieri XAI-ORG ha pubblicato su Github, Grok-1 [2]
A.
[1] https://www.wired.it/article/modello-italia-intelligenza-artificiale-igenius... [2] https://github.com/xai-org/grok-1/ _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
fare un LLM competitivo con dataset limitati (solo italiano, no copyright, no bias, etc) mi sembra una cosa tecnicamente improbabile ...
Per quanto riguarda la lingua non sono d'accordo. Un foundation model in italiano sarebbe molto più efficiente, sia in fase di training che in inference. A cominciare dal tokenizer, meno token si usano per una parola, più è efficiente l'LLM. I termini inglesi hanno in media, rispetto ai corrispondenti italiani, uno o due caratteri in meno. Il tokenizer, e qui sta il maggiore spreco, è stato "composto" con i token più diffusi, per lo più termini inglesi. Per dire, la parola "misunderstanding" di ben 16 caratteri, viene "spezzata" in soli 3 token: mis-under-standing La parola "trasgredirebbero", sempre di 16, ne richiederebbe invece ben otto, tr-as-g-red-ire-b-ber-o. Ho testato il tokenizer del progetto Zefiro [1]. Qui [2] il file. Ebbene, su 32000 token, solo 831 hanno un "senso" in italiano. Uno "spreco" del 97,4%. A. [1] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1 [2] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1/raw/main/tokenizer.jso...
Anzitutto complimenti per Zefiro, lo proverò appena posso La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista l'abbondanza e la complessità delle forme clitiche, con le particelle pronominali ficcate dapertutto, pure nei vebi. Non so se il 'Modello Italia' adotti un tokenizzatore 'custom' o vada in cerca di questi token (molto 'attenzionabili') con euristiche 'spannometriche'. Di sicuro non potranno esserci effetti di 'transfer learning' da lingue morfologicamente simili, come lo spagnolo. Da questo originano le mie perplessità, ma naturalmente spero di essere smentito. G. On Tue, 19 Mar 2024 at 19:50, Antonio <antonio@piumarossa.it> wrote:
fare un LLM competitivo con dataset limitati (solo italiano, no copyright, no bias, etc) mi sembra una cosa tecnicamente improbabile ...
Per quanto riguarda la lingua non sono d'accordo. Un foundation model in italiano sarebbe molto più efficiente, sia in fase di training che in inference. A cominciare dal tokenizer, meno token si usano per una parola, più è efficiente l'LLM. I termini inglesi hanno in media, rispetto ai corrispondenti italiani, uno o due caratteri in meno. Il tokenizer, e qui sta il maggiore spreco, è stato "composto" con i token più diffusi, per lo più termini inglesi. Per dire, la parola "misunderstanding" di ben 16 caratteri, viene "spezzata" in soli 3 token: mis-under-standing La parola "trasgredirebbero", sempre di 16, ne richiederebbe invece ben otto, tr-as-g-red-ire-b-ber-o. Ho testato il tokenizer del progetto Zefiro [1]. Qui [2] il file. Ebbene, su 32000 token, solo 831 hanno un "senso" in italiano. Uno "spreco" del 97,4%.
A.
[1] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1 [2] https://huggingface.co/giux78/zefiro-7b-beta-ITA-v0.1/raw/main/tokenizer.jso...
_______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Anzitutto complimenti per Zefiro, lo proverò appena posso
No, no, non voglio prendermi meriti che non mi spettano. Io non c'entro nulla con quel progetto, ho solo usato alcuni dei file che ne fanno parte, per i test.
La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista l'abbondanza e la complessità delle forme clitiche, con le particelle pronominali ficcate dappertutto, pure nei verbi.
Eh, ma ragioni da linguista, non da statistico ;) La tokenizzazione, nei Transformer models, è ad opera degli algoritmi Byte-Pair Encoding (BPE) [1], WordPiece, Unigram, linguisticamente neutri. In breve, un algoritmo del genere forma dei dizionari composti da un insieme iniziale di unigrammi (ad esempio le lettere dell'alfabeto) seguito da digrammi composti dalle coppie più frequenti e così via, finché non si ottiene un vocabolario delle dimensioni stabilite (32000 nel caso di LLaMA, 50257 di GPT, ecc.). Scorrendo l'elenco del vocabolario di LLaMA saltano fuori token che, a prima vista, ti chiedi dove cavolo sono andati a prenderli, visto che non esistono in nessuna lingua del mondo, ad esempio: pgfscope. Poi cerchi in rete e scopri che è un termine usato da "pgf package", "a TEX macro package", "Inside a picture, you can create nested scopes using pgfscope" [2]. Chissà in quanti documenti TEX hanno ravanato. A. [1] https://arxiv.org/pdf/1508.07909.pdf [2] https://www.cs.cmu.edu/afs/cs/misc/tex/common/teTeX-3.0-distrib/share/texmf/...
Eh, ma ragioni da linguista, non da statistico ;)
lo so, è una vergogna :-) quando gli amici mathematicos, in tempi non sospetti, mi illustrarono queste tecniche, li presi in giro dicendo che era una spannometria (span=espansione) adesso sono loro che prendono in giro me, perché la cosa ha funzionato :-O il fatto è che sui grandi numeri emerge in effetti qualcosa di morfologico, ma servono appunto i grandi numeri, sia in termini di dati di addestramento, sia dei parametri del modello per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno insegnato a scuola staremo a vedere G. PS: i mathematicos poi sbagliano quando reificano i loro intrugli algoritmici promuovendoli a una linguistica alternativa tutta giocata sul piano del significante On Wed, 20 Mar 2024 at 23:10, Antonio <antonio@piumarossa.it> wrote:
Anzitutto complimenti per Zefiro, lo proverò appena posso
No, no, non voglio prendermi meriti che non mi spettano. Io non c'entro nulla con quel progetto, ho solo usato alcuni dei file che ne fanno parte, per i test.
La tokenizzazione dell'italiano ha sicuramente una sua specificità, vista l'abbondanza e la complessità delle forme clitiche, con le particelle pronominali ficcate dappertutto, pure nei verbi.
Eh, ma ragioni da linguista, non da statistico ;) La tokenizzazione, nei Transformer models, è ad opera degli algoritmi Byte-Pair Encoding (BPE) [1], WordPiece, Unigram, linguisticamente neutri. In breve, un algoritmo del genere forma dei dizionari composti da un insieme iniziale di unigrammi (ad esempio le lettere dell'alfabeto) seguito da digrammi composti dalle coppie più frequenti e così via, finché non si ottiene un vocabolario delle dimensioni stabilite (32000 nel caso di LLaMA, 50257 di GPT, ecc.). Scorrendo l'elenco del vocabolario di LLaMA saltano fuori token che, a prima vista, ti chiedi dove cavolo sono andati a prenderli, visto che non esistono in nessuna lingua del mondo, ad esempio: pgfscope. Poi cerchi in rete e scopri che è un termine usato da "pgf package", "a TEX macro package", "Inside a picture, you can create nested scopes using pgfscope" [2]. Chissà in quanti documenti TEX hanno ravanato.
A.
[1] https://arxiv.org/pdf/1508.07909.pdf [2] https://www.cs.cmu.edu/afs/cs/misc/tex/common/teTeX-3.0-distrib/share/texmf/... _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Buongiorno Guido, Guido Vetere <vetere.guido@gmail.com> writes: [...]
quando gli amici mathematicos, in tempi non sospetti, mi illustrarono queste tecniche, li presi in giro dicendo che era una spannometria (span=espansione)
adesso sono loro che prendono in giro me, perché la cosa ha funzionato :-O
[...]
PS: i mathematicos poi sbagliano quando reificano i loro intrugli algoritmici promuovendoli a una linguistica alternativa tutta giocata sul piano del significante
Quindi continuano a spannometricare, solo che lo span=espansione stavolta è grande come internet e quindi il significante /sembra/ l'intero triangolo semiotico ma in realtà è solo una sua /proiezione/ monodimensionale _molto_ "bold"? Saluti, 380° [...] P.S.: faccio finta di aver capito quello che ho scritto :-D -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
i mathematicos che vogliono fare l'AGI, pensano che associando i token del representamen (significante) e dell'oggetto (referente) si riesca a risalire al interpretante (più o meno il 'segno' degli strutturalisti). i più bold pensano che l'associazione /sia/ l'interpretante, ma i filosofi, senza laurea STEM, non lo hanno mai capito noialtri scettici (skepsi - e sai cosa bevi) pensiamo invece (con Peirce) che l'interpretazione sia /abduzione/, cioè una decisione che contiene sempre qualcosa di extra-logico (preferenze, orientamenti, interessi, sensibilità, intuizioni geniali, disagio mentale) i mathematicos ci sbatteranno davanti al naso i loro robottini che eseguono ordini e rispondono a tono (sceglieranno vocette rassicuranti, anche un po' insicure) facendosi beffe dei nostri dubbi con ostentazioni /positive/. hanno già iniziato, come sapete: https://www.youtube.com/watch?v=Sq1QZB5baNw detto questo, vedo in giro atteggiamenti di 'denial' (questa cosa non funziona! non serve! è illegale! va impedita!). si tratta a mio avviso di un 'aventinismo tecnologico' che non serve a nulla. piuttosto dobbiamo prendere le misure queste 'intelligenze aliene' pensando a come integrarle nella loro e per la loro diversità G. On Thu, 21 Mar 2024 at 17:22, 380° <g380@biscuolo.net> wrote:
Buongiorno Guido,
Guido Vetere <vetere.guido@gmail.com> writes:
[...]
quando gli amici mathematicos, in tempi non sospetti, mi illustrarono queste tecniche, li presi in giro dicendo che era una spannometria (span=espansione)
adesso sono loro che prendono in giro me, perché la cosa ha funzionato :-O
[...]
PS: i mathematicos poi sbagliano quando reificano i loro intrugli algoritmici promuovendoli a una linguistica alternativa tutta giocata sul piano del significante
Quindi continuano a spannometricare, solo che lo span=espansione stavolta è grande come internet e quindi il significante /sembra/ l'intero triangolo semiotico ma in realtà è solo una sua /proiezione/ monodimensionale _molto_ "bold"?
Saluti, 380°
[...]
P.S.: faccio finta di aver capito quello che ho scritto :-D
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
The term “artificial general intelligence” (AGI) has become ubiquitous in current discourse around AI. OpenAI states that its mission is “to ensure that artificial general intelligence benefits all of humanity.” DeepMind’s company vision statement notes that “artificial general intelligence…has the potential to drive one of the greatest transformations in history.” AGI is mentioned prominently in the UK government’s National AI Strategy and in US government AI documents. Microsoft researchers recently claimed evidence of “sparks of AGI” in the large language model GPT-4, and current and former Google executives proclaimed that “AGI is already here.” The question of whether GPT-4 is an “AGI algorithm” is at the center of a lawsuit filed by Elon Musk against OpenAI. Given the pervasiveness of AGI talk in business, government, and the media, one could not be blamed for assuming that the meaning of the term is established and agreed upon. However, the opposite is true: What AGI means, or whether it means anything coherent at all, is hotly debated in the AI community. And the meaning and likely consequences of AGI have become more than just an academic dispute over an arcane term. The world’s biggest tech companies and entire governments are making important decisions on the basis of what they think AGI will entail. But a deep dive into speculations about AGI reveals that many AI practitioners have starkly different views on the nature of intelligence than do those who study human and animal cognition—differences that matter for understanding the present and predicting the likely future of machine intelligence. Continua qua https://www.science.org/doi/10.1126/science.ado7069 -- EN https://www.hoepli.it/libro/la-rivoluzione-informatica/9788896069516.html ====================================================== Prof. Enrico Nardelli Past President di "Informatics Europe" Direttore del Laboratorio Nazionale "Informatica e Scuola" del CINI Dipartimento di Matematica - Università di Roma "Tor Vergata" Via della Ricerca Scientifica snc - 00133 Roma home page: https://www.mat.uniroma2.it/~nardelli blog: https://link-and-think.blogspot.it/ tel: +39 06 7259.4204 fax: +39 06 7259.4699 mobile: +39 335 590.2331 e-mail: nardelli@mat.uniroma2.it online meeting: https://blue.meet.garr.it/b/enr-y7f-t0q-ont ====================================================== --
Buongiorno, grazie mille della segnalazione Enrico Nardelli <nardelli@mat.uniroma2.it> writes: [...]
a deep dive into speculations about AGI reveals that many AI practitioners have starkly different views on the nature of intelligence than do those who study human and animal cognition—differences that matter for understanding the present and predicting the likely future of machine intelligence.
_taggo_ questo concetto
Continua qua https://www.science.org/doi/10.1126/science.ado7069
My personal humble executive summary: --8<---------------cut here---------------start------------->8--- The definition of AGI was adjusted accordingly to include only so-called “cognitive tasks.” DeepMind cofounder Demis Hassabis defines AGI as a system that “should be able to do pretty much any cognitive task that humans can do,” and OpenAI describes it as “highly autonomous systems that outperform humans at most economically valuable work,” where “most” leaves out tasks requiring the physical intelligence that will likely elude robots for some time. The notion of “intelligence” in AI—cognitive or otherwise—is often framed in terms of an individual agent optimizing for a reward or goal. One influential paper defined general intelligence as “an agent’s ability to achieve goals in a wide range of environments”; another stated that “intelligence, and its associated abilities, can be understood as subserving the maximisation of reward.” Indeed, this is how current-day AI works—the computer program AlphaGo, for example, is trained to optimize a particular reward function (“win the game”), and GPT-4 is trained to optimize another kind of reward function (“predict the next word in a phrase”). --8<---------------cut here---------------end--------------->8--- Ho già detto in altre occasioni che una efficace caratterizzazione dei sistemi LLM è "macchine sofistiche", perché - perdonatemi la banalizzazione - per i sofisti non è importante comprendere la verità ma solo /dipinger(se)la/, /narrar(se)la/. Analogamente, più osservo il dibattito sulla AGI più mi convinco che si tratti solo e soltanto di meta-sofismo, ovvero sofismo sul sofismo, cioè sofismo al quadrato: non importa comprendere cosa sia l'intelligenza o cosa siano le capacità cognitive, i meta-sofisti l'intelligenza "se la cantano e se la suonano". Di questo stiamo parlando: meta-sofismo on steroids. [...] Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Se i sofisti avessero avuto i soldi dei GAFAM, Socrate, Platone e Aristotele avebbero lavorato per loro :-) G. Il Ven 22 Mar 2024, 10:30 380° <g380@biscuolo.net> ha scritto:
Buongiorno,
grazie mille della segnalazione
Enrico Nardelli <nardelli@mat.uniroma2.it> writes:
[...]
a deep dive into speculations about AGI reveals that many AI practitioners have starkly different views on the nature of intelligence than do those who study human and animal cognition—differences that matter for understanding the present and predicting the likely future of machine intelligence.
_taggo_ questo concetto
Continua qua https://www.science.org/doi/10.1126/science.ado7069
My personal humble executive summary:
--8<---------------cut here---------------start------------->8---
The definition of AGI was adjusted accordingly to include only so-called “cognitive tasks.” DeepMind cofounder Demis Hassabis defines AGI as a system that “should be able to do pretty much any cognitive task that humans can do,” and OpenAI describes it as “highly autonomous systems that outperform humans at most economically valuable work,” where “most” leaves out tasks requiring the physical intelligence that will likely elude robots for some time.
The notion of “intelligence” in AI—cognitive or otherwise—is often framed in terms of an individual agent optimizing for a reward or goal. One influential paper defined general intelligence as “an agent’s ability to achieve goals in a wide range of environments”; another stated that “intelligence, and its associated abilities, can be understood as subserving the maximisation of reward.” Indeed, this is how current-day AI works—the computer program AlphaGo, for example, is trained to optimize a particular reward function (“win the game”), and GPT-4 is trained to optimize another kind of reward function (“predict the next word in a phrase”).
--8<---------------cut here---------------end--------------->8---
Ho già detto in altre occasioni che una efficace caratterizzazione dei sistemi LLM è "macchine sofistiche", perché - perdonatemi la banalizzazione - per i sofisti non è importante comprendere la verità ma solo /dipinger(se)la/, /narrar(se)la/.
Analogamente, più osservo il dibattito sulla AGI più mi convinco che si tratti solo e soltanto di meta-sofismo, ovvero sofismo sul sofismo, cioè sofismo al quadrato: non importa comprendere cosa sia l'intelligenza o cosa siano le capacità cognitive, i meta-sofisti l'intelligenza "se la cantano e se la suonano".
Di questo stiamo parlando: meta-sofismo on steroids.
[...]
Saluti, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
Buongiorno, Guido Vetere <vetere.guido@gmail.com> writes:
Se i sofisti
giusto per chiarir(m)e pubblicamente, il parallelo corretto è quello con gli _eristi_. Per dirla /esattamente/ con Platone (via Wikipedia), gli LLM: --8<---------------cut here---------------start------------->8--- Sono filosofi in quanto trattano di questioni filosofiche, ma sono anche inferiori ai veri pensatori perché non ricercano la virtù o la verità ma si limitano a controbattere ciò che afferma l'avversario dialettico. Sono politici in quanto cercano di persuadere più persone possibili dei propri ragionamenti, ma sono anche inferiori ad essi perché a loro non interessa il bene della città e dei propri cittadini. --8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Eristica#Gli_eristi:_sapienti_e_politici_infer...)
avessero avuto i soldi dei GAFAM, Socrate, Platone e Aristotele avebbero lavorato per loro :-)
Sono ignorantissimo in storia dell'antica grecia, ma mi pare di capire che i sofisti vennero aspramente criticati dai loro contemporanei (anche) perché si facevano pagare per i loro insegnamenti, addirittura Socrate li definì «prostituti della cultura» (enofonte, Memorabili I.6.13.) Inoltre: --8<---------------cut here---------------start------------->8--- Essi riscossero successo soprattutto presso i ceti altolocati. --8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Sofistica#I_sofisti) Se GAFAM="ceti altolocati" allora /forse/ la situazione è analoga :-) Onestamente non so come si finanziassero Socrate, Platone e Aristotele per insegnare nelle loro scuole :-O [...]
Ho già detto in altre occasioni che una efficace caratterizzazione dei sistemi LLM è "macchine sofistiche",
Mi autocorreggo quindi: "macchine eristiche", in inglese "eristic machines" Interessante corollario è ciò che già Platone considerava essere l'aspetto positivo degli eristi: --8<---------------cut here---------------start------------->8--- con i loro discorsi doppi fanno spostare l'attenzione sull'ambiguità che le parole assumono a seconda dei contesti e dell'uso che se ne fa e quindi sulla necessità di stabilire dei significati chiari e distinti: «In primo luogo […] bisogna imparare la correttezza dei nomi; appunto questo ti mostrano i due forestieri [Eutidemo e Dionisodoro]». --8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Eristica#Un_aspetto_positivo_dell'eristica) Quindi le "macchine eristiche" sono /molto/ utili quando usate «cum granu salis»; ovviamente vale per tutti i sistemi di c.d. "intelligenza artificiale" (*narrow*, che è l'unica che esiste). ...e già anche solo nella mia frase precedente si vede la /fondamentale/ importanza che «le parole assumono a seconda dei contesti», specialmente nel contesto della AGI nel quale si inserisce questa discussione e che l'articolo segnalato da Daniela Tafani illustra _molto_ bene. [...] Saluti, 380° P.S.: l'incessante richiamo dei filosofi _tutti_ all'"importanza dei nomi" può apparire pedanteria ad una analisi superficiale, ma quello è IL problema, un problema _metafisico_, /linguistico/ più che matematico (perché la matematica _è_ metafisica, vero?). -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
secondo me sophistic machines suona meglio: gli eristi in fondo erano solo sofisti che facevano l'avvocato :-) se ti stai interessando alla filosofia antica e in particolare al dibattito sul linguaggio, ti consiglierei di partire dai dialoghi platonici classici: Cratilo, Gorgia e Sofista, (puoi accompagnare con le quindici lezioni di Vegetti su Platone) e naturalmente le confutazioni sofistiche di Aristotele. Per l'altra campana, cioè lo scetticismo antico, puoi leggere gli Schizzi pirroniani di Sesto Empirico (da cui viene anche 'adversus mathematicos') studiare i LLM dopo sarà molto più divertente :-) G. On Sat, 23 Mar 2024 at 12:12, 380° <g380@biscuolo.net> wrote:
Buongiorno,
Guido Vetere <vetere.guido@gmail.com> writes:
Se i sofisti
giusto per chiarir(m)e pubblicamente, il parallelo corretto è quello con gli _eristi_.
Per dirla /esattamente/ con Platone (via Wikipedia), gli LLM:
--8<---------------cut here---------------start------------->8---
Sono filosofi in quanto trattano di questioni filosofiche, ma sono anche inferiori ai veri pensatori perché non ricercano la virtù o la verità ma si limitano a controbattere ciò che afferma l'avversario dialettico.
Sono politici in quanto cercano di persuadere più persone possibili dei propri ragionamenti, ma sono anche inferiori ad essi perché a loro non interessa il bene della città e dei propri cittadini.
--8<---------------cut here---------------end--------------->8--- ( https://it.wikipedia.org/wiki/Eristica#Gli_eristi:_sapienti_e_politici_infer... )
avessero avuto i soldi dei GAFAM, Socrate, Platone e Aristotele avebbero lavorato per loro :-)
Sono ignorantissimo in storia dell'antica grecia, ma mi pare di capire che i sofisti vennero aspramente criticati dai loro contemporanei (anche) perché si facevano pagare per i loro insegnamenti, addirittura Socrate li definì «prostituti della cultura» (enofonte, Memorabili I.6.13.)
Inoltre:
--8<---------------cut here---------------start------------->8---
Essi riscossero successo soprattutto presso i ceti altolocati.
--8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Sofistica#I_sofisti)
Se GAFAM="ceti altolocati" allora /forse/ la situazione è analoga :-)
Onestamente non so come si finanziassero Socrate, Platone e Aristotele per insegnare nelle loro scuole :-O
[...]
Ho già detto in altre occasioni che una efficace caratterizzazione dei sistemi LLM è "macchine sofistiche",
Mi autocorreggo quindi: "macchine eristiche", in inglese "eristic machines"
Interessante corollario è ciò che già Platone considerava essere l'aspetto positivo degli eristi:
--8<---------------cut here---------------start------------->8---
con i loro discorsi doppi fanno spostare l'attenzione sull'ambiguità che le parole assumono a seconda dei contesti e dell'uso che se ne fa e quindi sulla necessità di stabilire dei significati chiari e distinti: «In primo luogo […] bisogna imparare la correttezza dei nomi; appunto questo ti mostrano i due forestieri [Eutidemo e Dionisodoro]».
--8<---------------cut here---------------end--------------->8--- (https://it.wikipedia.org/wiki/Eristica#Un_aspetto_positivo_dell'eristica)
Quindi le "macchine eristiche" sono /molto/ utili quando usate «cum granu salis»; ovviamente vale per tutti i sistemi di c.d. "intelligenza artificiale" (*narrow*, che è l'unica che esiste).
...e già anche solo nella mia frase precedente si vede la /fondamentale/ importanza che «le parole assumono a seconda dei contesti», specialmente nel contesto della AGI nel quale si inserisce questa discussione e che l'articolo segnalato da Daniela Tafani illustra _molto_ bene.
[...]
Saluti, 380°
P.S.: l'incessante richiamo dei filosofi _tutti_ all'"importanza dei nomi" può apparire pedanteria ad una analisi superficiale, ma quello è IL problema, un problema _metafisico_, /linguistico/ più che matematico (perché la matematica _è_ metafisica, vero?).
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno insegnato a scuola
Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per assumere un linguista) la performance del nostro sistema migliora". A parità di risultato finale, un set dati in una lingua nota, produce un "model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi di quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi affissi, ecc. Un risultato finale *identico* ma con molti cicli macchina in meno (non ditelo a NVIDA) e con molta energia elettrica in meno. Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non serve un approccio multilingue. Penso alla pubblica amministrazione, alla giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", magari derivato da uno di quelli "open source" che ci sono adesso, tipo LLaMA, ecc. che entrerebbe in azione solo su richiesta dell'utente. A.
Antonio <antonio@piumarossa.it> writes:
per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno insegnato a scuola
Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per assumere un linguista) la performance del nostro sistema migliora".
<joke> pensa cosa potrebbe succedere quando un linguista dovesse imparare la programmazione o un matematico imparare la linguistica </joke> 555 [1] saluti, 380° [...] [1] un lauto premio a chi interpreta correttamente quel /simbolo/! P.S.: finché c'è programmazione c'è speranza. -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
sono d'accordo: alla PA non serve un sistema "general purpose" multilingua e con generazione di codice inclusa, ma soprattutto qualcosa che permetta di implementare funzioni di estrazione intelligente, di RAG, etc grazie soprattutto a buoni embedding. Un LM monolingua adatto a questi scopi potrebbe benissimo avere dimensioni contenute e ciascuna amministrazione potrebbe metterlo in esercizio perfino sulle workstation. peraltro, questo in qualche modo è già fattibile con modelli aperti < 70B. il tema però è quello della costruzione (nb: non fine-tuning) di un LM su testi italiani 'kosher'. OpenAI e Mistral hanno entrambi detto che sarebbe ben difficile stimare un modello efficace senza usare anche materiale copyrighted. chi ha ragione? lo vedremo. se dovessi farlo io, punterei molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire dalla morfologia. ma parlo da linguista :-) G. On Thu, 21 Mar 2024 at 20:00, Antonio <antonio@piumarossa.it> wrote:
per questo, tornando al tema dell'autarchia italiana, mi chiedo se, avendo pochi dati ma una lingua nota, non valga la pena tokenizzare come ci hanno insegnato a scuola
Beh, parafrasando e rivoltando il senso della famosa battuta di Frederick Jelinek, mi verrebbe da dire: "Ogni volta che licenzio un matematico (per assumere un linguista) la performance del nostro sistema migliora". A parità di risultato finale, un set dati in una lingua nota, produce un "model" molto più piccolo, un "tokenizer" più piccolo e adattato ai lemmi di quella lingua, con la sua sillabazione, le sue forme clitiche, i suoi affissi, ecc. Un risultato finale *identico* ma con molti cicli macchina in meno (non ditelo a NVIDA) e con molta energia elettrica in meno. Un "modello" del genere potrebbe andare bene in tutti quei casi in cui non serve un approccio multilingue. Penso alla pubblica amministrazione, alla giustizia ... Poi, certo, vi si potrebbe abbinare un sistema "generico", magari derivato da uno di quelli "open source" che ci sono adesso, tipo LLaMA, ecc. che entrerebbe in azione solo su richiesta dell'utente.
A. _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
il tema però è quello della costruzione (nb: non fine-tuning)
E' un NB grosso come una casa. "Zefiro is a fine-tuned version of the Mistral model for the Italian language" Quindi, il dizionario di Zefiro è lo STESSO di quello di Mistral. E' come studiare i Promessi Sposi, avendo accanto un dizionario multilingue in cui i lemmi in italiano (una piccola percentuale) siano in mezzo a quelli delle altre lingue. Una follia, direbbe un letterato.
se dovessi farlo io, punterei molto sul recupero di 'prior knowledge' sulla lingua italiana, a partire dalla morfologia. ma parlo da linguista :-)
Prendiamo il progetto OSCAR [1]: The OSCAR project (Open Super-large Crawled Aggregated coRpus) is an Open Source project aiming to provide web-based multilingual resources and datasets for Machine Learning (ML) and Artificial Intelligence (AI) applications. This repository is publicly accessible, but you have to accept the conditions to access its files and content. By filling the form below, you understand that only the metadata and the annotations of OSCAR 23.01 have a cc0-1.0 license, and that the rest of the content is crawled data derived from the November/December 2022 snapshot of Common Crawl, for which the authors of OSCAR do not hold any copyright whatsoever. Italian 89.021.606 documenti, 36.327.274.203 parole, 259.4 GB Estratte da Common Crawl, quindi dal web, senza chiedere permesso a nessuno. Qualcuno ha mai quantificato, invece, l'Open access in italiano? A naso direi più di 259 Gb Qualcuno ha mai quantificato i "documenti" presenti, ad esempio, in Normattiva? Sempre a naso, direi più di 259 Gb E potrei continuare ... A. [1] https://oscar-project.github.io/documentation/versions/oscar-2301/
participants (5)
-
380° -
Antonio -
Enrico Nardelli -
Giacomo Tesio -
Guido Vetere