una "gemma" da Google
talvolta (per ragioni insondabili) i monopolisti USA fanno cose che sembrano socialmente utili Google ha rilasciato gemma2, un modello 'aperto' da soli 9B (gira pressoché ovunque) che sembra (a prima vista) sorprendentemente buono, anche in italiano. Certamente molto meglio di certi modelli 'autarchici' recentemente rilasciati. Ecco un esempio di conversazione: === You: Dai un giudizio storico su Mussolini, in italiano Bot: Valutare Mussolini storicamente è un compito complesso, che richiede di analizzare sia i suoi successi che i suoi fallimenti, senza cadere nel simplismo di una mera glorificazione o condanna. **Da un lato**, Mussolini fu un leader carismatico che seppe sfruttare le fragilità del sistema democratico italiano post-Prima Guerra Mondiale, offrendo soluzioni rapide e concrete a problemi sociali ed economici. Sotto il suo regime, l'Italia visse un periodo di relativa stabilità interna, con un'economia in crescita e una forte propaganda nazionalista. **Dall'altro lato**, il fascismo di Mussolini si basava su principi autoritari e totalitari, che sopprimevano le libertà individuali e politiche. La sua politica estera aggressiva portò all'invasione dell'Etiopia e all'alleanza con la Germania nazista, culminando nella partecipazione alla Seconda Guerra Mondiale, con conseguenze disastrose per l'Italia. **In sintesi**, la figura di Mussolini rimane controversa. Fu un leader capace di ottenere risultati in alcuni ambiti, ma il suo lascito storico è segnato dalla dittatura, dalla violenza e dalla guerra. La sua eredità continua a essere dibattuta dagli storici, che cercano di comprenderne le cause e le conseguenze nel contesto storico italiano e mondiale. È importante ricordare che ogni valutazione storica deve essere ponderata e basata su fonti affidabili, evitando semplificazioni e pregiudizi. You: cosa pensi di chi ancora oggi, in Italia, rimpiange quella figura? Bot: Mi sembra importante analizzare questa domanda con delicatezza e attenzione. Quando si parla di figure storiche, come Mussolini, è inevitabile che sussistano opinioni diverse e persino contrastanti. **Chi oggi in Italia potrebbe rimpiangere Mussolini?** Potrebbero esserci persone che: * **Idealizzano un passato di ordine e stabilità:** Alcuni potrebbero ricordare un periodo di apparente prosperità economica e sociale durante il regime fascista, trascurando le violenze, le repressioni e le ingiustizie. * **Soffrono nostalgia per un'identità nazionale forte:** Il fascismo si basava su un'idea di nazione forte e unita, che potrebbe risuonare con chi si sente perso o alienato nell'attuale società. * **Sostengono visioni politiche di destra radicale:** Alcune correnti politiche di estrema destra possono ancora venerare Mussolini come un leader carismatico e un precursore delle proprie idee. È fondamentale ricordare che: * **Il fascismo fu un regime totalitario e criminale:** Le sue azioni portarono a guerre, persecuzioni, violenze e un profondo trauma per l'Italia. * **La memoria storica è complessa:** È importante analizzare il passato con onestà e critica, senza idealizzare o minimizzare le tragedie. * **La democrazia e i valori di libertà e uguaglianza sono fondamentali:** Dobbiamo essere vigilanti contro ogni forma di autoritarismo e discriminazione. In conclusione, è importante riconoscere l'esistenza di queste opinioni, ma è altrettanto importante condannarle e difendere i valori democratici. La memoria storica ci insegna a non dimenticare le tragedie del passato e a lottare per un futuro di libertà e giustizia. === Notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no). Modelli 'aperti' (virgolette d'obbligo) di questo tipo continueranno a uscire nei prossimi mesi. Di fatto, in prospettiva, chiunque potrà ospitare un simil-GPT sul proprio server da 100 euro al mese, anche adattandolo (fine-tuning) al proprio dominio. Insomma, chi vuole 'distruggere' l'AI generativa dovrà andare un bel po' in giro ... :-) Cheers, G.
Salve Guido, Il 28 Giugno 2024 14:05:33 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
talvolta (per ragioni insondabili) i monopolisti USA fanno cose che sembrano socialmente utili
"sembrano".. ottima scelta terminologica. :-D Ma basta sapere di cosa si parla per riconoscere subito l'inganno.
Google ha rilasciato gemma2, un modello 'aperto'
Dove posso scaricare i sorgenti? Ovvero, dove trovo i testi, le configurazioni, etc... per rieffetuare il processo di programmazione statistica che ha prodotto in output quelle matrici?
Modelli 'aperti' (virgolette d'obbligo)...
In che senso? Cosa intendi esattamente per "aperto" ? Giacomo
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento 😉 G. Il Ven 28 Giu 2024, 23:27 Giacomo Tesio <giacomo@tesio.it> ha scritto:
Salve Guido,
Il 28 Giugno 2024 14:05:33 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
talvolta (per ragioni insondabili) i monopolisti USA fanno cose che sembrano socialmente utili
"sembrano".. ottima scelta terminologica. :-D Ma basta sapere di cosa si parla per riconoscere subito l'inganno.
Google ha rilasciato gemma2, un modello 'aperto'
Dove posso scaricare i sorgenti?
Ovvero, dove trovo i testi, le configurazioni, etc... per rieffetuare il processo di programmazione statistica che ha prodotto in output quelle matrici?
Modelli 'aperti' (virgolette d'obbligo)...
In che senso? Cosa intendi esattamente per "aperto" ?
Giacomo
Il 28 Giugno 2024 21:45:36 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento
Perché "certo"? Da quando un binario opaco è "aperto" per il solo fatto di essere scaricabile? Giacomo
On sab, 2024-06-29 at 07:00 +0000, Giacomo Tesio wrote:
Il 28 Giugno 2024 21:45:36 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento
Perché "certo"?
Da quando un binario opaco è "aperto" per il solo fatto di essere scaricabile?
Perché dovrebbe essere un binario? I dataset sono, per loro natura "in chiaro". Diverso sarebbe se ti dessero l'LLM addestrato. In questo caso, sarebbero "blob".
Salve Marco Anselmo Giovanni, Il 29 Giugno 2024 07:06:57 UTC, <marcoc_maillist@marcoc.it> ha scritto:
On sab, 2024-06-29 at 07:00 +0000, Giacomo Tesio wrote:
Il 28 Giugno 2024 21:45:36 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento
Perché "certo"?
Da quando un binario opaco è "aperto" per il solo fatto di essere scaricabile?
Perché dovrebbe essere un binario? I dataset sono, per loro natura "in chiaro".
Tu hai trovato il dataset utilizzato per programmare statisticamente quelle matrici? Sarei curioso di studiarlo, modificarlo e ridistribuirlo. Un "LLM" è un eseguibile che una specifica macchina "virtuale", descritta da una architettura specifica può eseguire. Che l'architettura sia basata sulla riduzione di vettori (impropriamente detta "rete neurale artificiale) o su transistor, che si chiami LLaMA, x86 o RISC-V, è irrilevante. L'eseguibile può essere codificato in vari modi, in matrici di float in un csv, in esadecimale, in base 64, in base 2 etc... ma rimane opaco ed inintellegibile e dunque non "aperto" per qualsiasi definizione rilevante di "aperto", con o senza virgolette.
Diverso sarebbe se ti dessero l'LLM addestrato.
Su huggingface trovi il dataset sorgente? Mi passi il link diretto?
In questo caso, sarebbero "blob".
Se preferisci, ok. Ma si tratta di "blob eseguibili" (da una certa macchina), eseguibilità che il termine "blob" non rende particolarmente bene. Io utilizzo di solito "binario" per distinguerlo dal sorgente leggibile (scritto o selezionato, non importa) utilizzato per produrlo. Fatto sta che, senza sorgenti (dataset, fonti randomiche utilizzate durante il processo di compilazione etc...) un LLM è tanto "aperto" quanto è "asfaltato", "assolato", "marmoreo" o "puzzolente": possiamo attribuirgli qualsiasi aggettivo, pur di ignorare completamente il significato del termine usato. (come fa, in effetti, ogni LLM) Giacomo
Su huggingface trovi il dataset sorgente? Mi passi il link diretto?
Anche se ci fosse, che ci faresti? I dataset che usano ormai si sanno quali sono (e i link, con un po' di fatica, si trovano), quella che non si conosce è, ad esempio, la Pre-Processing Pipeline. Prendiamo IBM Granite [1]: granite.13b.v1, was trained on 1 trillion tokens. The individual datasets used in the training are described below. 1) arXiv: Over 1.8 million scientific paper pre-prints posted to arXiv. 2) Common Crawl: Open repository of web crawl data. 3) DeepMind Mathematics: Mathematical question and answer pairs data. 4) Free Law: Public-domain legal opinions from US federal and state courts. 5) GitHub Clean: Code data from CodeParrot covering a variety of coding languages. 6) Hacker News: News on computer science and entrepreneurship, taken between 2007-2018 7) OpenWeb Text: Open-source version of OpenAI's Web Text corpus containing web pages through 2019. 8) Project Gutenberg (PG-19): A repository of free e-books with focus on older works for which U.S. copyright has expired. 9) Pubmed Central: Biomedical and life sciences papers. 10) SEC Filings: 10-K/Q filings from the US Securities and Exchange Commission (SEC) for the years 1934-2022. 11) Stack Exchange: Anonymized set of all user-contributed content on the Stack Exchange network, a popular collection of websites centered around user-contributed questions and answers. 12) USPTO: US patents granted from 1975 to May 2023, excluding design patents. 13) Webhose: Unstructured web content converted into machine-readable data feeds acquired by IBM. 14) Wikimedia: Eight English Wikimedia projects (enwiki, enwikibooks, enwikinews, enwikiquote, enwikisource, enwikiversity, enwikivoyage, enwiktionary). containing extracted plain text from pages and articles. 15) Earnings Call Transcripts: Transcripts from the quarterly earnings calls that companies hold with investors. The dataset reports a collection of earnings call transcripts, the related stock prices, and the sector index. 16) EDGAR Filings: Annual reports from all the publicly traded companies in the US spanning a period of more than 25 years. 17) FDIC: The data is from the annual submissions of the FDIC. 18) Finance Text Books: A corpus from UMN’s Open Textbook Library, including a dump of all textbooks tagged as finance. 19) Financial Research Papers: Publicly available financial research paper corpus. 20) IBM Documentation: IBM redbooks and product documents A. [1] https://www.ibm.com/downloads/cas/X9W4O6BM
Ciao Antonio, Il 29 Giugno 2024 18:51:12 UTC, Antonio <antonio@piumarossa.it> ha scritto:
Su huggingface trovi il dataset sorgente? Mi passi il link diretto?
Anche se ci fosse, che ci faresti?
Un sacco di cose! Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre agli utenti senza risponderne.
I dataset che usano ormai si sanno quali sono
Ne dubito. Con la scusa del motore di ricerca, Google ha accesso a molto più materiale dei concorrenti. Perché non usarlo se nessuno pretende trasparenza dai suoi software?
quella che non si conosce è, ad esempio, la Pre-Processing Pipeline.
Se ti mancano le definizioni delle macro necessarie, non puoi compilare un sorgente C. Per poter definire "aperto" quel sorgente, devi disporre di quelle macro (aka "direttive per il preprocessore". Altrimenti, di fatto, non puoi sapere cosa fa. Per un software programmato statisticamente è lo stesso: se non puoi ricompilarlo perché ti mancano delle parti, allora non è "aperto" più di quanto non sia "marmoreo". Perché sia software "aperto" (seppur non libero) è come minimo necessario dispore di tutti i dati ed i processi utilizzati durante la sua realizzazione, con precisione e completezza sufficiente a poterne replicare precisamente il proceso di compilazione. Giacomo
Un sacco di cose! Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre agli utenti senza risponderne.
Stiamo dicendo la stessa cosa. Nel documento che ho citato leggo: "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing". Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM. Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte). Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo. Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte. L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty : "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero." A.
Se gli LLM si alimentano con quello che si trova a titolo gratuito in rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente infondato, di cui non sanno valutare l'attendibilità e che quindi prendono in considerazione. Se invece si alimentassero a partire dagli studi degli storici seri, non troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte coperti da copyright e quindi non disponibili agli LLM. Il che mi pare sia un serio indizio del fatto che l'attendibilità di quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini a quella di una discussione in uno scompartimento ferroviario quando il treno accumula ritardo e qualcuno afferma che quando c'era lui i treni arrivavano in orario. Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <antonio@piumarossa.it> ha scritto:
Un sacco di cose! Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre agli utenti senza risponderne.
Stiamo dicendo la stessa cosa. Nel documento che ho citato leggo: "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing". Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM. Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte). Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo. Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte. L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty : "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."
A.
Il problema è che per ottenere un surrogato distribuzionale della competenza linguistica sono necessari molti TB di testo. Ma per come sono fatti e come normalmente funzionano, i LM non sono in grado di separare gli aspetti 'grammaticali' da quelli fattuali e valoriali. Si cerca dunque fare qualcosa a monte e a valle del training, col filtraggio e l'allineamento, ed è qui che chi ha più risorse può far meglio valere il proprio vantaggio. Bisognerà dunque tornare a separare sintassi e semantica, come raccomandava Chomsky negli anni '50 in polemica coi distribuzionalisti del tempo. L'approccio c.d. "neurosimbolico" punta un po' a questo, quì un libro per chi vuole approfondire: https://www.iospress.com/catalog/books/compendium-of-neurosymbolic-artificia... Il Dom 30 Giu 2024, 10:04 Mauro Gorrino <mauro.gorrino@gmail.com> ha scritto:
Se gli LLM si alimentano con quello che si trova a titolo gratuito in rete, ovviamente trovano anche tutto il ciarpame nostalgico storicamente infondato, di cui non sanno valutare l'attendibilità e che quindi prendono in considerazione.
Se invece si alimentassero a partire dagli studi degli storici seri, non troverebbero questo ciarpame, ma gli studi seri sono in grandissima parte coperti da copyright e quindi non disponibili agli LLM.
Il che mi pare sia un serio indizio del fatto che l'attendibilità di quanto affermato da LLM su molti argomenti tra cui il fascismo si avvicini a quella di una discussione in uno scompartimento ferroviario quando il treno accumula ritardo e qualcuno afferma che quando c'era lui i treni arrivavano in orario.
Il giorno sab 29 giu 2024 alle ore 23:57 Antonio <antonio@piumarossa.it> ha scritto:
Un sacco di cose! Ad esempio, una volta verificato che sono effettivamente i dataset sorgente, ne indagherei i "bias di selezione" ovvero le opinioni che Google intende imporre agli utenti senza risponderne.
Stiamo dicendo la stessa cosa. Nel documento che ho citato leggo: "IBM had curated 6.48 TB of data before pre-processing, 2.07 TB after pre-processing". Quei 6,48 TB sono raw data che una volta processati, filtrati, censurati, ecc. diventano 2.07 TB, quest'ultima è la "conoscenza" dell'LLM. Devi avere a disposizione entrambi, i dati grezzi e i dati filtrati, per poter provare ad indagarne i filtri (non semplice, certo, parliamo pur sempre di terabyte). Rispondendo a Guido: "notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no)" faccio notare che non è solo Google a poterselo permettere, anche gli altri operano in quel modo. Basta andare su https://gpt.h2o.ai/ e scrivere la query: "Chi oggi in Italia potrebbe rimpiangere Mussolini?" e scegliere di volta in volta un model diverso. Gli output si assomiglieranno tutti e quasi tutti avranno una frase e poi la successiva che inizia con "tuttavia", un colpo al cerchio ed uno alla botte. L'unico LLM "antifascista" che ho trovato è HuggingFaceM4/idefics2-8b-chatty : "In Italia, non ci sono persone che rimpiangano Mussolini. Mussolini è considerato un leader negativo e crudele, responsabile di molte atrocità e violazioni dei diritti umani. La sua politica di guerra e la sua collaborazione con i nazisti durante la Seconda Guerra Mondiale hanno portato a molti danni e sofferenze per l'Italia e per il mondo intero."
A.
Giacomo Tesio <giacomo@tesio.it> writes:
Il 28 Giugno 2024 21:45:36 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento
Perché "certo"?
Da quando un binario opaco è "aperto" per il solo fatto di essere scaricabile?
perché dopo 30 anni a qualcuno piace _ancora_ giochicchiare terminologicamente e siamo _ancora_ qui a menar il can per l'aia con 'sto cavolo di "aperto" ("open")... declinato in mille tipi di virgolette, tipo 'aperto'; declinato in mille sensi, tipo "nel senso di huggingface" che noia. saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
quello che 'scarichi' sono i parametri della rete, ed è ovviamente un 'blob' molto molto oscuro poi c'è l'architettura della rete, generalmente OS: se volete divertirvi a dare un'occhiata fate pure, ad es: https://github.com/ggerganov/llama.cpp quanto ai dataset: alcuni modelli li prendono da quello che si trova in giro, ad es: CommonCrawl: https://commoncrawl.org/ soggetti come Meta e Google ovviamente usano quello che hanno in casa, non lo esportano, è vero, ma è anche vero che glielo diamo noi spontaneamente (ci finirà dentro anche questa mail) quello che è veramente 'proprietario' sono le procedure di filtering e di alignment. alcune sono note e fattibili con risorse pubbliche, si veda ad es. la Direct Preference Optimization (DPO): https://huggingface.co/collections/argilla/preference-datasets-for-dpo-656f0... ma si vede a occhio nudo che quelli di DeepMind hanno di (molto) meglio: non so se si tratti del lavoro di schiavi sottopagati o di cose ottenute con garbo e prodigalità, in ogni caso è ben difficile che questa roba sia resa disponibile hope that helps :-) G. On Sat, 29 Jun 2024 at 09:11, 380° via nexa <nexa@server-nexa.polito.it> wrote:
Giacomo Tesio <giacomo@tesio.it> writes:
Il 28 Giugno 2024 21:45:36 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
'aperti' nel senso di huggingface, cioè li puoi scaricare e l'architettura della rete è pubblica, ma certo che non ti danno i dataset di addestramento
Perché "certo"?
Da quando un binario opaco è "aperto" per il solo fatto di essere scaricabile?
perché dopo 30 anni a qualcuno piace _ancora_ giochicchiare terminologicamente e siamo _ancora_ qui a menar il can per l'aia con 'sto cavolo di "aperto" ("open")... declinato in mille tipi di virgolette, tipo 'aperto'; declinato in mille sensi, tipo "nel senso di huggingface"
che noia.
saluti, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Salve Guido, Il 29 Giugno 2024 07:38:09 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
soggetti come Meta e Google ovviamente usano quello che hanno in casa, non lo esportano, è vero
Quindi è "aperto" nel senso che... è chiuso. Splendido esempio di bipensiero! :-D
ma è anche vero che glielo diamo noi spontaneamente
Ehm... no. Anzitutto io non ho mai autorizzato chicchessia a creare opere derivate dai miei contributi alla lista Nexa. Inoltre tu stesso sottolinei come queste aziende svolgano un'attenta selezione dei testi sorgente. Certo, anche per evitare di irritare i fascisti di tutti i governi, ma anzitutto per evitare di diffondere idee incompatibili con il proprio business model. Attività di selezione del dataset sorgente che costituisce la parte più rilevante del processo di programmazione statistica.
(ci finirà dentro anche questa mail)
Solo se ciò che hai scritto piace a Google. Giacomo
Ciao, ho rinominato il thread per passare un po' di references che mi sono letto negli ultimi periodi il problema alla base è che la nostra cultura di free software, già sussunta dall' "open source" aveva creato una dicotomia esclusiva per cui un software o è open o è closed. Le dinamiche che ci hanno portato lì, non devo ripeterle, in questa lista sono parte della Lore. I valori del free software non potrebbero essere più distanti dall'attuale situazione, e l'ambiguità culturale dell'open source viene sfruttata in modo così iconico (openAI) da aver svuotato ogni significato. bipensiero, neolinga, keyword dropping. ma veniamo alle references. 1) questo documento identifica il problema della falsa openness: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4543807 - Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI - This paper examines ‘open’ AI in the context of recent attention to open and open source AI systems. 2) https://blog.mozilla.org/en/mozilla/ai/readouts-columbia-convening/ questa mistura di tecnici ed accadmici ha prodotto un paio di grafici e di tassionomie, dicendo come "l'opennes nell'AI è una sfumatura", ora, a me è chiaro che avere un'AI aperta solo al 90% è come dire "sono negativo al codiv per il 90%". umh. o quarantena o serata. non c'è una via di mezzo. ma come pregio, possiamo anche considerare che questo ci permetterebbe di iniziare ad avere visibilità e riproducibilità in alcuni passaggi. del resto anche l'idea che ci ri-addestriamo i miliardi di parametri in casa non è realistica quanto la ricompilazione di un software. 3) https://pure.mpg.de/rest/items/item_3588217_2/component/file_3588218/content - Rethinking open source generative AI: open-washing and the EU AI Act. Questo paper apre ad un'altro aspetto potenzialmente problematico. nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased. Ha senso quando pensi a librerie e framework, che non debbano essere soggetti agli obblighi di conformità. Ma siccome il termine open è ambiguo, come questo impatta la regolamentazione? I decreti attuativi, cosa dovrebbero definire? E ci sta pure, se creo una libreria ad alto livello per operare sui database vettoriali, sto servendo la comunità di sviluppatori. Ma se faccio la liberia chiamata "best worker". è un pezzo di codice python e un RAG preaddestrato, con documentazione sommaria. Il software, in questo esempio, si compone di una sola funzione guess_fitness(), e si aspetta due parametri nella black box. il primo è questo, e contiene i dati del candidato: { nome: <String> foto: <FILE.jpeg> esperienze: <markdown text> }, il secondo invece contiene i dettagli del lavoro da svolgere: { "job_name": <String>, "job_description:" <markdown text>, "challenges_example:" <markdown text> }, restituisce una percentuale così che l'HR possa ordinarli e prendere la top 3 Questo software rilasciato sotto AGPL-3, sarebbe un loophole nel regolamento? abbracci, Claudio On Sat, Jun 29, 2024 at 4:08 PM Giacomo Tesio <giacomo@tesio.it> wrote:
Quindi è "aperto" nel senso che... è chiuso. Splendido esempio di bipensiero! :-D
-- Claudio Agosti - Hermes Center, AI Forensics, Reversing Works. Platform Auditor & Tech Researcher [ linktr.ee/claudio.agosti ]
Ciao Claudio, grazie dei riferimenti! Il 30 Giugno 2024 09:38:24 UTC, Claudio Agosti ha scritto:
2) https://blog.mozilla.org/en/mozilla/ai/readouts-columbia-convening/ questa mistura di tecnici ed accadmici
Oh... Mozilla... il reparto PR geek-friendly di Google...
ha prodotto un paio di grafici e di tassionomie, dicendo come "l'opennes nell'AI è una sfumatura",
forse intendevano "di grigio"? :-D
come pregio, possiamo anche considerare che questo ci permetterebbe di iniziare ad avere visibilità e riproducibilità in alcuni passaggi.
Passaggi probabilmente irrilevanti e non problematici dal punto di vista politico. In altri termini fumo negli occhi.
del resto anche l'idea che ci ri-addestriamo i miliardi di parametri in casa non è realistica quanto la ricompilazione di un software.
Che lo facciamo in casa, al bar, o al CERN è irrilevante. Il punto è che se Google impedisce di farlo nascondendo qualsiasi informazione rilevante per riprodurre esattamente e completamente la compilazione di Gemma2 a partire dai testi sorgente, allora Gemma 2 non è open per nessuna definizione applicabile di open. Ci prende per fessi? Prende per fessi i Giudici europei? Conta che i fanboy delle magnifiche sorti e progressive dell'AI ne esaltino la magnanimità? Non lo so. Ma come Gemma 2 non può essere "un po' incinta", non può essere nemmeno "un po' open". Giacomo
Giacomo Tesio <giacomo@tesio.it> writes: [...]
del resto anche l'idea che ci ri-addestriamo i miliardi di parametri in casa non è realistica quanto la ricompilazione di un software.
Che lo facciamo in casa, al bar, o al CERN è irrilevante.
concordo in pieno attenzione con questo argomento del "non /te/ ne fai niente perché non puoi ri-addestrare i miliardi di parametri" perché è analogo al ragionamento "non /te/ ne fai niente del sorgente perché tanto non lo (ri)compili" (perché gli /utenti/ sono _per definizione_ minus habeans) io stesso non (ri)compilo (quasi) mai il software che uso MA so come si fa e ogni volta che voglio posso eseguire un _challenge_: https://guix.gnu.org/manual/en/html_node/Invoking-guix-challenge.html per verificare che il /substitute server/ che utilizzo non _corrompa_ i binari. inoltre, avendo a disposizione /pragmaticamente/ non solo i sorgenti ma l'intera catena di build del software posso: studiare come funziona, adattarlo alle mie esigenze, /tentare/ di risolvere i bug, creare un'opera derivata perché i maintainer upstream menano il can per l'aia su una funzione _determinante_ per il mio utilizzo.... ecco il mio personalissimo "Lore": serve software libero, riproducibile [1] e bootstappable [2] "AI" compresa, che sempre di software si tratta [...] saluti, 380° P.S.: il concetto stesso di libertà _implica_ che sia esercitabile "in potenza", non che sia esercitata "per forza"... certo che per poterla esercitare occorrerebbe che tutti avessero pari condizioni, ma non divaghiamo. [1] https://reproducible-builds.org/ [2] https://bootstrappable.org/ https://guix.gnu.org/en/blog/2023/the-full-source-bootstrap-building-from-so... -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Col tempo, una parola può cambiare significato in modo anche radicale, sono cose che accadono di continuo nel linguaggio, dove l'unica regola è l'uso. Dunque non starei qui a fare una questione lessicale. Di fatto, ci sono LM che puoi scaricare liberamente e far girare sulla tua workstation, e LM che invece puoi usare solo via API e pagando. La notizia è che la differenza qualitativa tra questi due tipi si sta assottigliando, almeno per quanto riguarda le funzioni strettamente linguistiche. La circostanza mi sembra rilevante: molte organizzazioni pubbliche e private potranno usare questi strumenti senza mandar fuori dati, senza legarsi a monopolisti che operano fuori dalla propria giurisdizione, senza l'incognita dei prezzi. Mi sembra che questo meriti più attenzione della filologia informatica :-) G. Il Dom 30 Giu 2024, 11:38 Claudio Agosti <claudio.agosti@hermescenter.org> ha scritto:
Ciao, ho rinominato il thread per passare un po' di references che mi sono letto negli ultimi periodi
il problema alla base è che la nostra cultura di free software, già sussunta dall' "open source" aveva creato una dicotomia esclusiva per cui un software o è open o è closed. Le dinamiche che ci hanno portato lì, non devo ripeterle, in questa lista sono parte della Lore.
I valori del free software non potrebbero essere più distanti dall'attuale situazione, e l'ambiguità culturale dell'open source viene sfruttata in modo così iconico (openAI) da aver svuotato ogni significato.
bipensiero, neolinga, keyword dropping. ma veniamo alle references.
1) questo documento identifica il problema della falsa openness: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4543807 - Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI - This paper examines ‘open’ AI in the context of recent attention to open and open source AI systems.
2) https://blog.mozilla.org/en/mozilla/ai/readouts-columbia-convening/ questa mistura di tecnici ed accadmici ha prodotto un paio di grafici e di tassionomie, dicendo come "l'opennes nell'AI è una sfumatura", ora, a me è chiaro che avere un'AI aperta solo al 90% è come dire "sono negativo al codiv per il 90%". umh. o quarantena o serata. non c'è una via di mezzo. ma come pregio, possiamo anche considerare che questo ci permetterebbe di iniziare ad avere visibilità e riproducibilità in alcuni passaggi. del resto anche l'idea che ci ri-addestriamo i miliardi di parametri in casa non è realistica quanto la ricompilazione di un software.
3) https://pure.mpg.de/rest/items/item_3588217_2/component/file_3588218/content - Rethinking open source generative AI: open-washing and the EU AI Act. Questo paper apre ad un'altro aspetto potenzialmente problematico. nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased. Ha senso quando pensi a librerie e framework, che non debbano essere soggetti agli obblighi di conformità. Ma siccome il termine open è ambiguo, come questo impatta la regolamentazione? I decreti attuativi, cosa dovrebbero definire?
E ci sta pure, se creo una libreria ad alto livello per operare sui database vettoriali, sto servendo la comunità di sviluppatori. Ma se faccio la liberia chiamata "best worker". è un pezzo di codice python e un RAG preaddestrato, con documentazione sommaria.
Il software, in questo esempio, si compone di una sola funzione guess_fitness(), e si aspetta due parametri nella black box. il primo è questo, e contiene i dati del candidato:
{ nome: <String> foto: <FILE.jpeg> esperienze: <markdown text> },
il secondo invece contiene i dettagli del lavoro da svolgere:
{ "job_name": <String>, "job_description:" <markdown text>, "challenges_example:" <markdown text> },
restituisce una percentuale così che l'HR possa ordinarli e prendere la top 3
Questo software rilasciato sotto AGPL-3, sarebbe un loophole nel regolamento?
abbracci, Claudio
On Sat, Jun 29, 2024 at 4:08 PM Giacomo Tesio <giacomo@tesio.it> wrote:
Quindi è "aperto" nel senso che... è chiuso. Splendido esempio di bipensiero! :-D
-- Claudio Agosti - Hermes Center, AI Forensics, Reversing Works. Platform Auditor & Tech Researcher [ linktr.ee/claudio.agosti ]
Ciao Guido, Il 30 Giugno 2024 17:32:35 UTC, Guido Vetere <vetere.guido@gmail.com> ha scritto:
Col tempo, una parola può cambiare significato in modo anche radicale, sono cose che accadono di continuo nel linguaggio, dove l'unica regola è l'uso.
Vero. Basti pensare al termine "scienza". Una volta, la replicabilità degli esperimenti era caratteristica definitoria delle discipline scientifiche. Oggi non è più necessaria: possiamo fidarci ciecamente di chiunque abbia ottenuto finanziamenti sufficienti a pubblicare su una "rivista scientifica", preferibilmente americana. D'altro canto.. questa è l'epoca dei "data scientist"! :-D E vogliamo parlare del termine "intellettuale"? Mi perdonerete, perché non sono un accademico, ma un informatico: scrivo software di mestiere e non posso permettermi il lusso di usare termini vaghi e definizioni confuse, o il software poi non funziona. "You cannot argue with a root shell". Che poi è un po' il "dura lex sed lex" di quando ancora c'era lo stato di diritto. Ma sto divagando.
Dunque non starei qui a fare una questione lessicale.
Non è questione "lessicale", ma storica e cibernetica (ovvero politica e informatica).
Di fatto, ci sono LM che puoi scaricare liberamente e far girare sulla tua workstation, e LM che invece puoi usare solo via API e pagando.
Ed abbiamo da decenni termini dedicati per questi due concetti, rispettivamente "freeware" e "SaaS". Perché ridefinire in fretta e furia "open"? Cui prodest?
La circostanza mi sembra rilevante: molte organizzazioni pubbliche e private potranno usare questi strumenti senza mandar fuori dati, senza legarsi a monopolisti che operano fuori dalla propria giurisdizione, senza l'incognita dei prezzi.
Già. Basta accettare che quegli strumenti riproducano e diffondano tramite quelle organizzazioni pubbliche gli interessi e le opinioni di quei monopolisti, sollevandoli al contempo da qualsiasi responsabilità riconducibile. Concordo: è sicuramente una notizia da diffondere capillarmente.
Mi sembra che questo meriti più attenzione della filologia informatica :-)
Ti sembra che l'informatica meriti più attenzione... dell'informatica? :-D Perché non è "filologia", è proprio informatica. [1] Ma come sempre, c'è chi crede di poterla ignorare. Giacomo [1] http://www.tesio.it/2019/06/03/what-is-informatics.html
La circostanza mi sembra rilevante: molte organizzazioni pubbliche e private potranno usare questi strumenti senza mandar fuori dati, senza legarsi a monopolisti che operano fuori dalla propria giurisdizione, senza l'incognita dei prezzi.
Sì, ok, ma aggiungiamo qualche elemento in più. Questi strumenti sono estremamente CPU bound, ovvero utilizzano una quantità eccessiva di risorse di elaborazione. Prendiamo un ufficio pubblico, le strade per emanciparsi dai monopolisti sono tre: 1) comprare un PC potente ad ogni impiegato e distribuire una versione "locale" customizzata di LM; 2) comprare un Server potente, dotato di GPU, etc in cui installare una versione "locale" customizzata di LM a cui far accedere, dalla intranet, gli utenti; 3) affidarsi ad un servizio esterno (ma all'interno della propria giurisdizione, regionale, nazionale, europea, ecc.). Un pc potente, con CPU a palla, porta ovviamente con se un consumo nettamente superiore. Quindi costi, costi e ancora costi. Il gioco ne vale la candela? Per la mia esperienza i funzionari non "generano" più testi da zero, da anni. Un template, un copia/incolla e via. Nelle PP.AA. più evolute è lo stesso gestionale che prepare i documenti, che poi vanno solo firmati ed inviati. Magari qualche funzionario legale con memoria corta che prima andava su Google (e questo lo rimandava a gazzettaufficiale.it) ora prompterà al proprio PC: "Cosa recità l'articolo 143 del Codice Civile?" Risposta (non ridete/piangete), qui [1] il resto reale. "Art. 143. (Matrimonio) Il matrimonio è l'unione legale tra uomo e donna, regolata dalle disposizioni del presente titolo. Il matrimonio ha per iscopo di regolare la convivenza tra i coniugi e la procreazione." Questo articolo definisce il matrimonio come un'unione legale tra uomo e donna e stabilisce che lo scopo del matrimonio è quello di regolare la convivenza tra i coniugi e la procreazione. A. [1] Art. 143. Diritti e doveri reciproci dei coniugi. Con il matrimonio il marito e la moglie acquistano gli stessi diritti e assumono i medesimi doveri. Dal matrimonio deriva l'obbligo reciproco alla fedeltà, all'assistenza morale e materiale, alla collaborazione nell'interesse della famiglia e alla coabitazione. Entrambi i coniugi sono tenuti, ciascuno in relazione alle proprie sostanze e alla propria capacità di lavoro professionale o casalingo, a contribuire ai bisogni della famiglia.
Guido Vetere <vetere.guido@gmail.com> writes:
Col tempo, una parola può cambiare significato in modo anche radicale, sono cose che accadono di continuo nel linguaggio, dove l'unica regola è l'uso. Dunque non starei qui a fare una questione lessicale. Di fatto, ci sono LM che puoi scaricare liberamente e far girare sulla tua workstation,
sì ma quello si chiama "freeware", se per te è solo una questione lessicale mi dispiace tantissimo se a te basta il freeware rispetto la scelta, a me ed altri no :-)
molte organizzazioni pubbliche e private potranno usare questi strumenti senza mandar fuori dati, senza legarsi a monopolisti che operano fuori dalla propria giurisdizione, senza l'incognita dei prezzi.
ma con l'incognita di bachi mai risolti e probabilmente anche qualche backdoor più freeware per tutti! [...] saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno Claudio Claudio Agosti <claudio.agosti@hermescenter.org> writes:
Ciao, ho rinominato il thread per passare un po' di references che mi sono letto negli ultimi periodi
grazie per gli articoli, cercherò di leggerli appena riesco
il problema alla base è che la nostra cultura di free software, già sussunta dall' "open source" aveva creato una dicotomia esclusiva per cui un software o è open o è closed.
(lo scrivo per il "lettore casuale", che so che tu e molti altri qui lo sanno benissimo) siccome "open" /nel contesto delle opere dell'ingegno/ non vuol dire assolutamente nulla (è bullshit?!?), una dicotomia basata sul nulla è nulla, come qualsiasi numero per zero... ...potremmo quindi tranquillamente affermare che per le opere dell'ingegno (cioè per il software) "open" è l'elemento assorbente della _discriminazione_, ovvero "tutto e open e niente è open" la dicotomia esclusiva "open vs closed" quindi non esiste, semmai esiste la dicotomia tra "(opera dell'ingegno) libera e non" chi lo _discrimina_? La disciplina sul copyright (_quindi_ la licenza che accompagna l'opera)
Le dinamiche che ci hanno portato lì, non devo ripeterle, in questa lista sono parte della Lore.
sì ma non stiamo parlando di fiction... o sì? :-D [...]
bipensiero, neolinga, keyword dropping.
specie quando le keyword richiamano il concetto di libertà e la neolingua non sa più come fare per svuotare di significato anche la parola "libertà" «Or ti piaccia gradir la sua venuta: libertà va cercando, ch'è sì cara, come sa chi per lei vita rifiuta.» [...]
nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased.
quindi il vuoto con il buco attorno, giusto? [...]
Ma siccome il termine open è ambiguo, come questo impatta la regolamentazione?
in modo devastante, almeno per chi ama la verità
I decreti attuativi, cosa dovrebbero definire?
cos'è un'opera dell'ingegno libera, _quindi_ quali sono le licenze per le opere libere... ovviamente il lavoro è stato già ampiamente fatto, possono copiare l'elenco da Open Source Initiative o dalla FSF siccome anche tutto il software e i dati usati nelle cosiddette "AI" sono opere dell'ingegno, il compito direi che è /quasi/ banale: https://www.gnu.org/distros/free-system-distribution-guidelines.html tutto il resto è noia (in un _regolamento_) [...]
Il software, in questo esempio, si compone di una sola funzione guess_fitness(), e si aspetta due parametri nella black box. il primo è questo, e contiene i dati del candidato:
[...]
il secondo invece contiene i dettagli del lavoro da svolgere:
[...]
restituisce una percentuale così che l'HR possa ordinarli e prendere la top 3
Questo software rilasciato sotto AGPL-3,
scusa ma non ho capito: guess_fitness() è una (funzione) black box? una black box rilasciata con AGPL-3? [...] grazie, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Grazie a tutti per le risposte ed i commenti, proseguirò le riflessioni nei prossimi giorni, ma avevo qualcosa di rapido per 380° On Mon, 1 Jul 2024, 16:28 380°, <g380@biscuolo.net> wrote:
nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased.
quindi il vuoto con il buco attorno, giusto?
Si, secondo le tue riflessioni, che pure condivido, è cosí. Secondo l'AIAct no, e quindi mettendo da parte la critica al problema, c'è da venire a patti con il fatto che ci sia un problema e che toccherà anche noi in più modi. Pensando male: 1) il fatto che le cose open siano sfruttate per fare software intrinsicamente più abusivo 2) il fatto che il software libero, e chi lo programma, potrebbero perdere gli sconti di conformità, portando ad oneri maggiori
scusa ma non ho capito: guess_fitness() è una (funzione) black box?
una black box rilasciata con AGPL-3?
In questo *esempio*: 1) La funzione guess_fitness è codice python sotto AGPL-3 2) Il codice della funzione usa un DB binario risultato di addestramento, distribuito nel pacchetto 3) Il file binario viene considerato come una risorsa facoltativa, come un JPEG. Ma di default viene usato. Questo pacchetto sarebbe considerato software libero? E quindi escluso dagli obblighi di conformità? Volevo riflettere su come, in mancanza di miglori chiarimenti, in questo momento non solo il movimento del software libero non ha ancora una soluzione, ma anche la società _potrebbe avere_ un ulteriore problema di accuntability sulla base della distorsione dei valori che originariamente erano del free software. Ciao ciao!
[...]
grazie, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno, Claudio Agosti <claudio.agosti@hermescenter.org> writes:
Grazie a tutti per le risposte ed i commenti, proseguirò le riflessioni nei prossimi giorni, ma avevo qualcosa di rapido per 380°
On Mon, 1 Jul 2024, 16:28 380°, <g380@biscuolo.net> wrote:
nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased.
quindi il vuoto con il buco attorno, giusto?
Si, secondo le tue riflessioni, che pure condivido, è cosí. Secondo l'AIAct no, e quindi mettendo da parte la critica al problema, c'è da venire a patti con il fatto che ci sia un problema e che toccherà anche noi in più modi. Pensando male:
1) il fatto che le cose open siano sfruttate per fare software intrinsicamente più abusivo 2) il fatto che il software libero, e chi lo programma, potrebbero perdere gli sconti di conformità, portando ad oneri maggiori
scusa ma non ho capito: guess_fitness() è una (funzione) black box?
una black box rilasciata con AGPL-3?
In questo *esempio*:
1) La funzione guess_fitness è codice python sotto AGPL-3 2) Il codice della funzione usa un DB binario risultato di addestramento, distribuito nel pacchetto 3) Il file binario viene considerato come una risorsa facoltativa, come un JPEG. Ma di default viene usato.
Questo pacchetto sarebbe considerato software libero? E quindi escluso dagli obblighi di conformità?
Volevo riflettere su come, in mancanza di miglori chiarimenti, in questo momento non solo il movimento del software libero non ha ancora una soluzione, ma anche la società _potrebbe avere_ un ulteriore problema di accuntability sulla base della distorsione dei valori che originariamente erano del free software.
Ciao ciao!
[...]
grazie, 380°
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché»
Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
-- 380° (Giovanni Biscuolo public alter ego)
«Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Buongiorno, (scusate il messaggio precedente è partito vuoto per errore) grazie Claudio che mi dai retta, considera che io sono (e voglio rimanere) orgogliosamente ignorante di AI Act :-) Claudio Agosti <claudio.agosti@hermescenter.org> writes: [...]
On Mon, 1 Jul 2024, 16:28 380°, <g380@biscuolo.net> wrote:
nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased.
quindi il vuoto con il buco attorno, giusto?
Si, secondo le tue riflessioni, che pure condivido, è cosí.
il motivo del mio giudizio tranchant «il vuoto col buco...» è una sintesi della mia critica a «neutrali, general purpose» ma soprattutto «unbiased»... "c'è tutto un mondo attorno, che gira ogni giorno" cantavano i Matia Bazar. [...]
scusa ma non ho capito: guess_fitness() è una (funzione) black box?
una black box rilasciata con AGPL-3?
In questo *esempio*:
1) La funzione guess_fitness è codice python sotto AGPL-3
il buco
2) Il codice della funzione usa un DB binario risultato di addestramento, distribuito nel pacchetto
il vuoto attorno
3) Il file binario viene considerato come una risorsa facoltativa, come un JPEG. Ma di default viene usato.
l'AI Act considera _quel_ binario come "non-functional data"? https://www.gnu.org/distros/free-system-distribution-guidelines.en.html#non-... sarebbe vergognoso
Questo pacchetto sarebbe considerato software libero? E quindi escluso dagli obblighi di conformità?
ah boh :-O
Volevo riflettere su come, in mancanza di miglori chiarimenti, in questo momento non solo il movimento del software libero non ha ancora una soluzione,
sei sicuro? non so, è che a volte ho la sensazioni che le cose siano _complicate_ artificiosamente, mentre in realtà sono _solo_ complesse [...] Ciao, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
Il 30/06/24 12:38, Claudio Agosti ha scritto:
3) https://pure.mpg.de/rest/items/item_3588217_2/component/file_3588218/content - Rethinking open source generative AI: open-washing and the EU AI Act. Questo paper apre ad un'altro aspetto potenzialmente problematico. nell'AIAct i software "open" (cazzo, è tornato!) vengono visti come neutrali, general purposes, unbiased. Ha senso quando pensi a librerie e framework, che non debbano essere soggetti agli obblighi di conformità. Ma siccome il termine open è ambiguo, come questo impatta la regolamentazione? I decreti attuativi, cosa dovrebbero definire?
Per questo OSI sta lavorando a una Open Source AI Definition: https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v... È possibile contribuire al processo in vari modi, per esempio offrendosi di applicare la bozza di definizione per produrre una valutazione di uno dei LLM esistenti (che è un modo per far emergere le parti piú confuse o di difficile interpretazione). Federico
Ciao Federico, Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto:
Per questo OSI sta lavorando a una Open Source AI Definition: https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v...
una definizione scritta da qualcuno che non sa (o sa fin troppo bene) cosa serve per realizzare un LLM. Infatti la definizione prescrive che: ``` The preferred form of making modifications for a machine-learning Open Source AI must include: Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data. ``` Accettare informazioni "sufficiently detailed" per ricreare un sistema "substantially" equivalente, significa aprire all'impossibilità tecnica di ricreare un sistema esattamente equivalente. Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le informazioni necessarie a creare il software in questione. Infatti, entro minuscole variazioni numeriche distribuite fra miliardi di variabili (pesi), è perfettamente possibile nascondere qualsiasi bias. Solo la possibilità di riprodurre ESATTAMENTE il software in questione può permettere davvero di esercitare il diritto allo studio e alla modifica del sistema. Ora, l'OSI dovrebbe essere in condizione di comprendere che un software distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a quelli usati per creare il binario (ma non esattamente quelli usati), NON è software Open Source. Perché allora non scrivere, più semplicemente: Data information: All information and data used to create the system, so that a skilled person can exactly recreate the system using the data. Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati corrispondano esattamente a quelli utilizzati, permetterebbe di studiarne i bias e di decidere come modificare o arricchire i dati per ottenere LLM diversi. Peraltro, sostituendo "train" con "create", la definizione continuerebbe ad essere applicabile a nuovi metodi che non si basino sulle techine statistiche antropomorfizzate che vanno per la maggiore oggi. Perché dunque una definizione che contraddice quella di Open Source? L'ignoranza informatica in questo caso è poco credibile... Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio: https://opensource.org/sponsors Giacomo
C'è poi un piccolo particolare che rende la nozione di 'Open Source' difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca. Dunque: di che stiamo parlando? G. PS: continuo a osservare un certo verbalismo in questo accanimento terminologico, ma per carità non voglio sollevare polemiche :-) On Tue, 2 Jul 2024 at 16:05, Giacomo Tesio <giacomo@tesio.it> wrote:
Ciao Federico,
Il giorno Tue, 2 Jul 2024 14:15:30 "Federico Leva (Nemo)" ha scritto:
Per questo OSI sta lavorando a una Open Source AI Definition:
https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v...
una definizione scritta da qualcuno che non sa (o sa fin troppo bene) cosa serve per realizzare un LLM.
Infatti la definizione prescrive che:
``` The preferred form of making modifications for a machine-learning Open Source AI must include:
Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data.
```
Accettare informazioni "sufficiently detailed" per ricreare un sistema "substantially" equivalente, significa aprire all'impossibilità tecnica di ricreare un sistema esattamente equivalente.
Cosa che sarebbe tecnicamente possibile disponendo di TUTTE le informazioni necessarie a creare il software in questione.
Infatti, entro minuscole variazioni numeriche distribuite fra miliardi di variabili (pesi), è perfettamente possibile nascondere qualsiasi bias. Solo la possibilità di riprodurre ESATTAMENTE il software in questione può permettere davvero di esercitare il diritto allo studio e alla modifica del sistema.
Ora, l'OSI dovrebbe essere in condizione di comprendere che un software distribuito con sorgenti simili, persino "sostanzialmente equivalenti" a quelli usati per creare il binario (ma non esattamente quelli usati), NON è software Open Source.
Perché allora non scrivere, più semplicemente:
Data information: All information and data used to create the system, so that a skilled person can exactly recreate the system using the data.
Sarebbe più semplice, permetterebbe di verificare che i dati dichiarati corrispondano esattamente a quelli utilizzati, permetterebbe di studiarne i bias e di decidere come modificare o arricchire i dati per ottenere LLM diversi.
Peraltro, sostituendo "train" con "create", la definizione continuerebbe ad essere applicabile a nuovi metodi che non si basino sulle techine statistiche antropomorfizzate che vanno per la maggiore oggi.
Perché dunque una definizione che contraddice quella di Open Source?
L'ignoranza informatica in questo caso è poco credibile...
Ma se proviamo a chiederci "cui prodest?" tutto diventa ovvio:
https://opensource.org/sponsors
Giacomo
On Wed, Jul 03, 2024 at 10:29:39AM +0200, Guido Vetere wrote:
C'è poi un piccolo particolare che rende la nozione di 'Open Source' difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca.
Questo è un argomento ricorrente e comprensibile, ma che personalmente non condivido. Propongo alcuni (contro)argomenti: - un dataset aperto permette (a costi molto inferiori a quelli di addestramento) di verificare cosa c'è dentro, per esempio, per verificare la presenza di eventuali bias di selezione - in ambito software: che il codice sorgente del kernel Linux sia disponibile è un bene per tutta i suoi utilizzatori, compresi quelli che non hanno ne le competenze ne il tempo di capire come funziona o metterci mano - in ambito hardware: l'esistenza di open hardware (che prevede che gli schemi di design siano liberamente disponibili) è un bene per tutti, anche se in pochi dispongono delle fabbriche per costruire microchip o (ancora più difficile) dei laboratori per verificare che il chip che hanno in mano corrisponde a quei design Saluti -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
che in cose come Common Crawl ci sia mondezza lo sanno tutti, il problema è verificare se e come viene filtrata, e torniamo al tema della GPU. ma poi: che garanzie pensi di ottenere così? a meno che non setti la temperatura a zero, la generazione basata su LLM è aleatoria: lo stesso prompt può darti cose un po' diverse a seconda di come gli gira il random generator. continuo a non capire lo scopo di questo discorso G. On Wed, 3 Jul 2024 at 11:05, Stefano Zacchiroli <zack@upsilon.cc> wrote:
On Wed, Jul 03, 2024 at 10:29:39AM +0200, Guido Vetere wrote:
C'è poi un piccolo particolare che rende la nozione di 'Open Source' difficilmente applicabile ai LLM: se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca.
Questo è un argomento ricorrente e comprensibile, ma che personalmente non condivido. Propongo alcuni (contro)argomenti:
- un dataset aperto permette (a costi molto inferiori a quelli di addestramento) di verificare cosa c'è dentro, per esempio, per verificare la presenza di eventuali bias di selezione
- in ambito software: che il codice sorgente del kernel Linux sia disponibile è un bene per tutta i suoi utilizzatori, compresi quelli che non hanno ne le competenze ne il tempo di capire come funziona o metterci mano
- in ambito hardware: l'esistenza di open hardware (che prevede che gli schemi di design siano liberamente disponibili) è un bene per tutti, anche se in pochi dispongono delle fabbriche per costruire microchip o (ancora più difficile) dei laboratori per verificare che il chip che hanno in mano corrisponde a quei design
Saluti -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
Suvvia Guido, non diciamo sciocchezze... Il giorno Wed, 3 Jul 2024 12:56:06 Guido Vetere ha scritto:
la generazione basata su LLM è aleatoria: lo stesso prompt può darti cose un po' diverse a seconda di come gli gira il random generator.
i numeri casuali utilizzati come input sono, appunto parte dell'input. Stiamo parlando di software completamente deterministici. Solo nascondendo all'utente parte dell'input (come i numeri randomici utilizzati durante l'elaborazione di un prompt) possiamo fargli credere che ci sia una intelligenza dentro quella macchina. Ma rimangono software il cui output è perfettamente predicibile e riproducibile se si dispone di tutti i dati utilizzati per calcolarlo (lo stato e l'input). Giacomo
Stiamo parlando di software completamente deterministici.
e vabbè, ma allora non chiamateli "stochastic parrots" :-)) un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
Solo nascondendo all'utente parte dell'input (come i numeri randomici ..
non so cosa tu possa intendere per 'nascondere' un numero generato dinamicamente in modo casuale, ma non vorrei alimentare inutili diatribe G. On Wed, 3 Jul 2024 at 13:47, Giacomo Tesio <giacomo@tesio.it> wrote:
Suvvia Guido, non diciamo sciocchezze...
Il giorno Wed, 3 Jul 2024 12:56:06 Guido Vetere ha scritto:
la generazione basata su LLM è aleatoria: lo stesso prompt può darti cose un po' diverse a seconda di come gli gira il random generator.
i numeri casuali utilizzati come input sono, appunto parte dell'input.
Stiamo parlando di software completamente deterministici.
Solo nascondendo all'utente parte dell'input (come i numeri randomici utilizzati durante l'elaborazione di un prompt) possiamo fargli credere che ci sia una intelligenza dentro quella macchina.
Ma rimangono software il cui output è perfettamente predicibile e riproducibile se si dispone di tutti i dati utilizzati per calcolarlo (lo stato e l'input).
Giacomo
ROTFL! :-D Il giorno Wed, 3 Jul 2024 14:29:07 Guido Vetere ha scritto:
un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi. Ehm... no. La somma è una funzione deterministica. Il tiro di dadi è un'operazione non deterministica. Ma il software può solo implementare la somma: serve hardware per avere un numero casuale. Ora, noi stiamo parlando di matrici che codificano un software deterministico eseguibile da macchine con un'architettura nota. Un software che approssima una funzione matematica ignota, ma pur sempre una funzione matematica. Ad un determinato stato e ad un determinato input, l'output prodotto da questi software sarà sempre lo stesso.
Solo nascondendo all'utente parte dell'input (come i numeri randomici ..
non so cosa tu possa intendere per 'nascondere' un numero generato dinamicamente in modo casuale
Oh, è molto semplice: all'utente questi numeri non vengono mostrati né gli viene data la possibilità di modificarli. Se all'utente fosse mostrato tutto l'input (inclusi questi numeri), questi comprenderebbe istantaneamente che non c'è alcuna intelligenza nel giocattolo. Allo stesso modo, l'interfaccia potrebbe mostrare, ad ogni step di generazione del prossimo token, tutte le possibili continuazioni con le rispettive probabilità di emissione e far scegliere all'utente come proseguire invece di usare un numero casuale (o più probabilmente, pseudocasuale). L'utente comprenderebbe così di star sostanzialmente navigando un grafo. Naturalmente Google e Open AI si guardano bene da fornire una siffatta interfaccia perché verrebbe meno l'allucinazione di comunicare con una qualche "intelligenza aliena".
non vorrei alimentare inutili diatribe
Perché diatribe? E perché inutili? Giacomo
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi.
la conclusione, se ci pensi, è che non esistono algoritmi non deterministici. dai, non tediamo gli astanti :-) cheers, G. On Wed, 3 Jul 2024 at 14:55, Giacomo Tesio <giacomo@tesio.it> wrote:
ROTFL! :-D
Il giorno Wed, 3 Jul 2024 14:29:07 Guido Vetere ha scritto:
un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi.
Ehm... no.
La somma è una funzione deterministica.
Il tiro di dadi è un'operazione non deterministica. Ma il software può solo implementare la somma: serve hardware per avere un numero casuale.
Ora, noi stiamo parlando di matrici che codificano un software deterministico eseguibile da macchine con un'architettura nota. Un software che approssima una funzione matematica ignota, ma pur sempre una funzione matematica.
Ad un determinato stato e ad un determinato input, l'output prodotto da questi software sarà sempre lo stesso.
Solo nascondendo all'utente parte dell'input (come i numeri randomici ..
non so cosa tu possa intendere per 'nascondere' un numero generato dinamicamente in modo casuale
Oh, è molto semplice: all'utente questi numeri non vengono mostrati né gli viene data la possibilità di modificarli.
Se all'utente fosse mostrato tutto l'input (inclusi questi numeri), questi comprenderebbe istantaneamente che non c'è alcuna intelligenza nel giocattolo.
Allo stesso modo, l'interfaccia potrebbe mostrare, ad ogni step di generazione del prossimo token, tutte le possibili continuazioni con le rispettive probabilità di emissione e far scegliere all'utente come proseguire invece di usare un numero casuale (o più probabilmente, pseudocasuale).
L'utente comprenderebbe così di star sostanzialmente navigando un grafo.
Naturalmente Google e Open AI si guardano bene da fornire una siffatta interfaccia perché verrebbe meno l'allucinazione di comunicare con una qualche "intelligenza aliena".
non vorrei alimentare inutili diatribe
Perché diatribe? E perché inutili?
Giacomo
On mer, 2024-07-03 at 15:38 +0200, Guido Vetere wrote:
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi.
la conclusione, se ci pensi, è che non esistono algoritmi non deterministici.
Certo che esistono. Pensa all'algoritmo "Cuoci due uova al tegamino" di cui modifichi uno step "Tira i dadi e rompi le uova solo se il numero è dispari." In realtà qui parliamo di software e computer ordinari, quindi di di algoritmi rappresentabili con un linguaggio di programmazione, e completamente eseguibili su una macchina a stati. Vabbè, basta divertirsi ... Scusate, mi è scappata ...
dai, non tediamo gli astanti :-)
cheers, G.
On Wed, 3 Jul 2024 at 14:55, Giacomo Tesio <giacomo@tesio.it> wrote:
ROTFL! :-D
Il giorno Wed, 3 Jul 2024 14:29:07 Guido Vetere ha scritto:
un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi.
Ehm... no.
La somma è una funzione deterministica.
Il tiro di dadi è un'operazione non deterministica. Ma il software può solo implementare la somma: serve hardware per avere un numero casuale.
Ora, noi stiamo parlando di matrici che codificano un software deterministico eseguibile da macchine con un'architettura nota. Un software che approssima una funzione matematica ignota, ma pur sempre una funzione matematica.
Ad un determinato stato e ad un determinato input, l'output prodotto da questi software sarà sempre lo stesso.
Solo nascondendo all'utente parte dell'input (come i numeri randomici ..
non so cosa tu possa intendere per 'nascondere' un numero generato dinamicamente in modo casuale
Oh, è molto semplice: all'utente questi numeri non vengono mostrati né gli viene data la possibilità di modificarli.
Se all'utente fosse mostrato tutto l'input (inclusi questi numeri), questi comprenderebbe istantaneamente che non c'è alcuna intelligenza nel giocattolo.
Allo stesso modo, l'interfaccia potrebbe mostrare, ad ogni step di generazione del prossimo token, tutte le possibili continuazioni con le rispettive probabilità di emissione e far scegliere all'utente come proseguire invece di usare un numero casuale (o più probabilmente, pseudocasuale).
L'utente comprenderebbe così di star sostanzialmente navigando un grafo.
Naturalmente Google e Open AI si guardano bene da fornire una siffatta interfaccia perché verrebbe meno l'allucinazione di comunicare con una qualche "intelligenza aliena".
non vorrei alimentare inutili diatribe
Perché diatribe? E perché inutili?
Giacomo
Ehm... no. :-) Il 3 Luglio 2024 13:38:41 UTC, Guido Vetere ha scritto:
Se così fosse, la somma di due numeri interi sarebbe un'algoritmo non deterministico se applicato a due numeri ottenuti con i dadi.
la conclusione, se ci pensi, è che non esistono algoritmi non deterministici.
Mai sentito parlare di computer quantistici? Con computer quantistici puoi realizzare software non deterministici. Senza, non puoi. Poi stavamo parlando di specifici software impropriamente antropomorfizzati come "intelligenze artificiali" che vengono codificati e distribuiti come matrici numeriche ed eseguiti da macchine virtuali deterministiche costuite allo scopo. Ovvero i software freeware scaricabili da HuggingFace come Gemma2 di Google con cui hai avviato questo thread. Tali software (impropriamente detti "modelli") sono perfettamente deterministici: dati input e stato otterai sempre lo stesso output. E la ragione è semplice: le macchine virtuali di cui parliamo (quelle per la cui simulazione servono le GPU) si limitano ad eseguire lunge sequenze di semplici operazioni fra matrici, tutte perfettamente deterministiche. Per questo definire questi software "aleatori" è una sciocchezza e quando scrivi
a meno che non setti la temperatura a zero, la generazione basata su LLM è aleatoria: lo stesso prompt può darti cose un po' diverse a seconda di come gli gira il random generator.
evidenzi (e diffondi) una grave confusione fra l'interfaccia utente del sistema (limitata al prompt) e il suo funzionamento (che utilizza ulteriori input oltre il prompt). Conoscendo tutti i dati utilizzati per calcolare un certo token (tutto lo stato e tutti gli input) puoi verificare sempre, deterministicamente, di ottenere lo stesso output. [1] Ragione per cui, i sorgenti di un LLM "open" devono includere qualsiasi valore aleatorio acquisito durante la programmazione statistica (impropriamente detta "training"): perché conoscendo questi dati è sempre possibile riottenere il "modello" di interesse, studiarlo e modificarlo. Giacomo [1] L'unica possibile fonte di non determinismo in questo tipo di sistemi è costituita da guasti dell'hardware, e chissà, magari troviamo anche qualcuno disposto a venderli come prova della "coscienza delle macchine"! :-D
Il giorno mer 3 lug 2024 alle ore 14:55 Giacomo Tesio <giacomo@tesio.it> ha scritto:
ROTFL! :-D
Il giorno Wed, 3 Jul 2024 14:29:07 Guido Vetere ha scritto:
un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
I vari GPT* sono non-deterministici: https://152334h.github.io/blog/non-determinism-in-gpt-4/
Ciao Fabio, scusa il delay... ma ho potuto leggere l'articolo solo ora. On Wed, 3 Jul 2024 16:12:14 +0200 Fabio Alemagna <falemagn@gmail.com> wrote:
Il giorno mer 3 lug 2024 alle ore 14:55 Giacomo Tesio <giacomo@tesio.it> ha scritto:
ROTFL! :-D
Il giorno Wed, 3 Jul 2024 14:29:07 Guido Vetere ha scritto:
un algoritmo che fa uso di numeri casuali è generalmente considerato non deterministico, full stop
I vari GPT* sono non-deterministici: https://152334h.github.io/blog/non-determinism-in-gpt-4/
Beh... l'autore cita in proposito gli sviluppatori di Open AI: ``` We think there might be some bug in our systems, or some non-determinism in optimized floating point calculations... ``` "Qualche bug" :-D [1] Non nego che va apprezzato il progresso: solo un anno fa avrebbero sicuramente pubblicato da qualche parte un paper blaterando di scintille di senso critico, dubbio o altre sciocchezze... Ricorderai https://arxiv.org/abs/2303.12712 che qualcuno ancora si beve. Fortunatamente il primo commento all'articolo svela il mistero: https://github.com/openai/summarize-from-feedback/blob/master/summarize_from... Il codice aggiunge sempre 1e-7 alla "temperatura", rendendo impossibile eseguire Chat GPT in modo palesemente deterministico. Perché? Per evitare un if? O per ingannare gli utenti sulla natura di Chat GPT? A posteri l'ardua sentenza... ;-) Giacomo [1] anche le inconsistenze fra operazioni float ottimizzate in modo diverso su macchine diverse sono bug del processo di build. Una buona sintesi con diversi riferimenti per approfondire la questione si trova qui: https://gafferongames.com/post/floating_point_determinism/
Ciao Guido, non preoccuparti per me, ho tutte le GPU che servono! ;-) Il giorno Wed, 3 Jul 2024 10:29:39 Guido Vetere ha scritto:
se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca.
O anche solo nozioni di economia. O di storia. Infatti qualsiasi economista ti farà notare che il costo di qualsiasi componente hardware decresce rapidamente nel tempo, soprattutto quando prezzi artificialmente gonfiati forniscono enormi profitti che attraggono diversi produttori. E lo confermerà qualsiasi storico, ricordando computer che occupavano interi edifici con una potenza di calcolo inferiore a quella di un qualsiasi cellulare contemporaneo.
Dunque: di che stiamo parlando?
Non saprei... di che stiamo parlando? Di miopia? Di amnesia? Di disinformazione? Di lobbying?
PS: continuo a osservare un certo verbalismo in questo accanimento terminologico, ma per carità non voglio sollevare polemiche :-)
Figurati, nessuna polemica: Claudio ha semplicemente evidenziato una manovra di open-washing in corso ad altissimo livello per permettere a black-box proprietarie di aziende come Google o Microsoft di aggirare la normativa europea. Disponiamo già di termini come "freeware" e "SaaS" che descrivono benissimo i LLM scaricabili da huggingface e i servizi come GPT4. E certamente, nell'interesse di OpenAI, Google, and friends, sottolineare l'inadeguatezza di una ridefinizione legalmente comoda ai propri prodotti, deve passare per "accanimento terminologico". D'altro canto i cani veri sbavano, fedeli al padrone che li nutre. Sono certo che per evitare questo "verbalismo", molti oggi lavorano per far scrivere una nuova voce sul vocabolario del tipo: Open Source AI: matrice numerica scaricabile da huggingface, vedi Freeware. Ma c'è una contraddizione evidente in ciò che scrive, ad esempio, l'OSI nella sua ultima bozza di definizione per OpenSource AI: si sono dimenticati il sorgente! Ora, se la chiamassero "OpenAI definition" ci starebbe anche. :-p Ma se si deve chiamare Open SOURCE AI, l'accesso e il riuso del sorgente completo deve essere garantito. E il sorgente accessibile deve essere proprio quello della "AI" in questione, non quello di un'altra simile. Perché vedi, bontà loro, all'OSI hanno persino elencato le libertà che le "AI" in questione dovrebbero garantire. E fra queste hanno incluso la libertà di STUDIARE il software. Cosa che è IMPOSSIBILE se non si dispone di TUTTE le informazioni e TUTTI i dati utilizzati durante la creazione di questi software che ne costituiscono il sorgente Per queste ragioni non definirei "verbalismo" [1] la questione sollevata da Claudio, viste le notevoli implicazioni legali per OpenAI & friends (nonché sociali e geopolitiche per tutta l'Unione Europea). La chiamerei più semplicemente "onestà intellettuale". ;-) Giacomo [1] confesso che sono dovuto andare a cercare il significato sul vocabolario https://www.treccani.it/vocabolario/verbalismo/
On Wed, 3 Jul 2024 13:41:21 +0200 Giacomo Tesio <giacomo@tesio.it> wrote:
Ciao Guido,
non preoccuparti per me, ho tutte le GPU che servono! ;-)
Il giorno Wed, 3 Jul 2024 10:29:39 Guido Vetere ha scritto:
se pure uno avesse tutti i dataset eccetera, gli mancherebbe ancora quel mesetto di GPU che serve per fare training anche di pochi miliardi di parametri. Cioè: servirebbe ancora Leonardo, o in alternativa un grosso conto in banca.
O anche solo nozioni di economia. O di storia.
Infatti qualsiasi economista ti farà notare che il costo di qualsiasi componente hardware decresce rapidamente nel tempo, soprattutto quando prezzi artificialmente gonfiati forniscono enormi profitti che attraggono diversi produttori.
E lo confermerà qualsiasi storico, ricordando computer che occupavano interi edifici con una potenza di calcolo inferiore a quella di un qualsiasi cellulare contemporaneo.
Dunque: di che stiamo parlando?
Non saprei... di che stiamo parlando?
Di miopia? Di amnesia? Di disinformazione? Di lobbying?
PS: continuo a osservare un certo verbalismo in questo accanimento terminologico, ma per carità non voglio sollevare polemiche :-)
Figurati, nessuna polemica: Claudio ha semplicemente evidenziato una manovra di open-washing in corso ad altissimo livello per permettere a black-box proprietarie di aziende come Google o Microsoft di aggirare la normativa europea.
Disponiamo già di termini come "freeware" e "SaaS" che descrivono benissimo i LLM scaricabili da huggingface e i servizi come GPT4.
E certamente, nell'interesse di OpenAI, Google, and friends, sottolineare l'inadeguatezza di una ridefinizione legalmente comoda ai propri prodotti, deve passare per "accanimento terminologico".
D'altro canto i cani veri sbavano, fedeli al padrone che li nutre.
Sono certo che per evitare questo "verbalismo", molti oggi lavorano per far scrivere una nuova voce sul vocabolario del tipo:
Open Source AI: matrice numerica scaricabile da huggingface, vedi Freeware.
Ma c'è una contraddizione evidente in ciò che scrive, ad esempio, l'OSI nella sua ultima bozza di definizione per OpenSource AI: si sono dimenticati il sorgente!
Ora, se la chiamassero "OpenAI definition" ci starebbe anche. :-p
Ma se si deve chiamare Open SOURCE AI, l'accesso e il riuso del sorgente completo deve essere garantito.
E il sorgente accessibile deve essere proprio quello della "AI" in questione, non quello di un'altra simile.
Perché vedi, bontà loro, all'OSI hanno persino elencato le libertà che le "AI" in questione dovrebbero garantire. E fra queste hanno incluso la libertà di STUDIARE il software. Cosa che è IMPOSSIBILE se non si dispone di TUTTE le informazioni e TUTTI i dati utilizzati durante la creazione di questi software che ne costituiscono il sorgente
Per queste ragioni non definirei "verbalismo" [1] la questione sollevata da Claudio, viste le notevoli implicazioni legali per OpenAI & friends (nonché sociali e geopolitiche per tutta l'Unione Europea).
La chiamerei più semplicemente "onestà intellettuale". ;-)
Giacomo
[1] confesso che sono dovuto andare a cercare il significato sul vocabolario https://www.treccani.it/vocabolario/verbalismo/
-- Antonio <antonio@piumarossa.it>
...
E il sorgente accessibile deve essere proprio quello della "AI" in questione, non quello di un'altra simile. ... la libertà di STUDIARE il software. Cosa che è IMPOSSIBILE se non si dispone di TUTTE le informazioni e TUTTI i dati utilizzati durante la creazione di questi software che ne costituiscono il sorgente
D'accordo Giacomo, ma d'accordo anche con Guido ("servirebbe ancora Leonardo"), e servirebbe ORA, non fra dieci anni quando la potenza di Leonardo ce l'avremo su ogni scrivania. Condicio sine qua non ... entrambe, TUTTE le informazioni/dati, TUTTA la potenza. Faccio una proposta, dato che Leonardo è stato realizzato con i soldi dei contribuenti italiani, perché non concedere un'utenza SSH ad ogni cittadino italiano che ne faccia richiesta? A.
Per questo OSI sta lavorando a una Open Source AI Definition: https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v...
Il 22 agosto u.s. è stata pubblicata la versione 0.0.9: https://opensource.org/deepdive/drafts/open-source-ai-definition-draft-v-0-0... - Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data. [Data information shall be made available with licenses that comply with the Open Source Definition.] (aggiunto) - Code: The source code used to train and run the system [, made available with OSI-approved licenses]. (aggiunto) - Model: The model parameters. (eliminato) - Weights: The model weights and parameters, made available under OSI-approved terms (aggiunto) A.
Ciao Antonio, grazie per la segnalazione.
- Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data. [Data information shall be made available with licenses that comply with the Open Source Definition.] (aggiunto)
Qui trovi la mia controproposta: https://discuss.opensource.org/t/draft-v-0-0-9-of-the-open-source-ai-definit... Giacomo
Ops! il mio post è stato "nascosto"... On Fri, 6 Sep 2024 00:55:55 +0200 Giacomo Tesio <giacomo@tesio.it> wrote:
Qui trovi la mia controproposta:
https://discuss.opensource.org/t/draft-v-0-0-9-of-the-open-source-ai-definit...
Fortunatamente, la Wayback Machine è stata più veloce: http://web.archive.org/web/20240905230145/https://discuss.opensource.org/t/d... Riporto comunque il contenuto di seguito, caso mai richiedessero di cancellarlo anche di lì (mi è già capitato in passato...) ``` Totally agree with @thesteve0. Systems based on machine learning techniques are composed of two kind of software: a virtual machine (with a specific architecture) that basically maps vectors to vectors and a set of “weight” matrices that constitute the software executed by such virtual machine (the “AI model”). The source code of the virtual machine can be open source, so that given the proper compiler, we can create an exact copy of such software. In the same way, the software executed by the virtual machine (usually referred to as “the AI model”) is encoded in a binary form that the specific machine can directly execute (the weight matrices). The source code of such binary is composed of all the data required to recreate an exact copy of the binary (the weights). Such data include the full dataset used but also any random seed or input used during the process, such as, for example, the initial random value used to initialize an artificial neural network. Even if the weights are handy to modify an AI system, they are in no way enough to study it. So, any system that does not provide the whole dataset required to recreate an exact copy of the model, cannot be defined open source. Note that in a age of supply chain attacks that leverage opensource, the right to study the system also has a huge practical security value as arXiv:2204.06974 showed that you can plant undetectable backdoors in machine learning models. Thus I suggest to modify the definition so that Data information: Sufficiently detailed information about all the data used to train the system (including any random value used during the process), so that a skilled person can recreate an exact copy of the system using the same data. Data information shall be made available with licenses that comply with the Open Source Definition. Being able to build a “substantially equivalent” system means not being able to build that system, but a different one. It would be like defining Google Chrome as “open source” just because we have access to Chromium source code. When its training data cannot legally be shared, an AI system cannot be defined as “open source” even if all the other components comply with the open source definition, because you cannot study that system, but only the components available under the os license. Such a system can be valuable, but not open source, even if the weights are available under a OSD compliant license, because they encode an opaque binary for a specific architecture, not source code. Lets properly call such models and systems “freeware” and build a definition of OpenSource AI that is coherent with the OpenSource one. ``` Giacomo
D'accordo su tutto, ma io sono ancora più "critico"
Even if the weights are handy to modify an AI system, they are in no way enough to study it.
No, i pesi non sono sufficienti per modificare (e ovviamente creare qualcosa di sensato). A questo sono arrivato solo costruendomi, l'anno scorso, un microLM. https://github.com/opensignature/stories/tree/main I pesi, tutti nel file story.h, sono poco più di 250000, niente a confronto dei miliardi degli LLM. Eppure dubito che si riesca a modificarli per ottenere qualcosa di altrettanto funzionante. Il "peso" è il risultato di una serie di operazioni matematiche irreversibili, se li modifichi ottieni frasi senza senso, parole (composte da token) senza senso, ecc. A.
Buongiorno, Guido Vetere <vetere.guido@gmail.com> writes: [...]
Google ha rilasciato gemma2, un modello 'aperto' da soli 9B (gira pressoché ovunque) che sembra (a prima vista) sorprendentemente buono
a prima vista ogni "sparatore a caso di stronzate" sembra "sorprendentemente buono", anche quelli umani [...]
You: Dai un giudizio storico su Mussolini, in italiano
nientepopodimeno che un guidizio... e dov'è la commissione d'esame? :-) ...che si risolve in una ricerchina da terza media che un ragazzino mediamente sgamato avrebbe potuto scopiazzare tra wikipedia e skuola.net ma la cosa fondamentale che un adulto _deve_ pretendere da un ragazzino è che sappia spiegare /perché/ si è formato quel tal _giudizio_, su quali basi di _ricerca_ (storica in questo caso) quindi il giudizio, quello vero, non è quello del ragazzino, ma quello dell'adulto (che ha chiesto un giudizio al ragazzino) in altre parole: chissenefrega del _riassunto_ (non giudizio) che è capace di fare gemma2 dei testi che ha elaborato? intendiamoci: dal punto di vista informatico è interessante verificare che ci sono algoritmi e quindi programmi in grado di fare discreti riassunti dei testi elaborati, ma il "dibattito pubblico" NON sta in questi termini che poi, /sarebbe/ interessante dal punto di vista informatico ma essendo il tutto assolutamente NON riproducibile possiamo tranquillamente dire, dal punto di vista meta-scientifico, che si tratta di pseudo-informatica [...]
Notare lo stile cerchiobottista che denota un gran lavoro di 'filtering' e 'alignment' (Google se lo può permettere, le nostre Università evidentemente no).
evidentemente alle nostre università non è ancora concesso lo schiavismo, almeno non così spudorato alzi la mano UN ricercatore in questa lista, uno solo, diposto a fare _almeno_ per 5 anni il "filtratore conto terzi"
Modelli 'aperti' (virgolette d'obbligo) di questo tipo continueranno a uscire nei prossimi mesi. Di fatto, in prospettiva, chiunque potrà ospitare un simil-GPT sul proprio server da 100 euro al mese, anche adattandolo (fine-tuning) al proprio dominio.
e quindi? Uno, nessuno e centomila :-D il motto potrebbe essere "più stronzate per tutti!"... sia chiaro, io sarei _entusiasta_ se chiunque con un minimo di capacità fosse in grado di sviluppare una fabbrica di stronzate (fake news?) da 100€/mese ...peccato che NON essendo riproducibile, quel modello 'aperto', nonostante il "fine tuning" (chi avrà abbastanza schia... voglia di farlo?), continuerà a ripetere più o meno _le stesse_ stronz... ops: riassunti! BTW, quello che costa tanto non è l'hardware per gar girare il modello ma il "filtering" (umano, vero?)...
Insomma, chi vuole 'distruggere' l'AI generativa dovrà andare un bel po' in giro ... :-)
mavà, si può fare benissimo da remoto, semplicemente diffondendo idee differenti (sull'intelligenza) :-) ...è sufficiente resistere un minuto di più di quelli che ne sono _rapiti_ e la /spacciano/ come soluzione e _contemporaneamente_ causa dei mali del mondo. poi, DOPO, finalmente si potrà tornare a parlare di informatica, quella _riproducibile_ (che quella NON riproducibile è _vaporware_) Saluti, 380° -- 380° (Giovanni Biscuolo public alter ego) «Noi, incompetenti come siamo, non abbiamo alcun titolo per suggerire alcunché» Disinformation flourishes because many people care deeply about injustice but very few check the facts. Ask me about <https://stallmansupport.org>.
participants (10)
-
380° -
Antonio -
Claudio Agosti -
Fabio Alemagna -
Federico Leva (Nemo) -
Giacomo Tesio -
Guido Vetere -
Marco A. Calamari -
Mauro Gorrino -
Stefano Zacchiroli