Re: [nexa] Microsoft, Mistral AI e l'AI Act
Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione. Noi ci vorremmo provare, rispondendo a questa call: https://aiboost-project.eu/ utilizzando in parte il codice OS di OLMo di AI2, con cui siamo in contatto. — Beppe
On 27 Feb 2024, at 08:58, <nexa-request@server-nexa.polito.it> <nexa-request@server-nexa.polito.it> wrote:
From: Daniela Tafani <daniela.tafani@unipi.it <mailto:daniela.tafani@unipi.it>> To: "nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>" <nexa@server-nexa.polito.it <mailto:nexa@server-nexa.polito.it>> Subject: [nexa] Microsoft, Mistral AI e l'AI Act Message-ID: <121e9a4e963e455a97b1f6d830f22229@unipi.it <mailto:121e9a4e963e455a97b1f6d830f22229@unipi.it>> Content-Type: text/plain; charset="iso-8859-1"
Microsoft and Mistral AI announce new partnership to accelerate AI innovation and introduce Mistral Large first on Azure By Eric Boyd, Corporate Vice President, Azure AI Platform, Microsoft https://azure.microsoft.com/en-us/blog/microsoft-and-mistral-ai-announce-new... ----- Il commento di Luca Bertuzzi: This is a mind-blowing announcement. Mistral AI, the French company that has been fighting tooth and nail to water down the #AIAct's foundation model rules, is partnering up with Microsoft. So much for 'give us a fighting chance against Big Tech'. The first question that comes to mind is: was this deal in the making while the AI Act was being negotiated? That would mean Mistral discussed selling a minority stake to Microsoft while playing the 'European champion' card with the EU and French institutions. If so, this whole thing might be a masterclass in astroturfing, and it seems unrealistic for a partnership like this to be finalised in less than a month. Many people involved in the AI Act noted how Big Tech's lobbying on GPAI suddenly went quiet toward the end. That is because they did not need to intervene since Mistral was doing the 'dirty work' for them. Remarkably, Mistral's talking points were extremely similar to those of Big Tech rather than those of a small AI start-up, based on their ambition to reach that scale. The other question is how much the French government knew about this upcoming partnership with Microsoft. It seems unlikely Paris was kept completely in the dark, but cosying up with Big Tech does not really sit well with France's strive for 'strategic autonomy'. Especially since the agreement includes making Mistral's large language model available on Microsoft's Azure AI platform, while France has been pushing for an EU cybersecurity scheme to exclude American hyperscalers from the European market. Still today, and I doubt it is a coincidence, Mistral has announced the launch of Large, a new language model intended to compete directly with OpenAI's GPT-4. However, unlike previous models, Large will not be open source. In other words, Mistral is no longer (just) a European leader and is backtracking on its much-celebrated open source approach. Where does this leave the start-up vis-à-vis EU policymakers as the AI Act's enforcement approaches? My guess is that someone will inevitably feel played.
https://twitter.com/BertuzLuca/status/1762197130616209765 oppure https://www.linkedin.com/posts/luca-bertuzzi-186729130_introducing-mistral-l...
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote:
Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello. Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere. Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel verso giusto, con modelli sempre più aperti che riescono sempre meglio a rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e non è detto che il gap sia completamente colmabile. Nel mentre dovremmo guardare criticamente alle regolamentazioni che hanno permesso tutto questo "yolo training", che dà un vantaggio competitivo enorme a chi libero non vuole essere. Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
On mar, 2024-02-27 at 10:39 +0100, Stefano Zacchiroli wrote:
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote:
Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello.
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Buongiorno Stefano. Un appunto, nessuna azienda *europea* lo può fare. Quelle americane, ad esempio, legalmente possono e lo fanno. Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste "aziende specializzate", in modo da avere comunque un ulteriore schermo legale contro cause civili spicciole per diritto d'autore e proprietà intellettuale. JM2C. Marco
Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel verso giusto, con modelli sempre più aperti che riescono sempre meglio a rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e non è detto che il gap sia completamente colmabile.
Nel mentre dovremmo guardare criticamente alle regolamentazioni che hanno permesso tutto questo "yolo training", che dà un vantaggio competitivo enorme a chi libero non vuole essere.
Ciao
On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Un appunto, nessuna azienda *europea* lo può fare. Quelle americane, ad esempio, legalmente possono e lo fanno.
Ho l'impressione che parliamo di diritti diversi. Io mi riferisco a quello di redistribuire i training dataset acquisiti via web crawling (o simili). A mia conoscenza, non lo possono fare nemmeno quelle americane e non lo fanno. E la ragione è abbastanza ovvia: se fai web crawl recuperi pagine con milioni di detentori di diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior parte delle quali non permette redistribuzione. Se hai controesempi sono i benvenuti. Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini di machine learning, e su quello effettivamente la situazione tra EU e US e abbastanza diversa. (Anche se la recente riforma del copyright europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni use case.)
Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste "aziende specializzate", in modo da avere comunque un ulteriore schermo legale contro cause civili spicciole per diritto d'autore e proprietà intellettuale.
Non ho una statistica esaustiva, ma per interazione diretta con gli autori di LLM sia specifici per il codice che general purpose (a-la ChatGPT), a me risulta il contrario. C'è molto crawling e mining in proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma che a mia conoscenza non è dominante negli LLM state-of-the-art. Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
On mar, 2024-02-27 at 14:08 +0100, Stefano Zacchiroli wrote:
On Tue, Feb 27, 2024 at 12:04:52PM +0100, Marco A. Calamari wrote:
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Un appunto, nessuna azienda *europea* lo può fare. Quelle americane, ad esempio, legalmente possono e lo fanno.
Ho l'impressione che parliamo di diritti diversi.
Io mi riferisco a quello di redistribuire i training dataset acquisiti via web crawling (o simili). A mia conoscenza, non lo possono fare nemmeno quelle americane e non lo fanno. E la ragione è abbastanza ovvia: se fai web crawl recuperi pagine con milioni di detentori di diritto d'autore diversi e sotto migliaia di licenze diverse, la maggior parte delle quali non permette redistribuzione.
Se hai controesempi sono i benvenuti.
Non vorrei tediare la lista, quindi sarò sintetico https://datarade.ai/data-categories/ai-ml-training-data/datasets
Credo tu ti riferisca al diritto di fare mining di tali pagine, ai fini di machine learning, e su quello effettivamente la situazione tra EU e US e abbastanza diversa. (Anche se la recente riforma del copyright europea ha liberalizzato parecchio le cose anche qua da noi, per alcuni use case.)
Poi nessuno acquisisce più dataset in proprio, tutti lo fanno tramite queste "aziende specializzate", in modo da avere comunque un ulteriore schermo legale contro cause civili spicciole per diritto d'autore e proprietà intellettuale.
Non ho una statistica esaustiva, ma per interazione diretta con gli autori di LLM sia specifici per il codice che general purpose (a-la ChatGPT), a me risulta il contrario. C'è molto crawling e mining in proprio da parte dei grandi attori, in aggiunta a quello che dici tu, ma che a mia conoscenza non è dominante negli LLM state-of-the-art.
Ciao
On Tue, Feb 27, 2024 at 03:16:03PM +0100, Marco A. Calamari wrote:
Non vorrei tediare la lista, quindi sarò sintetico https://datarade.ai/data-categories/ai-ml-training-data/datasets
Nel caso di ChatGPT, quello che si sa per GPT-4 (a mia conoscenza) è questo: "trained [...] using both publicly available data (such as internet data) and data licensed from third-party providers." (fonte: https://arxiv.org/pdf/2303.08774.pdf ) Loro stessi dichiarano di avere un web crawler e come escludere pagine dal suo crawling qua: https://platform.openai.com/docs/gptbot (Per GPT-3 hanno dichiarato di avere usato anche CommonCrawl, ma era "solo" il 60% del training set.) Comunque sia, proprio perché è tutto molto chiuso (e nel caso specifico anche segreto industriale), possiamo solo tirare a indovinare sulla esattezza dei dettagli... -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire
infatti i dataset non sono distribuiti, neanche quelli dei modelli c.d. aperti, però molti di questi sono comunque reperibili 'a prescindere' ci sono poi attacchi con i quali si riesce a ottenere qualcosa dai modelli, ma bisogna saperci fare :-) https://arxiv.org/pdf/2311.17035.pdf G. On Tue, 27 Feb 2024 at 10:39, Stefano Zacchiroli <zack@upsilon.cc> wrote:
On Tue, Feb 27, 2024 at 09:17:10AM +0100, Giuseppe Attardi wrote:
Facciamolo con fondi pubblici un modello davvero completamente Open, dai dati di apprendimento, al codice, ai pesi del modello, ai test di valutazione.
Concordo con l'obiettivo e sul fatto che una AI che possa dirsi "open" (o meglio: "libera") dovrebbe esserlo in tutto: dataset di training, codice di training, codice di inferenza, pesi del modello.
Ma attenzione al fatto che, a leggi vigenti, tale obiettivo non è raggiungibile per modelli a-la ChatGPT. Il motivo è che includono nei loro dataset di training grandi parti del Web (solitamente ottenute via crawling fatto in casa), che nessuna parte terza può legittimamente redistribuire, dato che solo una piccolissima parte del Web è disponibile sotto licenze libere.
Una AI "libera", secondo i criteri accennati sopra, ha quindi oggi uno svantaggio competitivo enorme rispetto a quelle chiuse --- il che è molto deprimente. L'evoluzione tecnologica e scientifica sta andando nel verso giusto, con modelli sempre più aperti che riescono sempre meglio a rivalizzare con quelli chiusi (o ibridi) ma la strada è ancora lunga e non è detto che il gap sia completamente colmabile.
Nel mentre dovremmo guardare criticamente alle regolamentazioni che hanno permesso tutto questo "yolo training", che dà un vantaggio competitivo enorme a chi libero non vuole essere.
Ciao -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "' _______________________________________________ nexa mailing list nexa@server-nexa.polito.it https://server-nexa.polito.it/cgi-bin/mailman/listinfo/nexa
On Tue, Feb 27, 2024 at 12:10:42PM +0100, Guido Vetere wrote:
infatti i dataset non sono distribuiti, neanche quelli dei modelli c.d. aperti, però molti di questi sono comunque reperibili 'a prescindere'
Purtroppo nella maggior parte dei casi è come dici tu, e più in generale c'è molta confusione sotto il "sole" delle IA cosiddette aperte. Ma ci sono anche esempi virtuosi, come Starcoder o Eleuther (LLM per il codice), i cui training dataset (assieme a tutto il resto) sono interamente disponibili e libri. -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
On Tue, Feb 27, 2024, 14:11 Stefano Zacchiroli <zack@upsilon.cc> wrote:
Ma ci sono anche esempi virtuosi, come Starcoder o Eleuther (LLM per il codice), i cui training dataset (assieme a tutto il resto) sono interamente disponibili e libri.
Non tutti i dataset di Eleuther AI sono ridistribuibili. Anzi, The Pile è purtroppo stato rimosso dalla circolazione, se non ricordo male.
On Tue, Feb 27, 2024 at 05:27:06PM +0100, Stefano Maffulli wrote:
On Tue, Feb 27, 2024, 14:11 Stefano Zacchiroli <zack@upsilon.cc> wrote:
Ma ci sono anche esempi virtuosi, come Starcoder o Eleuther (LLM per il codice), i cui training dataset (assieme a tutto il resto) sono interamente disponibili e libri.
Non tutti i dataset di Eleuther AI sono ridistribuibili. Anzi, The Pile è purtroppo stato rimosso dalla circolazione, se non ricordo male.
Ah, non lo sapevo, grazie per l'informazione. Ora che mi ci hai fatto guardare vedo qua https://huggingface.co/datasets/EleutherAI/pile/discussions/15 che ci sono versioni di The Pile ripulite dei contenuti problematici, ma mantenute dalla comunità e non da Eleuther. (Disclaimer: non le ho testate.) Starcoder/The Stack invece è ancora vivo e lotta insieme a noi per avere AI libere: https://huggingface.co/datasets/bigcode/the-stack -- Stefano Zacchiroli . zack@upsilon.cc . https://upsilon.cc/zack _. ^ ._ Full professor of Computer Science o o o \/|V|\/ Télécom Paris, Polytechnic Institute of Paris o o o </> <\> Co-founder & CTO Software Heritage o o o o /\|^|/\ https://twitter.com/zacchiro . https://mastodon.xyz/@zacchiro '" V "'
participants (5)
-
Giuseppe Attardi -
Guido Vetere -
Marco A. Calamari -
Stefano Maffulli -
Stefano Zacchiroli