OSI: We heard you: let’s focus on substantive discussion
Salve Nexa, vi segnalo un nuovo thread [0] avviato dal community manager di OSI in cui si invita la comunità ad elencare i problemi ancora presenti nella bozza 0.0.9 della Open Source AI definition [1]. Il thread è titolato "We heard you: let’s focus on substantive discussion". [2] Si è rivelato piuttosto interessante, a tratti sorprendente, soprattutto per l'analisi dei meccanismi decisionali del gruppo di lavoro, tutt'altro che convenzionali. [3] Al momento comunque, i problemi emersi sono: - Data transparency: The data used to train an AI system should be openly available, as it’s essential for understanding and improving the model. - Pretraining dataset distribution: The dataset used for pre-training should also be accessible to ensure transparency and allow for further development. - Dataset documentation: The documentation for training datasets should be thorough and accurate to address potential issues. - Versioning: To maintain consistency and reproducibility, versioned data is crucial for training AI systems. - Open licensing: Data used to train Open Source AI systems should be licensed under an open license. - Reproducibility: an Open Source AI must be reproducible using the original training data, scripts, logs and everything else used by the original developer. - Inherent user (in)security: without access to the whole training data, it’s possible to plant undetectable backdoors in machine learning Models. - Implicit or Unspecified formal requirements: if ambiguities in the OSAID will be solved for each candidate AI system though a formal certificate issued by OSI, such formal requirement should be explicitly stated in the OSAID. - OSI as a single point of failure: since each new version of each candidate Open Source AI system world wide should undergo to the certification process again, this would turn OSI to a vulnerable bottleneck in AI development, that would be the target of unprecedented lobbying from the industry. - Open Washing AI: any definition that a black box could pass would both damage the credibility the whole open source ecosystem, and open a huge loophole in the european normative (the AI Act). Tutti i problemi in questione sono ampiamente documentati nel thread o negli altri thread collegati, tuttavia se avete osservato altri problemi o se voleste commentare su di essi, vi suggerisco di proporli al più presto. Giacomo PS: Guarda caso, tutti i problemi emersi sono risolvibili richiedendo la disponibilità dei dati di training, come proposto nel thread chiuso dallo stesso comunity manager dopo avermi silenziato [4] [0] https://discuss.opensource.org/t/we-heard-you-lets-focus-on-substantive-disc... [1] https://opensource.org/deepdive/drafts [2] dice proprio "ascoltare", ma alcuni utenti sono ancora silenziati [3] https://discuss.opensource.org/t/we-heard-you-lets-focus-on-substantive-disc... [4] https://discuss.opensource.org/t/rfc-separating-concerns-between-source-data...
Giusto perché all'OSI ci stanno a sentire:
I’m glad this session happened, because it gave people with concerns about the proposed Open Source AI Definition a visible space to highlight concerns in a way that could not easily be shut down, which is what I have observed on other platforms. It is a shame that there were so many contradictions in responses to questions and concerns (especially in the response to questions 2 and 3), and a clear misunderstanding of machine learning and how to protect the principles of open source within it.
https://www.juliaferraioli.com/blog/2024/osseu-osaid/ Inoltre, vi suggerisco le mie controproposte a Stefano Maffulli & friends (articolate nel mio solito inglese maccheronico :-) https://discuss.opensource.org/t/how-to-level-the-playing-field-with-the-ope... (accorrete, che sapete com'è solerte il community manager! :-D) Giacomo
Inoltro anche qui, per gli eventuali interessati. MCP Quest'anno il convegno AISA è co-organizzato con la Scuola Normale Superiore, nostra socia. Il programma quasi definitivo è visibile qui: https://aisa.sp.unipi.it/attivita/ix-convegno-annuale/ix-convegno-annuale-pr... Il tema del convegno sarà: "Il valore della ricerca: scienza aperta fra pubblicità e pubblicazione" Per noi la pubblicità è quella ideale dell'uso pubblico libero della ragione nel senso in cui Kant usa il termine (https://btfp.sp.unipi.it/dida/kant_7/ar01s05.xhtml#usopubblicoprivato). La pubblicazione, invece, è quella materiale, telematica e no, che non necessariamente deve aver luogo tramite gli editori scientifici commerciali e sotto monopoli intellettuali che proteggono molto più le rendite del commercio che l'apertura della scienza. Discuteremo dunque sia delle modalità della discussione scientifica pubblica sia dei rapporti della scienza - e della sua valutazione amministrativa e no - con l'editoria. La mattina dl 7 novembre i lavori saranno preceduti da un'anteprima dedicata allo stato della scienza aperta in Italia, di cui trovate notizia qui: https://aisa.sp.unipi.it/attivita/ix-convegno-annuale/ix-convegno-annuale-ta... Renderemo noti a ridosso del convegno sia l'URL per seguire i lavori in teleconferenza, sia le modalità per partecipare alla discussione da remoto. Chi è interessato è invitato a iscriversi può seguire il link a pretix.eu che trova qui: https://aisa.sp.unipi.it/attivita/ix-convegno-annuale/ Ciò ci permetterà di comunicare l'URL della teleconferenza a chi partecipa a distanza e di includere chi partecipa in presenza e lo desidera nella lista dei partecipanti alla visita guidata al Palazzo della Carovana. Ricordo infine che alla mezzanotte di oggi scade il bando per il nostro premio per tesi sulla scienza aperta: https://aisa.sp.unipi.it/premio-per-tesi-sulla-scienza-aperta-bando-2024/ A presto, Maria Chiara Pievatolo -- Maria Chiara Pievatolo Dipartimento di Scienze politiche Università di Pisa Via Serafini 3 56126 Pisa (Italy) +39 050 2212479 https://btfp.sp.unipi.it @mcp@poliversity.it @mcp_@qoto.org https://unimap.unipi.it/cercapersone/dettaglio.php?ri=5829
participants (2)
-
Giacomo Tesio -
Maria Chiara Pievatolo