LLM e datasets ... qualche numero
Partiamo dal repository di openai/gpt-3, archiviato il 19/9/2020 [1] Numero di parole su cui è stato addestrato [2]: 181.014.683.608 parole inglesi (pari al 92,65%) 1.187.784.217 parole italiane (pari allo 0,61%) 31.142 parole in inuktitut (pari allo 0,00002%) Dalla pagina wikipedia di GPT-3 [3] risultano, come dati di addestramento: Set di dati N. Token Peso nel mix di addestramento Common Crawl 410 miliardi 60% WebText2 19 miliardi 22% Books1 12 miliardi 8% (*) Books2 55 miliardi 8% Wikipedia 3 miliardi 3% (*) le parole prese dai libri "pesano" di più di quelle prese dai siti Internet [4] Allargando il campo a tutto il machine learning, i datasets sono più o meno questi: - List of datasets for machine-learning research [5] tra cui spicca, oltre al solito Common Crawl, un USENET corpus (2005-2011) di ben 7 miliardi di parole [6] Per finire un'immagine che non c'entra nulla con sopra ma uscita fuori per serendipità e dato che in questa lista c'è qualche olivettiano ... eccola: https://cs.nyu.edu/~roweis/data/olivettifaces.gif trovata qui: https://cs.nyu.edu/~roweis/data.html A. [1] https://github.com/openai/gpt-3 [2] https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_... [3] https://it.wikipedia.org/wiki/GPT-3 [4] https://commoncrawl.org/ [5] https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research [6] http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.ht...
participants (1)
-
Antonio