LLM e datasets ... qualche numero

Feb. 22, 2023

      Partiamo dal repository di openai/gpt-3, archiviato il 19/9/2020 [1]
Numero di parole su cui è stato addestrato [2]:
181.014.683.608 parole inglesi (pari al 92,65%)
   1.187.784.217 parole italiane (pari allo 0,61%)
          31.142 parole in inuktitut (pari allo 0,00002%)

Dalla pagina wikipedia di GPT-3 [3] risultano, come dati di addestramento:

Set di dati    N. Token     Peso nel mix di addestramento
Common Crawl  410 miliardi    60%
WebText2       19 miliardi    22%
Books1         12 miliardi     8% (*)
Books2         55 miliardi     8%
Wikipedia       3 miliardi     3%

(*) le parole prese dai libri "pesano" di più di quelle prese dai siti 
Internet [4]

Allargando il campo a tutto il machine learning, i datasets sono più o 
meno questi:
- List of datasets for machine-learning research [5]
tra cui spicca, oltre al solito Common Crawl, un USENET corpus 
(2005-2011) di ben
7 miliardi di parole [6]

Per finire un'immagine che non c'entra nulla con sopra ma uscita fuori 
per serendipità
e dato che in questa lista c'è qualche olivettiano ... eccola:
https://cs.nyu.edu/~roweis/data/olivettifaces.gif
trovata qui: https://cs.nyu.edu/~roweis/data.html

A.

[1] https://github.com/openai/gpt-3
[2] 
https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_...
[3] https://it.wikipedia.org/wiki/GPT-3
[4] https://commoncrawl.org/
[5] 
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research 

[6] 
http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.ht...

Antonio

tags

participants (1)