On 15 Oct 2023, at 22:02, Daniela Tafani <daniela.tafani@unipi.it> wrote:
Buonasera, 380°
Il 15/10/2023 20:21, 380° ha scritto:
Allora ripeto la mia domanda: ci sono nuovi studi che dimostrino che le limitazioni evidenziate nei test sulla competenza logico/linguistica di BERT siano stati risolti da altri LLM?
Tra le pubblicazioni recenti, sul tema, segnalo
Vittoria Dentella, Elliot Murphy, Gary Marcus, Evelina Leivada, Testing AI performance on less frequent aspects of language reveals insensitivity to underlying meaning, 2023 https://arxiv.org/abs/2302.12313
Abstract Advances in computational methods and big data availability have recently translated into breakthroughs in AI applications. With successes in bottom-up challenges partially overshadowing shortcomings, the 'human-like' performance of Large Language Models has raised the question of how linguistic performance is achieved by algorithms. Given systematic shortcomings in generalization across many AI systems, in this work we ask whether linguistic performance is indeed guided by language knowledge in Large Language Models. To this end, we prompt GPT-3 with a grammaticality judgement task and comprehension questions on less frequent constructions that are thus unlikely to form part of Large Language Models' training data. These included grammatical 'illusions', semantic anomalies, complex nested hierarchies and self-embeddings. GPT-3 failed for every prompt but one, often offering answers that show a critical lack of understanding even of high-frequency words used in these less frequent grammatical constructions. The present work sheds light on the boundaries of the alleged AI human-like linguistic competence and argues that, far from human-like, the next-word prediction abilities of LLMs may face issues of robustness, when pushed beyond training data.
Attenzione, si stanno confondendo le capacità dei LLM con quelle delle loro applicazioni. Nel caso citato le prove sono effettuate con text-davinci-02, che è un chatbot basato su GPT-3, non GPT-3 direttamente. I chatbot sono stati ottenuti facendo fine-tuning su task di question answering e poi con RLHF per svolgere conversazioni. Se si segue questa strada, allora si dovrebbe fare il fine-tuning di un modello su un task di reasoning, prima di concludere che non sa fare reasoning. Ad esempio con il Chain-of-Thought prompting, si possono evidenziare capacità di ragionamento matematico. Se invece ci vogliamo limitare alle capacità linguistiche dei modelli, questo è un altro studio: Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2023, January 23). Dissociating language and thought in large language models: a cognitive perspective. ArXiv: https://arxiv.org/abs/2301.06627 — Beppe
Ho intravisto anche (ma non l'ho letto)
Konstantine Arkoudas, GPT-4 Can’t Reason, 2023, https://arxiv.org/abs/2308.03762
Buona serata, Daniela