An assessment of Zero-Shot Open Book Question Answering using Large Language Models

Een evaluatie van Zero-Shot Open Book Question Answering met Large Language Models

De afgelopen jaren is de populariteit van publiek beschikbare generative Artificial Intelligence (AI)-systemen explosief toegenomen. Een opvallende ontwikkeling hierin is de ongekende adoptie van “chatbots”, die hun waarde hebben bewezen in zowel persoonlijke als commerciële use cases. De belangrijkste drijfveer achter deze groeiende aandacht voor Natural Language Processing (NLP)-systemen is de ontwikkeling van Large Language Models (LLMs). Deze modellen hebben indrukwekkende capaciteiten laten zien op het gebied van generalisatie, redeneren, probleemoplossing, abstract denken en het begrijpen van complexe concepten.

Sociale en economische implicaties van generative AI

De opkomst van generative AI-systemen heeft ingrijpende gevolgen voor het dagelijks leven en voor organisatorische werkwijzen. Deze ontwikkelingen brengen aanzienlijke sociale en economische implicaties met zich mee. Naar schatting heeft circa 19% van de banen in de Verenigde Staten ongeveer 50% van de taken blootgesteld aan LLMs, wanneer rekening wordt gehouden met huidige model capaciteiten en verwachte LLM-gedreven software. De toenemende vraag naar AI-oplossingen onderstreept de noodzaak van robuuste en nauwkeurige systemen die complexe vragen kunnen afhandelen en tegelijkertijd precieze en uitlegbare antwoorden leveren.

Evolutie van Question Answering-systemen

Historisch gezien waren Question Answering-systemen voornamelijk extractive van aard, gericht op het identificeren van specifieke informatie uit aangeleverde teksten. In recente jaren heeft het NLP-domein echter een verschuiving doorgemaakt naar meer abstracte Natural Language Generation (NLG)-benaderingen. NLG verwijst naar het genereren van natuurlijke taal om specifieke communicatieve doelen te bereiken. Deze output kan variëren van een kort antwoord tot uitgebreide toelichtingen die meerdere zinnen of zelfs pagina’s beslaan.

Ontwikkelingen in model architecturen

Deze paradigmaverschuiving is mogelijk gemaakt door vooruitgang in model architecturen, zoals de Text-To-Text Transfer Transformer (T5) en de Generative Pre-Trained Transformer (GPT). Deze modellen hebben nieuwe mogelijkheden geopend om de capaciteiten van taalmodellen binnen uiteenlopende toepassingen te onderzoeken.

Evaluatie van state-of-the-art taalmodellen

In dit onderzoek zijn de prestaties van state-of-the-art taalmodellen onderzocht binnen een Zero-Shot Open Domain QA-setting, met specifieke focus op technische onderwerpen rondom cloud computing en containerization. Zowel extractive als generative benaderingen zijn geëvalueerd met behulp van een uniforme methodologie. Het doel was om inzicht te krijgen in de sterke en zwakke punten van verschillende modellen en om hun geschiktheid voor het beantwoorden van technische vragen te beoordelen.

Hoewel sommige LLMs inzetbaar zijn voor een breed scala aan taken buiten QA, vielen deze toepassingen buiten de scope van dit onderzoek. Daarnaast is, vanwege resource- en praktische beperkingen, de focus gelegd op modellen met minder dan 10 miljard parameters. Multi-modal Machine Reading Comprehension (MRC)-benaderingen, zoals tri-encoder retrievers en table readers, zijn eveneens buiten beschouwing gelaten.

Onderzoeksbijdrage

De onderzoeksresultaten bieden waardevolle inzichten in model prestaties binnen technische QA-contexten en dragen bij aan een beter begrip van Zero-Shot QA-architecturen. De bijbehorende code is beschikbaar op GitHub onder de CC-BY 4.0-licentie.

Download
Privacy Overview
This website uses cookies. We use cookies to ensure the proper functioning of our website and services, to analyze how visitors interact with us, and to improve our products and marketing strategies. For more information, please consult our privacy- en cookiebeleid.