Evaluatie van open-source transformers voor cloud Question Answering
De afgelopen jaren is er veel belangstelling ontstaan voor Question Answering (QA)-systemen, waardoor dit een belangrijk onderzoeksgebied is geworden binnen Natural Language Processing (NLP). Deze systemen spelen een cruciale rol in toepassingen met menselijke interactie, zoals customer service chatbots en virtuele assistenten als SIRI en Alexa. Het primaire doel van een QA-systeem is het genereren van natuurlijke taal antwoorden die gebruikersvragen op een bevredigende manier beantwoorden. In de praktijk vereist dit echter meer dan het simpelweg ophalen van expliciet genoemde antwoorden uit een tekst.
Zoals beschreven door Saeidi et al. en Mensio et al. vereisen veel praktische QA-uitdagingen een dieper tekstbegrip, waarbij antwoorden worden afgeleid op basis van achtergrondkennis en context. Dit vraagt om redeneervermogen en inzicht in subtiele betekenissen binnen een vraag. Mohnish et al. benadrukten dat ruwe antwoorden van QA-systemen vaak niet aansluiten bij de verwachtingen van gebruikers, terwijl Strzalkowski et al. observeerden dat gebruikers meer waarde hechten aan gedetailleerde, contextrijke informatie dan aan korte, directe antwoorden.
Ontwikkelingen in transformer-modellen voor QA
Moderne NLP-benaderingen, zoals transformer-modellen, worden ingezet om deze complexiteit binnen QA-taken te adresseren. In tegenstelling tot traditionele sequentiële modellen, die input stap voor stap verwerken, maken transformers gebruik van self-attention-mechanismen om relaties tussen alle elementen binnen een input sequence te berekenen. Hierdoor kunnen betekenisvolle verbanden tussen ver uit elkaar liggende componenten worden vastgelegd. Onderzoek van Izacard et al. laat zien dat het toevoegen van aanvullende kennis via retrieval de QA-prestaties van transformer-modellen aanzienlijk verbetert.
Met de opkomst van Large Language Models (LLMs), met miljoenen tot miljarden parameters, zijn QA-systemen verder geëvolueerd. Proprietary LLMs zoals OpenAI’s ChatGPT 3 en opvolgers hebben grote successen geboekt binnen uiteenlopende NLP-taken, waarbij ChatGPT3.5-Turbo in 2022 meer dan 100 miljoen actieve gebruikers bereikte. Ondanks deze prestaties bestaan er zorgen rondom privacy, waaronder vraagstukken over trainingsdata, omgang met gebruikersdata en mogelijke kwetsbaarheden. Dit onderstreept het belang van het verkennen van gedecentraliseerde en open-source (OS) QA-oplossingen die privacy en transparantie centraal stellen.
Onderzoeksfocus en evaluatie
Dit onderzoek richtte zich op het evalueren van de effectiviteit van verschillende open-source transformer-modellen — Extractive Pre-trained Transformer (EPT), Generative Pre-trained Transformer (GPT) en Text-to-Text Transfer Transformer (T5) — binnen een realistische QA-use case. Deze modellen zijn vergeleken met OpenAI’s proprietary LLM, ChatGPT3.5-Turbo, om hun prestaties en competitiviteit te beoordelen.
Het gekozen domein voor dit onderzoek is cloud computing, met een specifieke focus op Kubernetes-technologie. Het QA-systeem maakt gebruik van de publieke Kubernetes-documentatie, aangevuld met realtime zoekopdrachten via Google, als primaire kennisbron. Voor de evaluatie van de verschillende modellen is een innovatieve Machine-trained Evaluation Score (MTES) ontwikkeld, genaamd Estimated Human Label (EHL). Deze score maakt gebruik van machine learning-technieken die zijn getraind op N-gram-gebaseerde metrics en door mensen gelabelde datasets. Daarbij worden uiteenlopende vraagtypen meegenomen, waaronder closed-ended, open-ended, conceptuele en procedurele vragen.