RAGi, tagi i inne dragi – czyli uzależnienie od metryk, które nic nie mówią

VIEW SPEECH SUMMARY

1. Wstęp i kontekst
- Prowadząca przyznaje się do hobby czytania logów, co pomaga jej w pracy z modelami językowymi.
- Rosnące modele i ilość danych nie przekładają się automatycznie na lepsze odpowiedzi.
- Modele LLM często mają problem z halucynacjami (generują błędne informacje).
- Rozwiązaniem są systemy Retrival Augmented Generation (RAG), które najpierw wyszukują odpowiednie dokumenty, a potem generują odpowiedź na ich podstawie.

2. Testowanie systemów RAG – zagadnienia i wyzwania
- Kluczowe pytania przy testowaniu: czy odpowiedź jest poprawna (prawdziwa), odpowiada na pytanie, jest gramatycznie poprawna, zwięzła i odpowiednia kontekstowo.
- Przykłady problematycznych odpowiedzi, np. błędne daty, niegrzeczny język, wymijające odpowiedzi.
- Testy produkcyjne na bazach formalno-prawnych (np. regulaminy uczelniane) są trudne z powodu:
- wiele dokumentów pokrywa podobne tematy, ale w niuansach się różnią,
- przestarzałe lub nakładające się dokumenty,
- trudne do interpretacji fragmenty.

3. Metryki ewaluacji Retrieverów
- Typowe metryki: precyzja, recall, hit rate, ranking.
- Problem z określeniem, co jest "przydatnym" dokumentem i kto to ocenia.
- Modele bazują na podobieństwie kosinusowym pomiędzy wektorami, co może nie odzwierciedlać prawdziwego znaczenia dla człowieka.
- Ludzie interpretują teksty przez pryzmat synonimów, kontekstu, skojarzeń i kultury, co ciężko odwzorować automatycznie.

4. Przykład problematycznej oceny metryk - nepotyzm
- Pytanie o zatrudnianie członków rodziny (nepotyzm):
- Ludzka interpretacja identyfikuje związek obu pojęć,
- model kosinusowy nisko ocenia powiązanie tych fraz,
- inne fragmenty dokumentów, mniej trafne, ocenia wysoko i są wyżej w rankingu.
- Metryki takie jak BM25 bardziej dosłowne i mniej elastyczne, co ogranicza ich skuteczność.

5. Ewaluacja generacji odpowiedzi
- Metryki dotyczące stylu, gramatyki i tonu: perplexity, HUB, OSUM (głównie dla języka angielskiego, ale rozwijane dla polskiego).
- Konkretny problem z halucynacjami mimo idealnie dobranych dokumentów.
- Popularne metryki pokrycia tekstu: róż, blu, meteor - mierzą zbieżność słowną, co może nie uwzględniać kontekstu i istotnych niuansów.

6. Zaawansowane metryki semantyczne
- BERT score, Sentence-BERT, MoveScore - działają na poziomie embedów zdań i tokenów, podkreślają semantyczne podobieństwo.
- Również mają ograniczenia – np. drobna zmiana ważnego terminu (studia I i II stopnia) może nie obniżyć wyniku, mimo istotnych różnic.

7. Problemy z automatyczną ewaluacją i anotacją
- Trudności w tworzeniu zbiorów pytań i odpowiedzi adekwatnych do bazy danych.
- Automaty generowane pytania często nieadekwatne lub banalne.
- Ręczne tworzenie pytań i odpowiedzi wymaga znajomości bazy i realiów.
- Ekstrakcja inkludów (wymaganych fraz w odpowiedzi) i ekskludów (frazy niepożądane) jako sposób na dokładniejszą ocenę.
- Konieczne jest filtrowanie wyników, iteracyjne uzupełnianie anotacji przez wielu annotatorów.

8. Narzędzia usprawniające ewaluację
- Proste GUI do anotacji pomagają w zarządzaniu inkludami i ekskludami,
- Pozwalają współpracować nie tylko inżynierom, ale też humanistom,
- Ułatwiają przeglądanie fragmentów i ocenę trafności dokumentów.

9. Wnioski i rekomendacje
- Ewaluacja szczegółowa jest kluczowa do poznania rzeczywistego działania modelu i specyfiki bazy danych.
- Dzięki niej można lepiej czyścić i czankować (dzielić na fragmenty) bazę dokumentów.
- Niewłaściwy dobór metryk może wprowadzić błędne wnioski o jakości modelu.
- Modele mogą “udowodnić”, że Ziemia jest płaska, jeśli metryki są niewłaściwie dobrane.

---

Zadania i elementy do działania:
- Ręczne tworzenie i weryfikacja pytań i odpowiedzi do ewaluacji z udziałem ekspertów znających specyfikę bazy.
- Tworzenie inkludów i ekskludów dla precyzyjnej oceny poprawności odpowiedzi.
- Użycie GUI do anotacji, aby usprawnić i ustandaryzować pracę anotatorów.
- Testowanie i dobór odpowiednich metryk ewaluacyjnych, uwzględniających semantykę i kontekst.
- Regularna analiza logów i wyników ewaluacji, aby identyfikować problemy z halucynacjami i rankowaniem.
- Czyszczenie i optymalizacja bazy dokumentów, usuwanie duplikatów i przedawnionych zapisów.
- Uważne wdrażanie modeli językowych w systemach produkcyjnych z uwzględnieniem ich ograniczeń.

RAGi, tagi i inne dragi – czyli uzależnienie od metryk, które nic nie mówią

12:40 - 13:10, 27th of May (Tuesday) 2025 / DEV AI & DATA STAGE

RAG to całkiem udany mariaż wyszukiwania informacji i generowania odpowiedzi. Niestety w posagu zgarnia również problemy z ewaluacją obu tych etapów, a jeśli dodamy do tego jeszcze problem poprawnego cytowania dokumentów, to nieprzespane noce murowane.
Metryk i frameworków do modeli RAG jest co najmniej kilkadziesiąt, ale zazwyczaj albo wymagają więcej GPU niż sama aplikacja, albo mierzą bardzo wąski wycinek działania systemu, który łatwo wykiwać, albo potrafią się odnieść do bardzo skrupulatnie przygotowanego zbioru referencyjnego. Jak się zabrać do budowania zbioru, który nie da się wykiwać i co może pójść nie tak? Szczególnie, gdy nie chodzi o gładki i elegancki benchmark, a prawdziwie produkcyjnie nieuczesane dane, np. uniwersytecką dokumentację. Jak ewaluować, żeby mieć z tego coś więcej niż tylko dobre slajdy?

LEVEL:

Basic Advanced Expert

TRACK:

AI/ML Data

TOPICS:

AI ML/DL Testing

Inez Okulska

CampusAI / Politechnika Wrocławska