RAGi, tagi i inne dragi – czyli uzależnienie od metryk, które nic nie mówią
12:40 - 13:10, 27th of May (Tuesday) 2025 / DEV AI & DATA STAGE
RAG to całkiem udany mariaż wyszukiwania informacji i generowania odpowiedzi. Niestety w posagu zgarnia również problemy z ewaluacją obu tych etapów, a jeśli dodamy do tego jeszcze problem poprawnego cytowania dokumentów, to nieprzespane noce murowane.
Metryk i frameworków do modeli RAG jest co najmniej kilkadziesiąt, ale zazwyczaj albo wymagają więcej GPU niż sama aplikacja, albo mierzą bardzo wąski wycinek działania systemu, który łatwo wykiwać, albo potrafią się odnieść do bardzo skrupulatnie przygotowanego zbioru referencyjnego. Jak się zabrać do budowania zbioru, który nie da się wykiwać i co może pójść nie tak? Szczególnie, gdy nie chodzi o gładki i elegancki benchmark, a prawdziwie produkcyjnie nieuczesane dane, np. uniwersytecką dokumentację. Jak ewaluować, żeby mieć z tego coś więcej niż tylko dobre slajdy?