VIEW SPEECH SUMMARY
- Projekt realizowany w firmie Asseco skupia się na automatyzacji części opisowej raportów regulacyjnych, co stanowi ok. 70% objętości dokumentów.
- Banki spędzają nawet 3 tygodnie pracy 5 osób na przygotowanie tych raportów, w tym zaangażowanie zarządu.
- Narzędzie wykorzystuje metodę Retrieval-Augmented Generation (RAG), która łączy wyszukiwanie w dokumentach i generowanie odpowiedzi przez modele językowe.
Działanie narzędzia i metody techniczne
- Dokumenty bankowe dzielone są na fragmenty („chunking”) i zamieniane na embeddingi (wektorowe reprezentacje znaczeniowe), co pozwala na odnalezienie powiązanych fragmentów do pytań od KNF.
- Pytania również są dzielone na mniejsze części, aby lepiej dopasować odpowiedzi.
- Narzędzie wspiera generowanie odpowiedzi wraz ze wskazaniem źródła informacji, co ułatwia późniejszą weryfikację i zapewnia transparentność.
- Zastosowano różne modele językowe do: dzielenia i embeddingu, odpowiadania na podpytania, weryfikacji sensowności źródeł, konsolidacji odpowiedzi i tworzenia krótkich podsumowań.
- W procesie używany jest mechanizm re-rankingu (mieszanie wyszukiwania po wektorach i słowach kluczowych) dla wyłonienia najbardziej trafnych dokumentów.
Wyjaśnialność i bezpieczeństwo stosowania AI
- Wyjaśnialność LLM jest trudna ze względu na złożoność modeli (w porównaniu do prostych modeli np. regresji liniowej), dlatego stosuje się cztery elementy oceny jakości odpowiedzi:
- Pełność odpowiedzi (czy pokryto wszystkie podpunkty pytania),
- Pewność odpowiedzi oceniana przez LLM na skalę niska-średnia-wysoka,
- Ryzyko halucynacji (sprzeczności między odpowiedzią a danymi źródłami),
- Pewność źródeł (jak bardzo odpowiedź jest potwierdzona przez źródłowe fragmenty).
- Narzędzie traktowane jest jako wsparcie – “stażysta” – który wykonuje pracę przygotowawczą, ale ostateczna weryfikacja pozostaje w rękach człowieka.
- Omówiono ryzyka prawne wynikające z bezkrytycznego stosowania AI (np. przykłady z legalnymi konsekwencjami błędów AI).
Wyzwania technologiczne i dalsze kierunki rozwoju
- Chunking i embedding dokumentów, szczególnie plików Excel, to trudny problem – istniejące biblioteki (np. unstructured) nie odzwierciedlają dobrze struktury dokumentów.
- Problem skalowalności wyszukiwania i re-rankingu ze względu na ograniczenia techniczne (okna kontekstowe i limity żądań do modeli LLM).
- Zainteresowanie wykorzystaniem baz grafowych do lepszego uchwycenia zależności w dokumentach i ich struktury, szczególnie regulacji prawnych z paragrafami i podpunktami.
- Rozwój automatycznego dzielenia pytań na podpunkty oraz optymalizacja procesów re-rankingu.
- Projekt wdrażany na razie w bankach spółdzielczych, gdzie szybciej decydują o inwestycjach i gdzie duży ciężar raportowania jest szczególnie odczuwalny, np. małe banki z 13 pracownikami.
AI kontra papierologia: Jak zaufaliśmy AI w wypełnianiu sprawozdań do KNFu?
14:40 - 15:10, 28th of May (Wednesday) 2025 / DEV AI & DATA STAGE
1. Jak uwolniliśmy firmy od nadmiernej papierologii?
Zacznę od pokazania skali papierologii, np. raportu BION składanego przez banki do KNF. Następnie przedstawię BION.AI – narzędzie oparte na RAG, które automatycznie wypełnia BION na podstawie dokumentów banku.
2. Kto zapłaci za błędy AI?
Zaadresuję słonia w pokoju, czyli problem odpowiedzialności za odpowiedzi złożone KNF-owi. Wprowadzę analogie z innych sektorów, takich jak medycyna czy prawo, gdzie maszyny (na przykład tomograf) już teraz wspierają decyzje ekspertów, ale ostateczna odpowiedzialność pozostaje po stronie człowieka. Podam też kilka przykładów pociągnięcia do odpowiedzialności ze względu na błędy zrobione przez AI i niesprawdzone przez człowieka.
3. Jak mieć pewność że odpowiedź LLMa jest wiarygodna bez wykonywania jego pracy raz jeszcze?
Porównam problem do problemu nadzorowania stażysty. Pokażę jak ułatwiamy osobom odpowiedzialnym za BION sprawdzenie odpowiedzi (dodajemy oczywiście bardzo dokładne źródła ale też opisujemy na które części wymaganych odpowiedzi nie zostały znalezione źródła oraz oceniamy wiarygodność odpowiedzi).
Przedstawię też alternatywne podejścia do oceny wiarygodności generowanych odpowiedzi. Red teaming, głosowanie ensemble of LLMs, human-in-the-loop i inne.