VIEW SPEECH SUMMARY
- Q-Travel AI działa od 2010 roku jako wyszukiwarka wycieczek polskich turoperatorów i agent turystyczny.
- W 2020 roku firma rozpoczęła dwa projekty badawcze finansowane przez Narodowe Centrum Badań i Rozwoju, w tym projekt dotyczący predykcji cen wycieczek.
- Celem było stworzenie inteligentnego systemu do prognozowania cen oraz narzędzia do analizy i wizualizacji danych historycznych.
Problemy badawcze i zakres projektu
- Próba zdefiniowania czynników wpływających na ceny różnych typów wycieczek (wypoczynkowe, objazdowe, city break, narty itd.) z uwzględnieniem różnych kategorii transportu.
- Wzięto pod uwagę czynniki stałe (np. atrakcyjność hotelu, regionu) oraz zmienne (np. ceny paliw, kursy walut, wydarzenia kulturalne i kryzysy).
- Zidentyfikowano 91 determinant cenowych na poziomie mikro (hotel), mezo (region) i makro (kraj).
- Trudności z szerokim i niskojakościowym zbiorem danych stanowiły duże wyzwanie.
Problemy z danymi
- Ogromne wolumeny danych cenowych od turoperatorów (miliony do setek milionów cen), co powodowało długie przetwarzanie danych i wydłużenie projektu.
- Dane zewnętrzne były często niekompletne, rozproszone, publikowane w trudnych do wykorzystania formatach (np. PDF), z opóźnieniami oraz drogie w pozyskaniu.
- Przykład: dane o liczbie pasażerów na lotniskach w Polsce dostępne tylko z dużym opóźnieniem i bez API.
- Problemy z niejednolitymi identyfikatorami i metadanymi hoteli, co wymagało ręcznego mapowania do spójnych obiektów.
- Brak dostępnych narzędzi pozwalających na bieżące pozyskanie danych o wydarzeniach przewidywalnych i nieprzewidywalnych (katastrofy, ataki terrorystyczne, wydarzenia sportowe).
- Zakup komercyjnych źródeł danych okazał się zbyt kosztowny na skalę całego projektu.
Problemy i wyniki modelowania predykcyjnego
- Rynek turystyczny w czasie pandemicznym (2020-2021) był anomalią, co utrudniło trenowanie modeli na nienaturalnych danych.
- Brak literatury i wzorców skutecznych modeli dla zorganizowanych wycieczek – odniesienia istniały tylko dla biletów lotniczych na niewielkich zbiorach danych.
- Przetestowano wiele modeli: klasyczne (szeregi czasowe, ARIMA), modele drzew decyzyjnych ze wzmocnionym gradientem (DBRT) oraz modele deep learning (TFT).
- Modele klasyczne przewidywały często ostatnią obserwowaną wartość, co nie było satysfakcjonujące.
- Model hybrydowy opracowany przez zespół nie przewyższył efektywnością modeli klasycznych.
- Trening modeli trwał bardzo długo (kilkanaście dni na serwerze GPU dla danych od jednego turoperatora), co utrudniało iteracyjne dopracowywanie modeli.
Wnioski i rekomendacje
- Definicja problemu badawczego powinna być precyzyjna i dobrze przemyślana – zbyt szerokie podejście utrudnia skuteczne modelowanie.
- W wielu przypadkach prostsze i szybsze modele predykcyjne mogą być równie efektywne i bardziej praktyczne niż skomplikowane, kosztowne rozwiązania.
- Architektura systemu Big Data, oparta na narzędziach open source (Apache, Clickhouse, Elasticsearch) pozwoliła na efektywne gromadzenie i przetwarzanie danych.
- Trzeba zadbać o dostęp do aktualnych i spójnych danych zewnętrznych, zwłaszcza dotyczących wydarzeń mających wpływ na rynek turystyczny.
- Konieczne jest opracowanie lepszych metod automatycznego mapowania i integracji danych hotelowych i cenowych.
Co poszło nie tak? Czy da się prognozować zmiany cen w turystyce?
11:20 - 11:50, 28th of May (Wednesday) 2025 / DEV AI & DATA STAGE
Rosnąca popularność podróży, duża różnorodność produktów i usług turystycznych oraz zmienność cen w czasie powoduje potrzebę przewidywania cen zarówno przez konsumentów (podróżujących), jak i dostawców usług turystycznych. Mimo rozwoju technologii, narzędzia do predykcji cen w turystyce zazwyczaj ograniczają się tylko do cen biletów lotniczych. Pozostałe segmenty rynku, jak na przykład wycieczki zorganizowane, nie dysponują takimi narzędziami.
W ramach wystąpienia opowiem o efektach ponad 2 lat pracy nad modelami predykcyjnymi dla turystyki w segmencie wycieczek zorganizowanych, a także:
1. Dlaczego pandemia Covid "pokrzyżowała nam szyki".
2. Dlaczego źle zdefiniowaliśmy problem badawczy i badaliśmy nie to co trzeba.
3. Dlaczego przewidywanie wpływu czynników zewnętrznych (geopolitycznych, geograficznych czy ekonomicznych) jest niezwykle trudne oraz
4. Dlaczego największym problemem były dane.