Simulating Information Retrieval Test Collections
Symulowane zbiory testowe mogą znaleźć zastosowanie w sytuacjach, w których rzeczywiste zbiory danych nie mogą być łatwo dostępne ze względu na obawy o poufność lub praktyczne niedogodności. Mogą one potencjalnie wspierać eksperymentowanie z wyszukiwaniem informacji (IR), dostrajanie, walidację, przewidywanie wydajności i określanie rozmiaru sprzętu. Oczywiście dokładność i użyteczność wyników uzyskanych z symulacji zależy od wierności i ogólności modeli, które stanowią jej podstawę. Wierność emulacji prawdziwego korpusu może być ograniczona przez wymóg, aby poufne informacje w prawdziwym korpusie nie mogły zostać wyodrębnione z emulowanej wersji. Przedstawiamy szereg metod badających kompromisy między wiernością emulacji a stopniem zachowania prywatności.
Przedstawiamy trzy różne proste typy generatorów tekstu, które działają na poziomie mikro: Modele Markowa, modele sieci neuronowych i szyfry podstawieniowe. Opisujemy również metody na poziomie makro, w których możemy zaprojektować właściwości makro korpusu, podając szereg modeli dla każdej z najważniejszych właściwości: rozkład długości dokumentu, rozkład częstotliwości słów (dla przypadków niezależnych i niezależnych), długość słowa i reprezentacja tekstowa oraz wzrost korpusu.
Przedstawiamy wyniki emulacji istniejących zbiorów oraz skalowania zbiorów o dwa rzędy wielkości. Pokazujemy, że symulowane zbiory generowane przy użyciu stosunkowo prostych metod są odpowiednie do niektórych celów i mogą być generowane bardzo szybko. Rzeczywiście, czasami może być wykonalne osadzenie prostego, lekkiego generatora korpusu w indeksatorze w celu przeprowadzenia badań wydajności.
Naturalnie, korpus sztucznego tekstu nie może wspierać eksperymentów IR w przypadku braku zestawu kompatybilnych zapytań. Omawiamy i eksperymentujemy z opublikowanymi metodami generowania zapytań i emulacji dziennika zapytań.
Przedstawiamy badanie proof-of-the-pudding, w którym obserwujemy dokładność predykcyjną wyników wydajności i skuteczności uzyskanych na emulowanych wersjach korpusów TREC. Badanie obejmuje trzy systemy wyszukiwania o otwartym kodzie źródłowym i kilka zbiorów danych TREC. Istnieje kompromis między poufnością a dokładnością przewidywania i istnieją interesujące interakcje między systemami wyszukiwania a zbiorami danych. Nasz wstępny wniosek jest taki, że istnieją metody emulacji, które osiągają użyteczną dokładność przewidywania, zapewniając jednocześnie poziom poufności odpowiedni dla wielu zastosowań.
Wiele z opisanych tutaj metod zostało zaimplementowanych w projekcie open source SynthaCorpus, dostępnym pod adresem: https: //bitbucket.org/davidhawking/synthacorpus/.
© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)