Symulowanie zbiorów testowych wyszukiwania informacji

Symulowanie kolekcji testów wyszukiwania informacji (David Hawking)

Oryginalny tytuł:

Simulating Information Retrieval Test Collections

Zawartość książki:

Symulowane zbiory testowe mogą znaleźć zastosowanie w sytuacjach, w których rzeczywiste zbiory danych nie mogą być łatwo dostępne ze względu na obawy o poufność lub praktyczne niedogodności. Mogą one potencjalnie wspierać eksperymentowanie z wyszukiwaniem informacji (IR), dostrajanie, walidację, przewidywanie wydajności i określanie rozmiaru sprzętu. Oczywiście dokładność i użyteczność wyników uzyskanych z symulacji zależy od wierności i ogólności modeli, które stanowią jej podstawę. Wierność emulacji prawdziwego korpusu może być ograniczona przez wymóg, aby poufne informacje w prawdziwym korpusie nie mogły zostać wyodrębnione z emulowanej wersji. Przedstawiamy szereg metod badających kompromisy między wiernością emulacji a stopniem zachowania prywatności.

Przedstawiamy trzy różne proste typy generatorów tekstu, które działają na poziomie mikro: Modele Markowa, modele sieci neuronowych i szyfry podstawieniowe. Opisujemy również metody na poziomie makro, w których możemy zaprojektować właściwości makro korpusu, podając szereg modeli dla każdej z najważniejszych właściwości: rozkład długości dokumentu, rozkład częstotliwości słów (dla przypadków niezależnych i niezależnych), długość słowa i reprezentacja tekstowa oraz wzrost korpusu.

Przedstawiamy wyniki emulacji istniejących zbiorów oraz skalowania zbiorów o dwa rzędy wielkości. Pokazujemy, że symulowane zbiory generowane przy użyciu stosunkowo prostych metod są odpowiednie do niektórych celów i mogą być generowane bardzo szybko. Rzeczywiście, czasami może być wykonalne osadzenie prostego, lekkiego generatora korpusu w indeksatorze w celu przeprowadzenia badań wydajności.

Naturalnie, korpus sztucznego tekstu nie może wspierać eksperymentów IR w przypadku braku zestawu kompatybilnych zapytań. Omawiamy i eksperymentujemy z opublikowanymi metodami generowania zapytań i emulacji dziennika zapytań.

Przedstawiamy badanie proof-of-the-pudding, w którym obserwujemy dokładność predykcyjną wyników wydajności i skuteczności uzyskanych na emulowanych wersjach korpusów TREC. Badanie obejmuje trzy systemy wyszukiwania o otwartym kodzie źródłowym i kilka zbiorów danych TREC. Istnieje kompromis między poufnością a dokładnością przewidywania i istnieją interesujące interakcje między systemami wyszukiwania a zbiorami danych. Nasz wstępny wniosek jest taki, że istnieją metody emulacji, które osiągają użyteczną dokładność przewidywania, zapewniając jednocześnie poziom poufności odpowiedni dla wielu zastosowań.

Wiele z opisanych tutaj metod zostało zaimplementowanych w projekcie open source SynthaCorpus, dostępnym pod adresem: https: //bitbucket.org/davidhawking/synthacorpus/.

Dodatkowe informacje o książce:

ISBN:	9783031011955
Autor:	David Hawking
Wydawca:	Springer International Publishing AG
Język:	angielski
Oprawa:	Miękka oprawa
Rok wydania:	2020
Liczba stron:	162

Zakup:

Obecnie dostępne, na stanie.

Symulowanie kolekcji testów wyszukiwania informacji

Oryginalny tytuł:

Zawartość książki:

Dodatkowe informacje o książce:

Zakup:

Inne książki autora:

Prace autora wydały następujące wydawnictwa: