Statistical Methods for Annotation Analysis
Etykietowanie danych jest jednym z najbardziej fundamentalnych działań w nauce i od dziesięcioleci stanowi podstawę praktyki, zwłaszcza w medycynie, a także badań w językoznawstwie korpusowym, przynajmniej od czasu opracowania korpusu Browna. Wraz z przejściem w kierunku uczenia maszynowego w sztucznej inteligencji (AI), tworzenie zbiorów danych, które mają być wykorzystywane do szkolenia i oceny systemów AI, znanych również w AI jako korpusy, stało się również centralnym działaniem w tej dziedzinie.
Wczesne zbiory danych AI były tworzone ad hoc w celu rozwiązania konkretnych problemów. W miarę jak tworzono większe zbiory danych wielokrotnego użytku, wymagające większych inwestycji, pojawiła się potrzeba bardziej systematycznego podejścia do tworzenia zbiorów danych w celu zapewnienia wyższej jakości. Przyjęto szereg metod statystycznych, często, ale nie wyłącznie, z nauk medycznych, aby zapewnić, że stosowane etykiety nie były subiektywne lub aby wybrać spośród różnych etykiet dostarczonych przez osoby kodujące.
Szeroka gama takich metod jest obecnie w regularnym użyciu. Niniejsza książka ma na celu przedstawienie przeglądu najczęściej stosowanych spośród tych metod statystycznych wspierających praktykę adnotacji.
O ile wiadomo autorom, jest to pierwsza książka próbująca objąć dwie rodziny metod w szerszym zastosowaniu. Pierwsza rodzina metod dotyczy rozwoju schematów etykietowania, a w szczególności zapewnienia, że takie schematy są takie, że można zaobserwować wystarczającą zgodność między koderami.
Druga rodzina obejmuje metody opracowane w celu analizy wyników koderów po uzgodnieniu schematu, w szczególności, choć nie wyłącznie, w celu zidentyfikowania najbardziej prawdopodobnej etykiety dla elementu spośród tych dostarczonych przez koderów. Niniejsza książka koncentruje się przede wszystkim na przetwarzaniu języka naturalnego, obszarze sztucznej inteligencji poświęconym rozwojowi modeli interpretacji i produkcji języka, ale wiele, jeśli nie większość omawianych tutaj metod, ma również zastosowanie w innych obszarach sztucznej inteligencji, a nawet w innych obszarach nauki o danych.
© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)