Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
W stale rosnącym środowisku bogatym w dane, użyteczne informacje muszą być wydobywane, filtrowane i korelowane z ogromnych ilości różnych, często darmowych źródeł tekstowych. Przydatność pozyskanych informacji zależy od tego, w jaki sposób wykonamy te kroki i przedstawimy analitykowi najbardziej istotne informacje.
Jedną z metod wyodrębniania informacji z wolnego tekstu jest Latent Dirichlet Allocation (LDA), technika kategoryzacji dokumentów w celu sklasyfikowania dokumentów w spójne tematy. Chociaż LDA uwzględnia niektóre ukryte relacje, takie jak synonimia (to samo znaczenie), często ignoruje inne relacje semantyczne, takie jak polisemia (różne znaczenia), hiponimia (podrzędność), meronimia (część) i troponomia (sposób).
Aby zrekompensować tę niedoskonałość, włączamy jawne ontologie słów, takie jak WordNet, do algorytmu LDA, aby uwzględnić różne relacje semantyczne. Eksperymenty nad 20 zbiorami dokumentów Newsgroups, NIPS, OHSUMED i IED pokazują, że włączenie takiej wiedzy poprawia miarę perplexity w porównaniu z samym LDA dla danych parametrów.
© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)