
Statistical and Semantic Similarity between English Sentences
Ta książka przedstawia różne algorytmy obliczania semantycznego podobieństwa między angielskimi tekstami.
Zbadałem trzy różne algorytmy obliczania podobieństwa zdań w języku angielskim. Pierwszy algorytm, który jest dobrze zbadany w literaturze (Salton i Buckley, 1988, Wu i Salton, 1981), waży słowa w każdym zdaniu zgodnie z częstotliwością terminów i odwrotnością częstotliwości dokumentów (tf-idf ) i nie wykorzystuje informacji semantycznych.
Drugi algorytm wykorzystuje miary odległości semantycznej między słowami należącymi do tej samej części mowy. Trzeci algorytm łączy wyniki tf-idf i wyniki odległości semantycznej między słowami. Oceniłem wydajność drugiego i trzeciego algorytmu na dwóch zestawach danych: O'Shea's set of sentence pairs with human similarity judgements Li et al., Aug, Rubenstein and Goodenough, 1965), oraz Microsoft Research's sentence-level paraphrase dataset Rus et al., 2012).
Na zestawie danych O'Shea trzeci algorytm dokładniej odpowiada ludzkim ocenom niż drugi. Na zbiorze danych Microsoft nie było znaczącej różnicy między dwoma algorytmami.