
SHALLOW DISCOURSE PARSING FOR GERMAN
W ciągu ostatnich kilku dekad nastąpił imponujący postęp w kilku obszarach przetwarzania języka naturalnego. Niemniej jednak, uzyskanie przez komputer sensu dyskursu wypowiedzi w tekście pozostaje wyzwaniem.
Istnieje kilka różnych teorii mających na celu opisanie i analizę spójnej struktury dobrze napisanego tekstu, ale o różnym stopniu stosowalności i wykonalności w praktyce. Niniejsza książka dotyczy płytkiego parsowania dyskursu, zgodnie z paradygmatem Penn Discourse TreeBank, korpusu zawierającego ponad 1 milion słów z adnotacjami dotyczącymi relacji dyskursu. Jeśli chodzi o przetwarzanie dyskursu, każdy język inny niż angielski musi być uważany za język o niskich zasobach.
Niniejsza książka dotyczy parsowania dyskursu dla języka niemieckiego. Ograniczona dostępność danych z adnotacjami dla języka niemieckiego oznacza, że potencjał nowoczesnych metod głębokiego uczenia się opartych na takich danych jest również ograniczony.
Niniejsza książka bada, w jakim stopniu uczenie maszynowe i nowsze metody oparte na głębokim uczeniu mogą być łączone z tradycyjną inżynierią cech językowych w celu poprawy wydajności parsowania dyskursu. Opracowany na potrzeby tej książki parser płytkiego dyskursu end\-to\-end dla języka niemieckiego jest open\-source i dostępny online. Przeprowadzono również prace nad kilkoma leksykonami łącznikowymi w różnych językach.
Omówiono strategie tworzenia lub dalszego rozwijania takich leksykonów dla danego języka, a także sugestie dotyczące dalszego zwiększania ich przydatności do płytkiej analizy dyskursu. Książka będzie interesująca dla wszystkich, których praca wiąże się z przetwarzaniem języka naturalnego, szczególnie w językach innych niż angielski.