Wstępne szkolenie wzrokowo-językowe: Podstawy, postępy i przyszłe trendy

Wstępne szkolenie językowo-wizualne: Podstawy, najnowsze osiągnięcia i przyszłe trendy (Zhe Gan)

Oryginalny tytuł:

Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends

Zawartość książki:

Ludzie postrzegają świat za pośrednictwem wielu kanałów, takich jak obrazy oglądane przez oczy lub głosy słyszane przez uszy. Chociaż każdy pojedynczy kanał może być niekompletny lub zaszumiony, ludzie mogą naturalnie dopasowywać i łączyć informacje zebrane z wielu kanałów w celu uchwycenia kluczowych pojęć potrzebnych do lepszego zrozumienia świata.

Jednym z głównych celów sztucznej inteligencji (AI) jest opracowanie algorytmów, które dadzą komputerom możliwość skutecznego uczenia się z danych multimodalnych (lub wielokanałowych). Dane te są podobne do obrazów i dźwięków uzyskiwanych z wizji i języka, które pomagają ludziom zrozumieć otaczający nas świat. Na przykład komputery mogłyby naśladować tę zdolność, wyszukując najbardziej odpowiednie obrazy do zapytania tekstowego (lub odwrotnie) i opisując zawartość obrazu za pomocą języka naturalnego. Vision-and-Language (VL), popularny obszar badawczy, który znajduje się na styku wizji komputerowej i przetwarzania języka naturalnego (NLP), ma na celu osiągnięcie tego celu.

Niniejsza monografia zawiera przegląd metod wstępnego treningu języka wizji (VLP) dla inteligencji multimodalnej, które zostały opracowane w ciągu ostatnich kilku lat. Podejścia są pogrupowane w trzy kategorie: (i) VLP dla zadań obraz-tekst, takich jak podpisywanie obrazów, wyszukiwanie obrazów-tekstu, odpowiadanie na pytania wizualne i uziemienie wizualne; (ii) VLP dla podstawowych zadań widzenia komputerowego, takich jak (otwarta) klasyfikacja obrazów, wykrywanie obiektów i segmentacja; oraz (iii) VLP dla zadań wideo-tekstu, takich jak podpisywanie wideo, wyszukiwanie wideo-tekstu i odpowiadanie na pytania wideo. Dla każdej kategorii przedstawiono kompleksowy przegląd najnowocześniejszych metod, a także omówiono poczynione postępy i stojące przed nimi wyzwania, wykorzystując konkretne systemy i modele jako studia przypadków. Ponadto dla każdej kategorii przedstawiono zaawansowane tematy, które są aktywnie badane przez społeczność badawczą, takie jak modele big foundation, ujednolicone modelowanie, uczenie się w kontekście kilku ujęć, wiedza, odporność i widzenie komputerowe na wolności, by wymienić tylko kilka.

Dodatkowe informacje o książce:

ISBN:	9781638281320
Autor:	Zhe Gan
Wydawca:	New Publ Inc
Język:	angielski
Oprawa:	Miękka oprawa

Zakup:

Obecnie dostępne, na stanie.

Wstępne szkolenie językowo-wizualne: Podstawy, najnowsze osiągnięcia i przyszłe trendy

Oryginalny tytuł:

Zawartość książki:

Dodatkowe informacje o książce:

Zakup:

Inne książki autora:

Prace autora wydały następujące wydawnictwa: