Vision-Language Pre-Training: Basics, Recent Advances, and Future Trends
Ludzie postrzegają świat za pośrednictwem wielu kanałów, takich jak obrazy oglądane przez oczy lub głosy słyszane przez uszy. Chociaż każdy pojedynczy kanał może być niekompletny lub zaszumiony, ludzie mogą naturalnie dopasowywać i łączyć informacje zebrane z wielu kanałów w celu uchwycenia kluczowych pojęć potrzebnych do lepszego zrozumienia świata.
Jednym z głównych celów sztucznej inteligencji (AI) jest opracowanie algorytmów, które dadzą komputerom możliwość skutecznego uczenia się z danych multimodalnych (lub wielokanałowych). Dane te są podobne do obrazów i dźwięków uzyskiwanych z wizji i języka, które pomagają ludziom zrozumieć otaczający nas świat. Na przykład komputery mogłyby naśladować tę zdolność, wyszukując najbardziej odpowiednie obrazy do zapytania tekstowego (lub odwrotnie) i opisując zawartość obrazu za pomocą języka naturalnego. Vision-and-Language (VL), popularny obszar badawczy, który znajduje się na styku wizji komputerowej i przetwarzania języka naturalnego (NLP), ma na celu osiągnięcie tego celu.
Niniejsza monografia zawiera przegląd metod wstępnego treningu języka wizji (VLP) dla inteligencji multimodalnej, które zostały opracowane w ciągu ostatnich kilku lat. Podejścia są pogrupowane w trzy kategorie: (i) VLP dla zadań obraz-tekst, takich jak podpisywanie obrazów, wyszukiwanie obrazów-tekstu, odpowiadanie na pytania wizualne i uziemienie wizualne; (ii) VLP dla podstawowych zadań widzenia komputerowego, takich jak (otwarta) klasyfikacja obrazów, wykrywanie obiektów i segmentacja; oraz (iii) VLP dla zadań wideo-tekstu, takich jak podpisywanie wideo, wyszukiwanie wideo-tekstu i odpowiadanie na pytania wideo. Dla każdej kategorii przedstawiono kompleksowy przegląd najnowocześniejszych metod, a także omówiono poczynione postępy i stojące przed nimi wyzwania, wykorzystując konkretne systemy i modele jako studia przypadków. Ponadto dla każdej kategorii przedstawiono zaawansowane tematy, które są aktywnie badane przez społeczność badawczą, takie jak modele big foundation, ujednolicone modelowanie, uczenie się w kontekście kilku ujęć, wiedza, odporność i widzenie komputerowe na wolności, by wymienić tylko kilka.
© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)