
Gradient Descent, Stochastic Optimization, and Other Tales
Celem tej książki jest obalenie i rozwianie magii stojącej za optymalizatorami czarnej skrzynki i optymalizatorami stochastycznymi. Ma ona na celu zbudowanie solidnych podstaw na temat tego, jak i dlaczego te techniki działają.
Niniejszy manuskrypt krystalizuje tę wiedzę, wyprowadzając z prostych intuicji matematykę stojącą za strategiami. Książka ta nie stroni od poruszania zarówno formalnych, jak i nieformalnych aspektów metod zejścia gradientowego i optymalizacji stochastycznej. W ten sposób ma nadzieję zapewnić czytelnikom głębsze zrozumienie tych technik, a także kiedy, jak i dlaczego stosować te algorytmy.
Gradient zstępujący jest jednym z najpopularniejszych algorytmów optymalizacji i zdecydowanie najczęstszym sposobem optymalizacji zadań uczenia maszynowego. W ostatnich latach coraz więcej uwagi poświęca się jego stochastycznej wersji, szczególnie w przypadku optymalizacji głębokich sieci neuronowych.
W głębokich sieciach neuronowych gradient, po którym następuje pojedyncza próbka lub partia próbek, jest wykorzystywany do oszczędzania zasobów obliczeniowych i ucieczki z punktów siodłowych. W 1951 roku Robbins i Monro opublikowali stochastyczną metodę aproksymacji, jedną z pierwszych nowoczesnych metod optymalizacji stochastycznej, która szacuje lokalne gradienty za pomocą nowej partii próbek.
Obecnie optymalizacja stochastyczna stała się podstawową technologią w uczeniu maszynowym, głównie ze względu na rozwój algorytmu wstecznej propagacji w dopasowywaniu sieci neuronowej. Jedynym celem tego artykułu jest przedstawienie samodzielnego wprowadzenia do pojęć i narzędzi matematycznych z zakresu metody gradientowej i optymalizacji stochastycznej.