
A Tutorial on Thompson Sampling
Próbkowanie Thompsona to algorytm dla problemów decyzyjnych online, w których działania są podejmowane sekwencyjnie w sposób, który musi równoważyć wykorzystanie tego, co wiadomo, aby zmaksymalizować natychmiastową wydajność i inwestowanie w gromadzenie nowych informacji, które mogą poprawić przyszłe wyniki.
Algorytm ten odnosi się do szerokiego zakresu problemów w sposób efektywny obliczeniowo i dlatego cieszy się szerokim zastosowaniem. A Tutorial on Thompson Sampling omawia algorytm i jego zastosowanie, ilustrując koncepcje za pomocą szeregu przykładów, w tym problemów bandyty Bernoulliego, problemów najkrótszej ścieżki, rekomendacji produktów, asortymentu, aktywnego uczenia się za pomocą sieci neuronowych i uczenia się ze wzmocnieniem w procesach decyzyjnych Markowa.
Większość z tych problemów wiąże się ze złożonymi strukturami informacyjnymi, w których informacje ujawnione przez podjęcie działania informują o przekonaniach dotyczących innych działań. Omówiono również, kiedy i dlaczego próbkowanie Thompsona jest lub nie jest skuteczne, a także relacje z alternatywnymi algorytmami.