Ocena:

Książka jest chwalona za umiejętność łączenia złożonych tematów w Pythonie z rzeczywistymi aplikacjami, dzięki czemu jest korzystna dla osób chcących poprawić swoje umiejętności. Jest jednak również krytykowana za brak dogłębności, redundancję i brak omówienia podstawowych narzędzi, takich jak Hadoop i Spark.
Zalety:Pomocny w łączeniu złożonych tematów, dostarcza rzeczywistych problemów, korzystny dla umiejętności na rynku pracy, dobry do poszerzania podstawowej wiedzy.
Wady:Powtarzające się i skąpe informacje, brak głębi w niektórych obszarach, pominięcie istotnych narzędzi, niektóre przykłady kodowania są słabe lub bezsensowne.
(na podstawie 3 opinii czytelników)
Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code
Streszczenie.
Nowoczesne rozwiązania data science muszą być czyste, czytelne i skalowalne. W Mastering Large Datasets with Python autor J. T. Wolohan uczy, jak wziąć mały projekt i skalować go przy użyciu funkcjonalnego podejścia do kodowania w Pythonie. Poznasz metody i wbudowane narzędzia Pythona, które nadają się do przejrzystości i skalowalności, takie jak wysokowydajna metoda równoległości, a także technologie rozproszone, które pozwalają na wysoką przepustowość danych. Obfite ćwiczenia praktyczne zawarte w tym praktycznym samouczku pozwolą utrwalić te niezbędne umiejętności w każdym projekcie nauki o danych na dużą skalę.
Zakup książki drukowanej obejmuje bezpłatny eBook w formatach PDF, Kindle i ePub od Manning Publications.
O technologii.
Techniki programowania, które dobrze sprawdzają się w przypadku danych o rozmiarze laptopa, mogą spowolnić lub całkowicie zawieść, gdy zostaną zastosowane do ogromnych plików lub rozproszonych zbiorów danych. Opanowując potężny paradygmat mapowania i redukcji, wraz z narzędziami opartymi na Pythonie, które go obsługują, możesz pisać aplikacje skoncentrowane na danych, które skalują się wydajnie bez konieczności przepisywania bazy kodu wraz ze zmianą wymagań.
O książce.
Mastering Large Datasets with Python uczy pisania kodu, który może obsługiwać zbiory danych o dowolnym rozmiarze. Zaczniesz od zestawów danych wielkości laptopa, które nauczą Cię zrównoleglać analizę danych poprzez dzielenie dużych zadań na mniejsze, które mogą działać jednocześnie. Następnie będziesz skalować te same programy do zbiorów danych o rozmiarach przemysłowych na klastrze serwerów w chmurze. Po wprowadzeniu paradygmatu mapowania i redukcji, poznasz narzędzia takie jak Hadoop i PySpark, aby efektywnie przetwarzać ogromne rozproszone zbiory danych, przyspieszyć podejmowanie decyzji dzięki uczeniu maszynowemu i uprościć przechowywanie danych za pomocą AWS S3.
Co w środku.
⬤ Wprowadzenie do paradygmatu map and reduce.
⬤ Równoległość z modułem wieloprzetwarzania i frameworkiem pathos.
⬤ Hadoop i Spark do obliczeń rozproszonych.
⬤ Uruchamianie zadań AWS w celu przetwarzania dużych zbiorów danych.
O czytelniku.
Dla programistów Pythona, którzy muszą pracować szybciej z większą ilością danych.
O autorze.
J. T. Wolohan jest głównym analitykiem danych w Booz Allen Hamilton i doktorem na Indiana University w Bloomington.
Spis treści:
CZĘŚĆ 1.
1) Wprowadzenie.
2) Przyspieszenie pracy z dużymi zbiorami danych: Mapowanie i obliczenia równoległe.
3 ) Potoki funkcji do mapowania złożonych transformacji.
4 ) Przetwarzanie dużych zbiorów danych za pomocą leniwych przepływów pracy.
5 ) Operacje akumulacji z redukcją.
6 ) Przyspieszenie mapowania i redukcji dzięki zaawansowanej równoległości.
CZĘŚĆ 2.
7 ) Przetwarzanie naprawdę dużych zbiorów danych za pomocą Hadoop i Spark.
8 ) Najlepsze praktyki dla dużych zbiorów danych z wykorzystaniem Apache Streaming i mrjob.
9 ) PageRank z mapą i redukcją w PySpark.
10 ) Szybsze podejmowanie decyzji dzięki uczeniu maszynowemu i PySpark.
CZĘŚĆ 3.
11 ) Duże zbiory danych w chmurze z Amazon Web Services i S3.
12 ) Mapowanie w chmurze z wykorzystaniem Elastic MapReduce firmy Amazon.