Opanowanie dużych zbiorów danych w Pythonie: Zrównoleglanie i dystrybucja kodu Python

Ocena:   (3,9 na 5)

Opanowanie dużych zbiorów danych w Pythonie: Zrównoleglanie i dystrybucja kodu Python (T. Wolohan John)

Opinie czytelników

Podsumowanie:

Książka jest chwalona za umiejętność łączenia złożonych tematów w Pythonie z rzeczywistymi aplikacjami, dzięki czemu jest korzystna dla osób chcących poprawić swoje umiejętności. Jest jednak również krytykowana za brak dogłębności, redundancję i brak omówienia podstawowych narzędzi, takich jak Hadoop i Spark.

Zalety:

Pomocny w łączeniu złożonych tematów, dostarcza rzeczywistych problemów, korzystny dla umiejętności na rynku pracy, dobry do poszerzania podstawowej wiedzy.

Wady:

Powtarzające się i skąpe informacje, brak głębi w niektórych obszarach, pominięcie istotnych narzędzi, niektóre przykłady kodowania są słabe lub bezsensowne.

(na podstawie 3 opinii czytelników)

Oryginalny tytuł:

Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Zawartość książki:

Streszczenie.

Nowoczesne rozwiązania data science muszą być czyste, czytelne i skalowalne. W Mastering Large Datasets with Python autor J. T. Wolohan uczy, jak wziąć mały projekt i skalować go przy użyciu funkcjonalnego podejścia do kodowania w Pythonie. Poznasz metody i wbudowane narzędzia Pythona, które nadają się do przejrzystości i skalowalności, takie jak wysokowydajna metoda równoległości, a także technologie rozproszone, które pozwalają na wysoką przepustowość danych. Obfite ćwiczenia praktyczne zawarte w tym praktycznym samouczku pozwolą utrwalić te niezbędne umiejętności w każdym projekcie nauki o danych na dużą skalę.

Zakup książki drukowanej obejmuje bezpłatny eBook w formatach PDF, Kindle i ePub od Manning Publications.

O technologii.

Techniki programowania, które dobrze sprawdzają się w przypadku danych o rozmiarze laptopa, mogą spowolnić lub całkowicie zawieść, gdy zostaną zastosowane do ogromnych plików lub rozproszonych zbiorów danych. Opanowując potężny paradygmat mapowania i redukcji, wraz z narzędziami opartymi na Pythonie, które go obsługują, możesz pisać aplikacje skoncentrowane na danych, które skalują się wydajnie bez konieczności przepisywania bazy kodu wraz ze zmianą wymagań.

O książce.

Mastering Large Datasets with Python uczy pisania kodu, który może obsługiwać zbiory danych o dowolnym rozmiarze. Zaczniesz od zestawów danych wielkości laptopa, które nauczą Cię zrównoleglać analizę danych poprzez dzielenie dużych zadań na mniejsze, które mogą działać jednocześnie. Następnie będziesz skalować te same programy do zbiorów danych o rozmiarach przemysłowych na klastrze serwerów w chmurze. Po wprowadzeniu paradygmatu mapowania i redukcji, poznasz narzędzia takie jak Hadoop i PySpark, aby efektywnie przetwarzać ogromne rozproszone zbiory danych, przyspieszyć podejmowanie decyzji dzięki uczeniu maszynowemu i uprościć przechowywanie danych za pomocą AWS S3.

Co w środku.

⬤ Wprowadzenie do paradygmatu map and reduce.

⬤ Równoległość z modułem wieloprzetwarzania i frameworkiem pathos.

⬤ Hadoop i Spark do obliczeń rozproszonych.

⬤ Uruchamianie zadań AWS w celu przetwarzania dużych zbiorów danych.

O czytelniku.

Dla programistów Pythona, którzy muszą pracować szybciej z większą ilością danych.

O autorze.

J. T. Wolohan jest głównym analitykiem danych w Booz Allen Hamilton i doktorem na Indiana University w Bloomington.

Spis treści:

CZĘŚĆ 1.

1) Wprowadzenie.

2) Przyspieszenie pracy z dużymi zbiorami danych: Mapowanie i obliczenia równoległe.

3 ) Potoki funkcji do mapowania złożonych transformacji.

4 ) Przetwarzanie dużych zbiorów danych za pomocą leniwych przepływów pracy.

5 ) Operacje akumulacji z redukcją.

6 ) Przyspieszenie mapowania i redukcji dzięki zaawansowanej równoległości.

CZĘŚĆ 2.

7 ) Przetwarzanie naprawdę dużych zbiorów danych za pomocą Hadoop i Spark.

8 ) Najlepsze praktyki dla dużych zbiorów danych z wykorzystaniem Apache Streaming i mrjob.

9 ) PageRank z mapą i redukcją w PySpark.

10 ) Szybsze podejmowanie decyzji dzięki uczeniu maszynowemu i PySpark.

CZĘŚĆ 3.

11 ) Duże zbiory danych w chmurze z Amazon Web Services i S3.

12 ) Mapowanie w chmurze z wykorzystaniem Elastic MapReduce firmy Amazon.

Dodatkowe informacje o książce:

ISBN:9781617296239
Autor:
Wydawca:
Oprawa:Miękka oprawa
Rok wydania:2020
Liczba stron:312

Zakup:

Obecnie dostępne, na stanie.

Inne książki autora:

Opanowanie dużych zbiorów danych w Pythonie: Zrównoleglanie i dystrybucja kodu Python - Mastering...
Streszczenie.Nowoczesne rozwiązania data science...
Opanowanie dużych zbiorów danych w Pythonie: Zrównoleglanie i dystrybucja kodu Python - Mastering Large Datasets with Python: Parallelize and Distribute Your Python Code

Prace autora wydały następujące wydawnictwa: