Przetwarzanie danych z Optimus: Zadania przygotowywania dużych zbiorów danych do analizy i uczenia maszynowego z Optimusem przy użyciu Dask i PySpark

Ocena:   (4,7 na 5)

Przetwarzanie danych z Optimus: Zadania przygotowywania dużych zbiorów danych do analizy i uczenia maszynowego z Optimusem przy użyciu Dask i PySpark (Argenis Leon)

Opinie czytelników

Podsumowanie:

Książka jest chwalona za kompleksowe omówienie przetwarzania danych przy użyciu Pandas i Optimus, co czyni ją cennym źródłem informacji zarówno dla nowicjuszy, jak i doświadczonych specjalistów od danych. Upraszcza złożone zadania związane z danymi i zwiększa wydajność przepływu pracy.

Zalety:

Zawiera szczegółowe wskazówki dotyczące wstępnego przetwarzania danych za pomocą Pandas i Optimus.

Wady:

Doskonale nadaje się do nauki i przyspieszenia obsługi i transformacji danych.

(na podstawie 4 opinii czytelników)

Oryginalny tytuł:

Data Processing with Optimus: Supercharge big data preparation tasks for analytics and machine learning with Optimus using Dask and PySpark

Zawartość książki:

Napisany przez główny zespół Optimus, ten kompleksowy przewodnik pomoże ci zrozumieć, w jaki sposób Optimus poprawia cały krajobraz przetwarzania danych.

Kluczowe cechy:

⬤ Ładuj, scalaj i zapisuj małe i duże dane wydajnie dzięki Optimusowi.

⬤ Poznanie funkcji Optimus do analizy danych, inżynierii cech, uczenia maszynowego, walidacji krzyżowej i NLP.

⬤ Odkryj, w jaki sposób Optimus ulepsza inne technologie ramek danych i pomaga przyspieszyć zadania przetwarzania danych.

Opis książki:

Optimus to biblioteka Pythona, która działa jako ujednolicony interfejs API do czyszczenia, przetwarzania i łączenia danych. Może być używana do obsługi małych i dużych danych na lokalnym laptopie lub w zdalnych klastrach wykorzystujących procesory CPU lub GPU.

Książka rozpoczyna się od omówienia wewnętrznych elementów Optimusa i tego, jak działa on w połączeniu z istniejącymi technologiami, aby zaspokoić potrzeby związane z przetwarzaniem danych. Następnie dowiesz się, jak używać Optimusa do ładowania i zapisywania danych z formatów danych tekstowych, takich jak pliki CSV i JSON, eksploracji plików binarnych, takich jak Excel, oraz do przetwarzania danych kolumnowych za pomocą Parquet, Avro i OCR. Następnie zapoznasz się z profilerem i jego typami danych - unikalną funkcją Optimus Dataframe, która pomaga w jakości danych. Zobaczysz, jak korzystać z wykresów dostępnych w Optimus, takich jak histogram, wykresy częstotliwości oraz wykresy punktowe i pudełkowe, a także zrozumiesz, w jaki sposób Optimus pozwala łączyć się z bibliotekami takimi jak Plotly i Altair. Zagłębisz się również w zaawansowane aplikacje, takie jak inżynieria cech, uczenie maszynowe, walidacja krzyżowa i funkcje przetwarzania języka naturalnego oraz poznasz postępy w Optimus. Wreszcie, dowiesz się, jak tworzyć funkcje czyszczenia i transformacji danych oraz dodawać hipotetyczny nowy silnik przetwarzania danych za pomocą Optimus.

Pod koniec tej książki będziesz w stanie łatwo ulepszyć swój przepływ pracy w nauce o danych za pomocą Optimusa.

Czego się nauczysz:

⬤ Używać ponad 100 funkcji przetwarzania danych na kolumnach i innych wartościach łańcuchowych.

⬤ Przekształcanie i przestawianie danych w celu uzyskania danych wyjściowych w wymaganym formacie.

⬤ Dowiedz się, jak tworzyć histogramy, wykresy częstotliwości, wykresy punktowe, wykresy pudełkowe i inne.

⬤ Połącz Optimus z popularnymi bibliotekami wizualizacji Pythona, takimi jak Plotly i Altair.

⬤ Zastosowanie technik grupowania ciągów znaków do normalizacji ciągów znaków.

⬤ Odkryj funkcje do eksploracji, poprawiania i usuwania danych niskiej jakości.

⬤ Wykorzystanie zaawansowanych technik do usuwania wartości odstających z danych.

⬤ Dodawać silniki i niestandardowe funkcje do czyszczenia, przetwarzania i łączenia danych.

Dla kogo jest ta książka:

Ta książka jest przeznaczona dla programistów Pythona, którzy chcą eksplorować, przekształcać i przygotowywać duże zbiory danych do uczenia maszynowego, analiz i raportowania przy użyciu Optimus, ujednoliconego interfejsu API do pracy z Pandas, Dask, cuDF, Dask-cuDF, Vaex i Spark. Chociaż nie jest to konieczne, znajomość języka Python na poziomie początkującym będzie pomocna. Podstawowa znajomość CLI jest wymagana do zainstalowania Optimusa i jego wymagań. Do korzystania z technologii GPU potrzebna będzie karta graficzna NVIDIA zgodna z biblioteką NVIDIA RAPIDS, która jest kompatybilna z systemami Windows 10 i Linux.

Dodatkowe informacje o książce:

ISBN:9781801079563
Autor:
Wydawca:
Język:angielski
Oprawa:Miękka oprawa

Zakup:

Obecnie dostępne, na stanie.

Inne książki autora:

Przetwarzanie danych z Optimus: Zadania przygotowywania dużych zbiorów danych do analizy i uczenia...
Napisany przez główny zespół Optimus, ten...
Przetwarzanie danych z Optimus: Zadania przygotowywania dużych zbiorów danych do analizy i uczenia maszynowego z Optimusem przy użyciu Dask i PySpark - Data Processing with Optimus: Supercharge big data preparation tasks for analytics and machine learning with Optimus using Dask and PySpark

Prace autora wydały następujące wydawnictwa:

© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)