Inżynieria danych z Pythonem - główne potoki i modele danych

Inżynieria danych z Pythonem: Praca z ogromnymi zbiorami danych w celu projektowania modeli danych i automatyzacji potoków danych przy użyciu Pythona (Paul Crickard)

Opinie czytelników

Podsumowanie:

Książka „Data Engineering With Python” to mieszanka zalet i wad według opinii użytkowników. Choć stanowi ona solidne wprowadzenie do kluczowych pojęć w inżynierii danych i jest uważana za czytelną z praktycznymi przykładami, cierpi z powodu istotnych kwestii związanych z dokładnością techniczną i aktualnością treści. Kilku czytelników stwierdziło, że skupienie się na niektórych narzędziach, w szczególności NiFi, jest mylące, biorąc pod uwagę tytuł książki, a wielu zgłosiło napotkanie mnóstwa błędów i słabej edycji, które utrudniają praktyczne zastosowanie materiału.

Zalety:

⬤ Solidne wprowadzenie do koncepcji inżynierii danych i pipeliningu.
⬤ Praktyczne i ilustrujące przykłady, zwłaszcza z narzędziami takimi jak Pandas, Zookeeper, Kafka i Spark.
⬤ Pomocne dla początkujących inżynierów oprogramowania i osób zaznajomionych z analizą danych.
⬤ Pokrycie różnorodnych narzędzi i koncepcji w inżynierii danych.
⬤ Łatwa czytelność.

Wady:

⬤ Liczne błędy i literówki w całej książce, prowadzące do frustracji.
⬤ Nieaktualna zawartość i instrukcje instalacji mają krytyczny wpływ na użyteczność.
⬤ Duży nacisk na SQL przy minimalnym uwzględnieniu baz danych NoSQL.
⬤ Luki w instrukcjach, szczególnie w przypadku konfigurowania narzędzi takich jak NiFi.
⬤ Wprowadzający w błąd tytuł, który podkreśla NiFi ponad użycie Pythona.
⬤ Brak jasności w przykładach i odniesieniach, co sprawia, że jest to wyzwanie dla początkujących.

(na podstawie 27 opinii czytelników)

Oryginalny tytuł:

Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python

Zawartość książki:

Twórz, monitoruj i zarządzaj potokami danych w czasie rzeczywistym, aby efektywnie tworzyć infrastrukturę inżynierii danych przy użyciu projektów Apache o otwartym kodzie źródłowym.

Kluczowe cechy:

⬤ Zapoznaj się z architekturami danych, przygotowywaniem danych i umiejętnościami optymalizacji danych za pomocą praktycznych przykładów.

⬤ Projektowanie modeli danych i nauka wyodrębniania, przekształcania i ładowania danych (ETL) przy użyciu języka Python.

⬤ Zaplanuj, zautomatyzuj i monitoruj złożone potoki danych w produkcji.

Opis książki

Inżynieria danych stanowi podstawę nauki o danych i analityki oraz stanowi ważną część wszystkich firm. Ta książka pomoże ci poznać różne narzędzia i metody, które są używane do zrozumienia procesu inżynierii danych przy użyciu Pythona.

Książka pokaże ci, jak radzić sobie z wyzwaniami, przed którymi często stają różne aspekty inżynierii danych. Zaczniesz od wprowadzenia do podstaw inżynierii danych, wraz z technologiami i strukturami wymaganymi do tworzenia potoków danych do pracy z dużymi zbiorami danych. Dowiesz się, jak przekształcać i czyścić dane oraz przeprowadzać analizy, aby jak najlepiej wykorzystać dane. W miarę postępów odkryjesz, jak pracować z dużymi zbiorami danych o różnym stopniu złożoności i produkcyjnymi bazami danych oraz budować potoki danych. Korzystając z rzeczywistych przykładów, zbudujesz architektury, na których nauczysz się wdrażać potoki danych.

Pod koniec tej książki w Pythonie zdobędziesz jasne zrozumienie technik modelowania danych i będziesz w stanie pewnie budować potoki inżynierii danych do śledzenia danych, przeprowadzania kontroli jakości i wprowadzania niezbędnych zmian w produkcji.

Czego się nauczysz

⬤ Zrozumieć, w jaki sposób inżynieria danych wspiera przepływy pracy w nauce o danych.

⬤ Dowiesz się, jak wyodrębniać dane z plików i baz danych, a następnie je czyścić, przekształcać i wzbogacać.

⬤ Skonfigurować procesory do obsługi różnych formatów plików, a także relacyjnych i noSQL-owych baz danych.

⬤ Dowiedz się, jak wdrożyć potok danych i pulpit nawigacyjny do wizualizacji wyników.

⬤ Wykorzystanie etapów i walidacji do sprawdzania danych przed ich umieszczeniem w magazynie.

⬤ Tworzenie potoków w czasie rzeczywistym z obszarami przejściowymi, które przeprowadzają walidację i obsługują awarie.

⬤ Zapoznaj się z wdrażaniem potoków w środowisku produkcyjnym.

Dla kogo jest ta książka

Ta książka jest przeznaczona dla analityków danych, programistów ETL i każdego, kto chce rozpocząć lub przejść do dziedziny inżynierii danych lub odświeżyć swoją wiedzę na temat inżynierii danych przy użyciu Pythona. Książka ta będzie również przydatna dla studentów planujących rozpocząć karierę w dziedzinie inżynierii danych lub specjalistów IT przygotowujących się do zmiany. Wcześniejsza znajomość inżynierii danych nie jest wymagana.

Dodatkowe informacje o książce:

ISBN:	9781839214189
Autor:	Paul Crickard
Wydawca:	Packt Pub
Oprawa:	Miękka oprawa

Zakup:

Obecnie dostępne, na stanie.

Inżynieria danych z Pythonem: Praca z ogromnymi zbiorami danych w celu projektowania modeli danych i automatyzacji potoków danych przy użyciu Pythona

Opinie czytelników

Oryginalny tytuł:

Zawartość książki:

Dodatkowe informacje o książce:

Zakup:

Inne książki autora:

Prace autora wydały następujące wydawnictwa: