Ocena:

Książka „Data Engineering With Python” to mieszanka zalet i wad według opinii użytkowników. Choć stanowi ona solidne wprowadzenie do kluczowych pojęć w inżynierii danych i jest uważana za czytelną z praktycznymi przykładami, cierpi z powodu istotnych kwestii związanych z dokładnością techniczną i aktualnością treści. Kilku czytelników stwierdziło, że skupienie się na niektórych narzędziach, w szczególności NiFi, jest mylące, biorąc pod uwagę tytuł książki, a wielu zgłosiło napotkanie mnóstwa błędów i słabej edycji, które utrudniają praktyczne zastosowanie materiału.
Zalety:⬤ Solidne wprowadzenie do koncepcji inżynierii danych i pipeliningu.
⬤ Praktyczne i ilustrujące przykłady, zwłaszcza z narzędziami takimi jak Pandas, Zookeeper, Kafka i Spark.
⬤ Pomocne dla początkujących inżynierów oprogramowania i osób zaznajomionych z analizą danych.
⬤ Pokrycie różnorodnych narzędzi i koncepcji w inżynierii danych.
⬤ Łatwa czytelność.
⬤ Liczne błędy i literówki w całej książce, prowadzące do frustracji.
⬤ Nieaktualna zawartość i instrukcje instalacji mają krytyczny wpływ na użyteczność.
⬤ Duży nacisk na SQL przy minimalnym uwzględnieniu baz danych NoSQL.
⬤ Luki w instrukcjach, szczególnie w przypadku konfigurowania narzędzi takich jak NiFi.
⬤ Wprowadzający w błąd tytuł, który podkreśla NiFi ponad użycie Pythona.
⬤ Brak jasności w przykładach i odniesieniach, co sprawia, że jest to wyzwanie dla początkujących.
(na podstawie 27 opinii czytelników)
Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python
Twórz, monitoruj i zarządzaj potokami danych w czasie rzeczywistym, aby efektywnie tworzyć infrastrukturę inżynierii danych przy użyciu projektów Apache o otwartym kodzie źródłowym.
Kluczowe cechy:
⬤ Zapoznaj się z architekturami danych, przygotowywaniem danych i umiejętnościami optymalizacji danych za pomocą praktycznych przykładów.
⬤ Projektowanie modeli danych i nauka wyodrębniania, przekształcania i ładowania danych (ETL) przy użyciu języka Python.
⬤ Zaplanuj, zautomatyzuj i monitoruj złożone potoki danych w produkcji.
Opis książki
Inżynieria danych stanowi podstawę nauki o danych i analityki oraz stanowi ważną część wszystkich firm. Ta książka pomoże ci poznać różne narzędzia i metody, które są używane do zrozumienia procesu inżynierii danych przy użyciu Pythona.
Książka pokaże ci, jak radzić sobie z wyzwaniami, przed którymi często stają różne aspekty inżynierii danych. Zaczniesz od wprowadzenia do podstaw inżynierii danych, wraz z technologiami i strukturami wymaganymi do tworzenia potoków danych do pracy z dużymi zbiorami danych. Dowiesz się, jak przekształcać i czyścić dane oraz przeprowadzać analizy, aby jak najlepiej wykorzystać dane. W miarę postępów odkryjesz, jak pracować z dużymi zbiorami danych o różnym stopniu złożoności i produkcyjnymi bazami danych oraz budować potoki danych. Korzystając z rzeczywistych przykładów, zbudujesz architektury, na których nauczysz się wdrażać potoki danych.
Pod koniec tej książki w Pythonie zdobędziesz jasne zrozumienie technik modelowania danych i będziesz w stanie pewnie budować potoki inżynierii danych do śledzenia danych, przeprowadzania kontroli jakości i wprowadzania niezbędnych zmian w produkcji.
Czego się nauczysz
⬤ Zrozumieć, w jaki sposób inżynieria danych wspiera przepływy pracy w nauce o danych.
⬤ Dowiesz się, jak wyodrębniać dane z plików i baz danych, a następnie je czyścić, przekształcać i wzbogacać.
⬤ Skonfigurować procesory do obsługi różnych formatów plików, a także relacyjnych i noSQL-owych baz danych.
⬤ Dowiedz się, jak wdrożyć potok danych i pulpit nawigacyjny do wizualizacji wyników.
⬤ Wykorzystanie etapów i walidacji do sprawdzania danych przed ich umieszczeniem w magazynie.
⬤ Tworzenie potoków w czasie rzeczywistym z obszarami przejściowymi, które przeprowadzają walidację i obsługują awarie.
⬤ Zapoznaj się z wdrażaniem potoków w środowisku produkcyjnym.
Dla kogo jest ta książka
Ta książka jest przeznaczona dla analityków danych, programistów ETL i każdego, kto chce rozpocząć lub przejść do dziedziny inżynierii danych lub odświeżyć swoją wiedzę na temat inżynierii danych przy użyciu Pythona. Książka ta będzie również przydatna dla studentów planujących rozpocząć karierę w dziedzinie inżynierii danych lub specjalistów IT przygotowujących się do zmiany. Wcześniejsza znajomość inżynierii danych nie jest wymagana.