Ocena:

Książka jest chwalona za kompleksowe omówienie technik czyszczenia danych i znaczenie przygotowania danych do analizy w nauce o danych. Czytelnicy doceniają wciągający styl pisania autora, dr Mertza, oraz nacisk na proces myślowy stojący za manipulacją danymi, a nie na uczenie się na pamięć. Jest to cenne źródło wiedzy zarówno dla nowicjuszy, jak i doświadczonych praktyków w dziedzinie nauki o danych.
Zalety:⬤ Kompleksowe omówienie technik czyszczenia danych i ich przygotowywania.
⬤ Wciągający i przejrzysty styl pisania autora.
⬤ Podkreśla proces myślowy stojący za manipulacją danymi, a nie tylko kodowanie.
⬤ Zawiera liczne przykłady kodu w językach R, Python i narzędziach wiersza poleceń.
⬤ Przydatne dla praktyków na wszystkich poziomach, od początkujących do ekspertów.
⬤ Wytyczne dotyczące wersjonowania danych i odtwarzalności manipulacji danymi.
⬤ Oferuje wgląd w różne formaty danych i sposoby ich obsługi.
⬤ Niektórzy czytelnicy uznali organizację tematów za mniej prostą, ponieważ techniki są często prezentowane w ramach historii użytkownika, a nie jako samodzielne przepisy.
⬤ Książka jest bardziej skoncentrowana na danych tabelarycznych, z niewystarczającą ilością informacji na temat oczyszczania danych tekstowych i graficznych.
⬤ Niektórzy czytelnicy życzyli sobie mniej tajemniczych nazw zmiennych w podanych przykładach kodu.
⬤ Oczekiwania dotyczące uporządkowanego katalogu receptur czyszczenia danych mogą prowadzić do rozczarowania.
(na podstawie 15 opinii czytelników)
Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Kompleksowy przewodnik dla naukowców zajmujących się danymi, aby opanować skuteczne narzędzia i techniki czyszczenia danych
Kluczowe cechy:
⬤ Opanuj techniki czyszczenia danych w sposób niezależny od języka.
⬤ Nauka na intrygujących, praktycznych przykładach z wielu dziedzin, takich jak biologia, dane pogodowe, demografia, fizyka, szeregi czasowe i przetwarzanie obrazów.
⬤ Pracuj ze szczegółowymi, skomentowanymi, dobrze przetestowanymi przykładami kodu w Pythonie i R.
Opis książki:
Jest czymś w rodzaju truizmu w nauce o danych, analizie danych lub uczeniu maszynowym, że większość wysiłku potrzebnego do osiągnięcia rzeczywistego celu polega na czyszczeniu danych. Napisana w charakterystycznym dla Davida przyjaznym i humorystycznym stylu, książka ta szczegółowo omawia podstawowe kroki wykonywane w każdym potoku produkcyjnym nauki o danych lub analizy danych i przygotowuje do wizualizacji danych i wyników modelowania.
Książka zagłębia się w praktyczne zastosowanie narzędzi i technik potrzebnych do pozyskiwania danych, wykrywania anomalii, imputacji wartości i inżynierii cech. Oferuje również długie ćwiczenia na końcu każdego rozdziału, aby przećwiczyć nabyte umiejętności.
Zaczniesz od przyjrzenia się pozyskiwaniu danych w formatach takich jak JSON, CSV, SQL RDBMS, HDF5, baz danych NoSQL, plików w formatach graficznych i binarnych serializowanych struktur danych. Ponadto książka zawiera liczne przykładowe zestawy danych i pliki danych, które są dostępne do pobrania i samodzielnej eksploracji.
Przechodząc od formatów, będziesz imputować brakujące wartości, wykrywać niewiarygodne dane i anomalie statystyczne oraz generować syntetyczne funkcje, które są niezbędne do pomyślnej analizy danych i celów wizualizacji.
Pod koniec tej książki zdobędziesz solidne zrozumienie procesu czyszczenia danych niezbędnego do wykonywania rzeczywistych zadań związanych z nauką o danych i uczeniem maszynowym.
Czego się nauczysz:
⬤ Identyfikować problematyczne dane odnoszące się do poszczególnych punktów danych.
⬤ Wykrywać problematyczne dane w systematycznym "kształcie" danych.
⬤ Reagować na problemy związane z integralnością i higieną danych.
⬤ Przygotowanie danych do zadań analitycznych i uczenia maszynowego.
⬤ Obliczanie wartości dla brakujących lub niewiarygodnych danych.
⬤ Generowanie syntetycznych cech, które są bardziej przydatne w nauce o danych, analizie danych lub celach wizualizacji.
Dla kogo jest ta książka:
Książka ta została zaprojektowana z myślą o programistach, naukowcach zajmujących się danymi, początkujących naukowcach zajmujących się danymi i studentach zainteresowanych analizą danych lub obliczeniami naukowymi.
Podstawowa znajomość statystyki, ogólne koncepcje uczenia maszynowego, znajomość języka programowania (Python lub R) i pewna ekspozycja na naukę o danych są pomocne. Słowniczek, odnośniki i przyjazne komentarze powinny pomóc wszystkim czytelnikom nabrać wprawy.
Tekst będzie również pomocny dla średnio zaawansowanych i zaawansowanych naukowców zajmujących się danymi, którzy chcą poprawić swój rygor w zakresie higieny danych i chcą odświeżyć kwestie związane z przygotowaniem danych.