Czyszczenie danych dla skutecznej nauki o danych: Pozostałe 80% pracy z Pythonem, R i narzędziami wiersza poleceń

Ocena:   (4,8 na 5)

Czyszczenie danych dla skutecznej nauki o danych: Pozostałe 80% pracy z Pythonem, R i narzędziami wiersza poleceń (David Mertz)

Opinie czytelników

Podsumowanie:

Książka jest chwalona za kompleksowe omówienie technik czyszczenia danych i znaczenie przygotowania danych do analizy w nauce o danych. Czytelnicy doceniają wciągający styl pisania autora, dr Mertza, oraz nacisk na proces myślowy stojący za manipulacją danymi, a nie na uczenie się na pamięć. Jest to cenne źródło wiedzy zarówno dla nowicjuszy, jak i doświadczonych praktyków w dziedzinie nauki o danych.

Zalety:

Kompleksowe omówienie technik czyszczenia danych i ich przygotowywania.
Wciągający i przejrzysty styl pisania autora.
Podkreśla proces myślowy stojący za manipulacją danymi, a nie tylko kodowanie.
Zawiera liczne przykłady kodu w językach R, Python i narzędziach wiersza poleceń.
Przydatne dla praktyków na wszystkich poziomach, od początkujących do ekspertów.
Wytyczne dotyczące wersjonowania danych i odtwarzalności manipulacji danymi.
Oferuje wgląd w różne formaty danych i sposoby ich obsługi.

Wady:

Niektórzy czytelnicy uznali organizację tematów za mniej prostą, ponieważ techniki są często prezentowane w ramach historii użytkownika, a nie jako samodzielne przepisy.
Książka jest bardziej skoncentrowana na danych tabelarycznych, z niewystarczającą ilością informacji na temat oczyszczania danych tekstowych i graficznych.
Niektórzy czytelnicy życzyli sobie mniej tajemniczych nazw zmiennych w podanych przykładach kodu.
Oczekiwania dotyczące uporządkowanego katalogu receptur czyszczenia danych mogą prowadzić do rozczarowania.

(na podstawie 15 opinii czytelników)

Oryginalny tytuł:

Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools

Zawartość książki:

Kompleksowy przewodnik dla naukowców zajmujących się danymi, aby opanować skuteczne narzędzia i techniki czyszczenia danych

Kluczowe cechy:

⬤ Opanuj techniki czyszczenia danych w sposób niezależny od języka.

⬤ Nauka na intrygujących, praktycznych przykładach z wielu dziedzin, takich jak biologia, dane pogodowe, demografia, fizyka, szeregi czasowe i przetwarzanie obrazów.

⬤ Pracuj ze szczegółowymi, skomentowanymi, dobrze przetestowanymi przykładami kodu w Pythonie i R.

Opis książki:

Jest czymś w rodzaju truizmu w nauce o danych, analizie danych lub uczeniu maszynowym, że większość wysiłku potrzebnego do osiągnięcia rzeczywistego celu polega na czyszczeniu danych. Napisana w charakterystycznym dla Davida przyjaznym i humorystycznym stylu, książka ta szczegółowo omawia podstawowe kroki wykonywane w każdym potoku produkcyjnym nauki o danych lub analizy danych i przygotowuje do wizualizacji danych i wyników modelowania.

Książka zagłębia się w praktyczne zastosowanie narzędzi i technik potrzebnych do pozyskiwania danych, wykrywania anomalii, imputacji wartości i inżynierii cech. Oferuje również długie ćwiczenia na końcu każdego rozdziału, aby przećwiczyć nabyte umiejętności.

Zaczniesz od przyjrzenia się pozyskiwaniu danych w formatach takich jak JSON, CSV, SQL RDBMS, HDF5, baz danych NoSQL, plików w formatach graficznych i binarnych serializowanych struktur danych. Ponadto książka zawiera liczne przykładowe zestawy danych i pliki danych, które są dostępne do pobrania i samodzielnej eksploracji.

Przechodząc od formatów, będziesz imputować brakujące wartości, wykrywać niewiarygodne dane i anomalie statystyczne oraz generować syntetyczne funkcje, które są niezbędne do pomyślnej analizy danych i celów wizualizacji.

Pod koniec tej książki zdobędziesz solidne zrozumienie procesu czyszczenia danych niezbędnego do wykonywania rzeczywistych zadań związanych z nauką o danych i uczeniem maszynowym.

Czego się nauczysz:

⬤ Identyfikować problematyczne dane odnoszące się do poszczególnych punktów danych.

⬤ Wykrywać problematyczne dane w systematycznym "kształcie" danych.

⬤ Reagować na problemy związane z integralnością i higieną danych.

⬤ Przygotowanie danych do zadań analitycznych i uczenia maszynowego.

⬤ Obliczanie wartości dla brakujących lub niewiarygodnych danych.

⬤ Generowanie syntetycznych cech, które są bardziej przydatne w nauce o danych, analizie danych lub celach wizualizacji.

Dla kogo jest ta książka:

Książka ta została zaprojektowana z myślą o programistach, naukowcach zajmujących się danymi, początkujących naukowcach zajmujących się danymi i studentach zainteresowanych analizą danych lub obliczeniami naukowymi.

Podstawowa znajomość statystyki, ogólne koncepcje uczenia maszynowego, znajomość języka programowania (Python lub R) i pewna ekspozycja na naukę o danych są pomocne. Słowniczek, odnośniki i przyjazne komentarze powinny pomóc wszystkim czytelnikom nabrać wprawy.

Tekst będzie również pomocny dla średnio zaawansowanych i zaawansowanych naukowców zajmujących się danymi, którzy chcą poprawić swój rygor w zakresie higieny danych i chcą odświeżyć kwestie związane z przygotowaniem danych.

Dodatkowe informacje o książce:

ISBN:9781801071291
Autor:
Wydawca:
Oprawa:Miękka oprawa

Zakup:

Obecnie dostępne, na stanie.

Inne książki autora:

Czyszczenie danych dla skutecznej nauki o danych: Pozostałe 80% pracy z Pythonem, R i narzędziami...
Kompleksowy przewodnik dla naukowców zajmujących...
Czyszczenie danych dla skutecznej nauki o danych: Pozostałe 80% pracy z Pythonem, R i narzędziami wiersza poleceń - Cleaning Data for Effective Data Science: Doing the other 80% of the work with Python, R, and command-line tools
Zagadkowe dziwactwa wyrażeń regularnych - The Puzzling Quirks of Regular Expressions
Ta zabawna książka z łamigłówkami, przeznaczona dla programistów i hobbystów...
Zagadkowe dziwactwa wyrażeń regularnych - The Puzzling Quirks of Regular Expressions
Lepszy kod Pythona: Przewodnik dla początkujących ekspertów - Better Python Code: A Guide for...
Wyjdź poza kod Pythona, który "przeważnie działa"...
Lepszy kod Pythona: Przewodnik dla początkujących ekspertów - Better Python Code: A Guide for Aspiring Experts

Prace autora wydały następujące wydawnictwa: