Ocena:

Obecnie brak opinii czytelników. Ocena opiera się na 8 głosach.
Learning Apache Drill: Query and Analyze Distributed Data Sources with SQL
Apache Drill to rozszerzalny, rozproszony silnik zapytań SQL, który odczytuje ogromne zbiory danych w wielu popularnych formatach plików, takich jak Parquet, JSON i CSV. Drill odczytuje dane w HDFS lub w natywnej pamięci masowej w chmurze, takiej jak S3, i współpracuje z metastorami Hive wraz z rozproszonymi bazami danych, takimi jak HBase, MongoDB i relacyjnymi bazami danych. Drill działa wszędzie: na laptopie lub w największym klastrze.
W tej praktycznej książce Charles Givre i Paul Rogers, twórcy Drill, pokazują analitykom i badaczom danych, jak wyszukiwać i analizować surowe dane za pomocą tego potężnego narzędzia. Naukowcy zajmujący się danymi spędzają dziś około 80% czasu na gromadzeniu i czyszczeniu danych. Dzięki tej książce dowiesz się, w jaki sposób Drill pomaga skuteczniej analizować dane, aby skrócić czas uzyskiwania wglądu.
⬤ Używać Drill do czyszczenia, przygotowywania i podsumowywania rozdzielonych danych do dalszej analizy.
⬤ zapytań o typy plików, w tym pliki dziennika, Parquet, JSON i inne złożone formaty.
⬤ Zapytania do Hadoop, relacyjnych baz danych, MongoDB i Kafka za pomocą standardowego SQL.
⬤ Łączenie się z Drill programowo przy użyciu różnych języków.
⬤ Korzystanie z Drill nawet w przypadku trudnych lub niejednoznacznych formatów plików.
⬤ Przeprowadzanie zaawansowanych analiz poprzez rozszerzenie funkcjonalności Drill o funkcje zdefiniowane przez użytkownika.
⬤ Ułatwienie analizy danych pod kątem bezpieczeństwa sieci, metadanych obrazu i uczenia maszynowego.