Pozyskiwanie danych strukturalnych z Internetu: Uruchamianie Web Crawlerów/Scraperów na dużą skalę produkcji danych

Ocena:   (3,8 na 5)

Pozyskiwanie danych strukturalnych z Internetu: Uruchamianie Web Crawlerów/Scraperów na dużą skalę produkcji danych (M. Patel Jay)

Opinie czytelników

Podsumowanie:

Książka ta została ogólnie dobrze przyjęta jako źródło wiedzy na temat crawlingu i scrapingu stron internetowych, szczególnie dla początkujących. Niektórzy użytkownicy uważają jednak, że jej praktyczne zastosowanie jest ograniczone ze względu na skupienie się na przykładowych witrynach bez dokładnych wskazówek dotyczących debugowania lub rozwiązywania rzeczywistych problemów.

Zalety:

Stanowi świetne źródło wiedzy na temat crawlowania stron internetowych na dużą skalę, zwłaszcza przy użyciu AWS i typowych danych crawl. Autor zawarł w nim szczegółowe wskazówki z przykładami odpowiednimi dla początkujących. Wielu użytkowników uważa, że jest to doskonałe źródło informacji na temat web scrapingu.

Wady:

Przydatność informacji jest nieco ograniczona, ponieważ kod działa głównie na przykładowych witrynach podanych w książce. Niewiele jest dyskusji na temat debugowania lub stosowania koncepcji w rzeczywistych scenariuszach, co niektórzy użytkownicy uznali za rozczarowujące.

(na podstawie 4 opinii czytelników)

Oryginalny tytuł:

Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Zawartość książki:

Skorzystaj ze skrobania stron internetowych na dużą skalę, aby szybko uzyskać nieograniczone ilości bezpłatnych danych dostępnych w Internecie w ustrukturyzowanym formacie. Ta książka uczy korzystania ze skryptów Pythona do indeksowania stron internetowych na dużą skalę i skrobania danych ze stron HTML i JavaScript oraz konwertowania ich do ustrukturyzowanych formatów danych, takich jak CSV, Excel, JSON lub ładowania ich do wybranej bazy danych SQL.

Ta książka wykracza poza podstawy skrobania stron internetowych i obejmuje zaawansowane tematy, takie jak przetwarzanie języka naturalnego (NLP) i analiza tekstu w celu wyodrębnienia nazwisk osób, miejsc, adresów e-mail, danych kontaktowych itp. ze strony na skalę produkcyjną przy użyciu rozproszonych technik Big Data w infrastrukturze chmurowej opartej na Amazon Web Services (AWS). Książka obejmuje opracowanie solidnego potoku przetwarzania i pozyskiwania danych w korpusie Common Crawl, zawierającym publicznie dostępne petabajty danych oraz zestaw danych indeksowania stron internetowych dostępny w rejestrze otwartych danych AWS.

Getting Structured Data from the Internet zawiera również samouczek krok po kroku dotyczący wdrażania własnych crawlerów przy użyciu produkcyjnego frameworka do skrobania stron internetowych (takiego jak Scrapy) i radzenia sobie z rzeczywistymi problemami (takimi jak łamanie Captcha, rotacja adresów IP proxy i inne). Kod użyty w książce jest dostarczany, aby pomóc ci zrozumieć koncepcje w praktyce i napisać własny crawler internetowy, aby zasilić swoje pomysły biznesowe.

Czego się nauczysz

⬤ Zrozumieć skrobanie stron internetowych, jego zastosowania i sposoby unikania skrobania stron internetowych poprzez uderzanie w publicznie dostępne punkty końcowe rest API w celu bezpośredniego uzyskania danych.

⬤ Opracować web scrapera i crawlera od podstaw przy użyciu lxml i biblioteki BeautifulSoup oraz dowiedzieć się o skrobaniu ze stron obsługujących JavaScript przy użyciu Selenium.

⬤ Korzystanie z chmury obliczeniowej opartej na AWS z EC2, S3, Athena, SQS i SNS do analizowania, wyodrębniania i przechowywania przydatnych informacji z przeszukiwanych stron.

⬤ Używanie języka SQL w PostgreSQL działającym w Amazon Relational Database Service (RDS) i SQLite przy użyciu SQLalchemy.

⬤ Przegląd sci-kit learn, Gensim i spaCy w celu wykonywania zadań NLP na zeskrobanych stronach internetowych, takich jak rozpoznawanie nazw podmiotów, grupowanie tematów (Kmeans, grupowanie aglomeracyjne), modelowanie tematów (LDA, NMF, LSI), klasyfikacja tematów (naiwny Bayes, klasyfikator Gradient Boosting) i podobieństwo tekstu (najbliżsi sąsiedzi na podstawie odległości kosinusowej).

⬤ Obsługa formatów archiwalnych plików internetowych i eksploracja otwartych danych Common Crawl na AWS.

⬤ Zilustrowanie praktycznych zastosowań danych web crawl poprzez zbudowanie podobnego narzędzia internetowego i profilera technologicznego podobnego do builtwith.com.

⬤ Pisanie skryptów do tworzenia bazy danych backlinków w skali sieciowej podobnej do Ahrefs.com, Moz.com, Majestic.com itp. w celu optymalizacji pod kątem wyszukiwarek (SEO), badania konkurencji oraz określania autorytetu i rankingu domeny internetowej.

⬤ Wykorzystanie danych z indeksowania stron internetowych do stworzenia systemu analizy nastrojów w wiadomościach lub alternatywnej analizy finansowej obejmującej sygnały transakcyjne na giełdzie.

⬤ Napisanie gotowego do produkcji crawlera w Pythonie przy użyciu frameworka Scrapy i radzenie sobie z praktycznymi obejściami Captcha, rotacji IP i nie tylko.

Dla kogo jest ta książka

Główni odbiorcy: analitycy danych i naukowcy z niewielką lub żadną ekspozycją na rzeczywiste wyzwania związane z przetwarzaniem danych, drugorzędni: doświadczeni programiści zajmujący się przetwarzaniem danych w sieci, którzy potrzebują elementarza, trzeciorzędni: właściciele firm i założyciele startupów, którzy muszą wiedzieć więcej o implementacji, aby lepiej kierować swoim zespołem technicznym.

Dodatkowe informacje o książce:

ISBN:9781484265758
Autor:
Wydawca:
Oprawa:Miękka oprawa

Zakup:

Obecnie dostępne, na stanie.

Inne książki autora:

Pozyskiwanie danych strukturalnych z Internetu: Uruchamianie Web Crawlerów/Scraperów na dużą skalę...
Skorzystaj ze skrobania stron internetowych na...
Pozyskiwanie danych strukturalnych z Internetu: Uruchamianie Web Crawlerów/Scraperów na dużą skalę produkcji danych - Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale

Prace autora wydały następujące wydawnictwa:

© Book1 Group - wszelkie prawa zastrzeżone.
Zawartość tej strony nie może być kopiowana ani wykorzystywana w całości lub w części bez pisemnej zgody właściciela.
Ostatnia aktualizacja: 2024.11.13 21:45 (GMT)