Scrapowanie internetowe – Wikipedia

after-content-x4

. Skrobanie internetowe (Czasami nazywany żniwny lub po francusku żniwny ^{[[[ Pierwszy ]}) jest techniką ekstrakcji stron internetowych za pośrednictwem skryptu lub programu, aby go przekształcić, aby umożliwić jego użycie w innym kontekście, takim jak wzbogacenie baz danych, SEO ^{[[[ 2 ]}lub eksploracja danych.

Table of Contents

W USA [[[ modyfikator |. Modyfikator i kod ]

W Stanach Zjednoczonych HIQ Labs używa skrobania internetowego na dane LinkedIn do rekrutacji. Po rozprawie Sąd Apelacyjny Stanów Zjednoczonych dla dziewiątego obwodu zgadza się na HIQ Wrzesień 2019 : Trybunał uważa w szczególności, że użytkownicy zachowują własność swoich profili i że dane są swobodnie rozpowszechniane w Internecie, można je zebrać ^{[[[ 3 ]}. Sprawa jest następnie wniesiona przed Sądem Najwyższym ^{[[[ 4 ]}kto wystąpi w wyścigu ^{[[[ 5 ]}W listopadzie 2022 r. Na korzyść sieci społecznościowej LinkedIn decyzją sędziego Edwarda Chena, wywołującą fakt, że HIQ praktykował retro-inżynierię, aby świadomie i wielokrotnie ominąć ochronę przed robotami poprzez symulując ludzkich użytkowników.

I Europa [[[ modyfikator |. Modyfikator i kod ]

W wyroku z 2013 r. Sąd sprawiedliwości Unii Europejskiej potępił Metamor badań Innovweb, który ponownie wykorzystywał dane ze sprzedaży Wegener Cars bez żadnej modyfikacji ^{[[[ 6 ]}.

We Francji [[[ modyfikator |. Modyfikator i kod ]

. 30 kwietnia 2020 , CNIL opublikował nowe dyrektywy w skrobaniu internetowym ^{[[[ 7 ]}. Wytyczne CNIL określają, że dane dostępne dla społeczeństwa są zawsze danymi osobowymi i że nie można ich ponownie wykorzystać bez wiedzy osoby, do której należą te dane ^{[[[ 8 ]}.

after-content-x4

W grudniu 2021 r. Start-up stacji F został skazany na hakowanie komputerowe. Korzystając z techniki skrobania internetowego, zebrała dane z katalogu paryskiej szkoły biznesu, aby poprosić byłych uczniów zakładu w celu wyżywienia crowdfundingu ^{[[[ 9 ]}Potępienie dotyczy metody dostępu do danych, to znaczy kradzież tożsamości umożliwiająca „nieuczciwy dostęp do automatycznego systemu przetwarzania danych”, a nie do samego skrobania sieci.

Wiele technologii umożliwia wyodrębnienie stron internetowych za pośrednictwem Scraping Web. Niektóre wymagają wiedzy na temat rozwoju oprogramowania (na przykład frameworks i biblioteki lub interfejsy API), podczas gdy inne są dostępne dla ogółu społeczeństwa i mogą być używane za pośrednictwem interfejsu graficznego (dotyczy to rozszerzeń przeglądarki lub oprogramowania jako usługi).

Frameworks i biblioteki [[[ modyfikator |. Modyfikator i kod ]

Istnieje wiele frameworków i bibliotek oprogramowania, dostępnych dla kilku języków programowania, do pisania aplikacji internetowych.

Niektóre oparte są na emulacji instancji przeglądarki internetowej w celu przeprowadzenia działań na stronach internetowych (takich jak kliknięcie linku lub podanie przydatnego pola) do przeprowadzania automatycznych testów lub w ramach skrobania internetowego, do skrobania internetowego, aby wyodrębnić dane. Następnie mówi się, że skrobanie internetowe odbywa się po stronie klienta, co ma tę zaletę, że jest w stanie wyodrębnić dynamiczną zawartość generowaną przez kod JavaScript obecny na stronie. Na przykład biblioteka lalek Node.js na przykład naśladuje instancję przeglądarki chromu i umożliwia zautomatyzowane działania w bezgłowych lub nie.

Inne ramy i biblioteki oparte są na analizie kodu HTML strony uzyskanej przez składanie żądania HTTP. Ten kod HTML nie w tym przypadku nie jest interpretowany przez silnik JavaScript, nie jest interpretowany. Jest to wada w ramach skrobania sieci w erze nowoczesnej sieci, w której treść stron internetowych jest często dynamicznie generowana przez kod JavaScript. Nie trzeba interpretować JavaScript, ani pobierać wszystkich zasobów strony (arkusze stylów, obrazy itp.) Ta metoda jest ogólnie bardziej ekonomiczna w zasobach (pamięć RAM, przepustowość itp.), A zatem szybciej. Jest to na przykład funkcjonowanie Biblioteki Drop (PHP).

Najpopularniejsze biblioteki i frameworki do skrobania internetowego to:

Interfejsy programowania (API) [[[ modyfikator |. Modyfikator i kod ]

Korzystanie z interfejsów programowania jest dobrą alternatywą dla bibliotek i ram dla programistów, którzy chcą przyspieszyć opracowanie swoich aplikacji internetowych. API te zwykle działają w następujący sposób: Użytkownik dokonuje żądania HTTP do punktu zakończenia obecnego na zdalnym serwerze kontrolowanym przez usługodawcę. To żądanie ma przydatne załadowanie adresu URL ze strony internetowej, na której konieczne jest wyodrębnienie danych, a czasem inne parametry, takie jak selektor CSS lub XPATH, umożliwiający zidentyfikowanie jednego lub bardziej precyzyjnego elementów HTML, z których wyodrębnia treść. Następnie serwer odpowiada żądanej zawartości.

Wiele firm oferuje interfejsy API ze skrobaniem internetowym, z których ogólnie opłacono, tutaj jest nieheksowa lista najpopularniejszych opcji:

Scraperapi
Scrapingbee
Scrapfly
Scrapingfish
Naboczy
Jasne dane
Scrapujący bot
Diffbot
Wapapi

Inne oprogramowanie [[[ modyfikator |. Modyfikator i kod ]

Na rynku istnieje wiele oprogramowania do automatyzacji operacji skrobania internetowych, niektóre wymagają pewnej wiedzy na temat rozwoju komputera, a inne są dostępne bez warunków umiejętności. Wśród tych oprogramowania można rozróżnić kilka kategorii:

Oprogramowanie SaaS, dostępne z przeglądarki internetowej i w pełni hostowane przez dostawcę. Nie wymagają żadnej instalacji, są ogólnie płacone i głównie opierają się na modelu ekonomicznym opartym na użytkowaniu lub na miesięcznej lub rocznej subskrypcji.
Oprogramowanie wykonywalne, którego udziały w rynku zwinęły się w ostatnich latach na korzyść aplikacji internetowych ^{[[[ dziesięć ]}Ze względu na ich wady w porównaniu z tym ostatnim (warunek konfiguracji systemu, obowiązek pobierania oprogramowania i wszystkie aktualizacje tylne itp.)
Rozszerzenia przeglądarki, do pobrania z katalogów rozszerzenia i rozróżnianie wykonywania w instancji Navigator. Zasadniczo oferują mniej funkcji niż inne kategorie oprogramowania, ale są również w większości tańsze i łatwiejsze w użyciu.

Niektóre z najczęściej używanych oprogramowania do skrobania internetowego to:

Lobstr.io
StableTech
Scrapebox
Zennoposter
Captaindata
Phantombuster
WebScraper.io

↑ ‘ Zbiory internetowe » W Wielki słownik terminologiczny , Quebec Office of the French Language (skonsultuję się z 25 stycznia 2023 )
↑ Régis Micheli i Jean-Noël Anderruthy, Reklama odwołuje się do Google AdWords: Wskazówki, porady: Wszystkie certyfikowane techniki ekspertów. W 29 października 2012 ( Czytaj online )
↑ Clément Bohic, ‘ LinkedIn nie ogranicza gromadzenia danych online » , NA Silicon.fr W 10 września 2019 (skonsultuję się z 5 czerwca 2020 r. ) .
↑ (W) Wendy Davis, ‘ Supreme Court Asks hiQ To Respond In Battle Over Data Scraping» W 27 kwietnia 2020 r. (skonsultuję się z 5 czerwca 2020 r. ) .
↑ (En-ue) David Cohen6 dni temu W ‘ Court Sides With LinkedIn in Data Scraping Lawsuit vs. hiQ Labs» (skonsultuję się z 10 listopada 2022 )
↑ Arnaud Touati i Christina Salassidis, ‘ Scrapowanie internetowe, technikę ekstrakcji prawnej? » , NA Wiadomości prawne W 11 października 2017 (skonsultuję się z 5 czerwca 2020 r. ) .
↑ ‘ Ponowne wykorzystanie danych publicznie dostępnych online do komercyjnych celów akwizycji » , NA Krajowa Komisja ds. Ochrony danych W 30 kwietnia 2020 .
↑ (W) ‘ Legalne skrobanie stron internetowych do celów prawnych » , NA Findatalab.com W 5 lipca 2020 r. .
↑ Gabriel Thierry, ‘ Start-up ze stacji F skazany po dzikim skrobaniu » , NA ZDNET W 16 grudnia 2021 .
↑ (W) ‘ Gartner twierdzi, że cztery trendy kształtują przyszłość chmury publicznej » , NA Gartner (skonsultuję się z 26 października 2022 )

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

[1] ‘ Zbiory internetowe » W Wielki słownik terminologiczny , Quebec Office of the French Language (skonsultuję się z 25 stycznia 2023 )

[2] Régis Micheli i Jean-Noël Anderruthy, Reklama odwołuje się do Google AdWords: Wskazówki, porady: Wszystkie certyfikowane techniki ekspertów. W 29 października 2012 ( Czytaj online )

[3] Clément Bohic, ‘ LinkedIn nie ogranicza gromadzenia danych online » , NA Silicon.fr W 10 września 2019 (skonsultuję się z 5 czerwca 2020 r. ) .

[4] (W) Wendy Davis, ‘ Supreme Court Asks hiQ To Respond In Battle Over Data Scraping» W 27 kwietnia 2020 r. (skonsultuję się z 5 czerwca 2020 r. ) .

[5] (En-ue) David Cohen6 dni temu W ‘ Court Sides With LinkedIn in Data Scraping Lawsuit vs. hiQ Labs» (skonsultuję się z 10 listopada 2022 )

[6] Arnaud Touati i Christina Salassidis, ‘ Scrapowanie internetowe, technikę ekstrakcji prawnej? » , NA Wiadomości prawne W 11 października 2017 (skonsultuję się z 5 czerwca 2020 r. ) .

[7] ‘ Ponowne wykorzystanie danych publicznie dostępnych online do komercyjnych celów akwizycji » , NA Krajowa Komisja ds. Ochrony danych W 30 kwietnia 2020 .

[8] (W) ‘ Legalne skrobanie stron internetowych do celów prawnych » , NA Findatalab.com W 5 lipca 2020 r. .

[9] Gabriel Thierry, ‘ Start-up ze stacji F skazany po dzikim skrobaniu » , NA ZDNET W 16 grudnia 2021 .

[10] (W) ‘ Gartner twierdzi, że cztery trendy kształtują przyszłość chmury publicznej » , NA Gartner (skonsultuję się z 26 października 2022 )

Scrapowanie internetowe – Wikipedia

W USA [[[ modyfikator |. Modyfikator i kod ]

I Europa [[[ modyfikator |. Modyfikator i kod ]

We Francji [[[ modyfikator |. Modyfikator i kod ]

Frameworks i biblioteki [[[ modyfikator |. Modyfikator i kod ]

Interfejsy programowania (API) [[[ modyfikator |. Modyfikator i kod ]

Inne oprogramowanie [[[ modyfikator |. Modyfikator i kod ]

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

Recent Posts

Recent Comments

Archives

Categories

Meta