Scrapowanie internetowe – Wikipedia

before-content-x4

Artykuł w Wikipedii, Free L’Encyclopéi.

after-content-x4

. Skrobanie internetowe (Czasami nazywany żniwny lub po francusku żniwny [[[ Pierwszy ] ) jest techniką ekstrakcji stron internetowych za pośrednictwem skryptu lub programu, aby go przekształcić, aby umożliwić jego użycie w innym kontekście, takim jak wzbogacenie baz danych, SEO [[[ 2 ] lub eksploracja danych.

W USA [[[ modyfikator |. Modyfikator i kod ]

W Stanach Zjednoczonych HIQ Labs używa skrobania internetowego na dane LinkedIn do rekrutacji. Po rozprawie Sąd Apelacyjny Stanów Zjednoczonych dla dziewiątego obwodu zgadza się na HIQ : Trybunał uważa w szczególności, że użytkownicy zachowują własność swoich profili i że dane są swobodnie rozpowszechniane w Internecie, można je zebrać [[[ 3 ] . Sprawa jest następnie wniesiona przed Sądem Najwyższym [[[ 4 ] kto wystąpi w wyścigu [[[ 5 ] W listopadzie 2022 r. Na korzyść sieci społecznościowej LinkedIn decyzją sędziego Edwarda Chena, wywołującą fakt, że HIQ praktykował retro-inżynierię, aby świadomie i wielokrotnie ominąć ochronę przed robotami poprzez symulując ludzkich użytkowników.

I Europa [[[ modyfikator |. Modyfikator i kod ]

W wyroku z 2013 r. Sąd sprawiedliwości Unii Europejskiej potępił Metamor badań Innovweb, który ponownie wykorzystywał dane ze sprzedaży Wegener Cars bez żadnej modyfikacji [[[ 6 ] .

We Francji [[[ modyfikator |. Modyfikator i kod ]

. , CNIL opublikował nowe dyrektywy w skrobaniu internetowym [[[ 7 ] . Wytyczne CNIL określają, że dane dostępne dla społeczeństwa są zawsze danymi osobowymi i że nie można ich ponownie wykorzystać bez wiedzy osoby, do której należą te dane [[[ 8 ] .

after-content-x4

W grudniu 2021 r. Start-up stacji F został skazany na hakowanie komputerowe. Korzystając z techniki skrobania internetowego, zebrała dane z katalogu paryskiej szkoły biznesu, aby poprosić byłych uczniów zakładu w celu wyżywienia crowdfundingu [[[ 9 ] Potępienie dotyczy metody dostępu do danych, to znaczy kradzież tożsamości umożliwiająca „nieuczciwy dostęp do automatycznego systemu przetwarzania danych”, a nie do samego skrobania sieci.

Wiele technologii umożliwia wyodrębnienie stron internetowych za pośrednictwem Scraping Web. Niektóre wymagają wiedzy na temat rozwoju oprogramowania (na przykład frameworks i biblioteki lub interfejsy API), podczas gdy inne są dostępne dla ogółu społeczeństwa i mogą być używane za pośrednictwem interfejsu graficznego (dotyczy to rozszerzeń przeglądarki lub oprogramowania jako usługi).

Frameworks i biblioteki [[[ modyfikator |. Modyfikator i kod ]

Istnieje wiele frameworków i bibliotek oprogramowania, dostępnych dla kilku języków programowania, do pisania aplikacji internetowych.

Niektóre oparte są na emulacji instancji przeglądarki internetowej w celu przeprowadzenia działań na stronach internetowych (takich jak kliknięcie linku lub podanie przydatnego pola) do przeprowadzania automatycznych testów lub w ramach skrobania internetowego, do skrobania internetowego, aby wyodrębnić dane. Następnie mówi się, że skrobanie internetowe odbywa się po stronie klienta, co ma tę zaletę, że jest w stanie wyodrębnić dynamiczną zawartość generowaną przez kod JavaScript obecny na stronie. Na przykład biblioteka lalek Node.js na przykład naśladuje instancję przeglądarki chromu i umożliwia zautomatyzowane działania w bezgłowych lub nie.

Inne ramy i biblioteki oparte są na analizie kodu HTML strony uzyskanej przez składanie żądania HTTP. Ten kod HTML nie w tym przypadku nie jest interpretowany przez silnik JavaScript, nie jest interpretowany. Jest to wada w ramach skrobania sieci w erze nowoczesnej sieci, w której treść stron internetowych jest często dynamicznie generowana przez kod JavaScript. Nie trzeba interpretować JavaScript, ani pobierać wszystkich zasobów strony (arkusze stylów, obrazy itp.) Ta metoda jest ogólnie bardziej ekonomiczna w zasobach (pamięć RAM, przepustowość itp.), A zatem szybciej. Jest to na przykład funkcjonowanie Biblioteki Drop (PHP).

Najpopularniejsze biblioteki i frameworki do skrobania internetowego to:

Interfejsy programowania (API) [[[ modyfikator |. Modyfikator i kod ]

Korzystanie z interfejsów programowania jest dobrą alternatywą dla bibliotek i ram dla programistów, którzy chcą przyspieszyć opracowanie swoich aplikacji internetowych. API te zwykle działają w następujący sposób: Użytkownik dokonuje żądania HTTP do punktu zakończenia obecnego na zdalnym serwerze kontrolowanym przez usługodawcę. To żądanie ma przydatne załadowanie adresu URL ze strony internetowej, na której konieczne jest wyodrębnienie danych, a czasem inne parametry, takie jak selektor CSS lub XPATH, umożliwiający zidentyfikowanie jednego lub bardziej precyzyjnego elementów HTML, z których wyodrębnia treść. Następnie serwer odpowiada żądanej zawartości.

Wiele firm oferuje interfejsy API ze skrobaniem internetowym, z których ogólnie opłacono, tutaj jest nieheksowa lista najpopularniejszych opcji:

  • Scraperapi
  • Scrapingbee
  • Scrapfly
  • Scrapingfish
  • Naboczy
  • Jasne dane
  • Scrapujący bot
  • Diffbot
  • Wapapi

Inne oprogramowanie [[[ modyfikator |. Modyfikator i kod ]

Na rynku istnieje wiele oprogramowania do automatyzacji operacji skrobania internetowych, niektóre wymagają pewnej wiedzy na temat rozwoju komputera, a inne są dostępne bez warunków umiejętności. Wśród tych oprogramowania można rozróżnić kilka kategorii:

  • Oprogramowanie SaaS, dostępne z przeglądarki internetowej i w pełni hostowane przez dostawcę. Nie wymagają żadnej instalacji, są ogólnie płacone i głównie opierają się na modelu ekonomicznym opartym na użytkowaniu lub na miesięcznej lub rocznej subskrypcji.
  • Oprogramowanie wykonywalne, którego udziały w rynku zwinęły się w ostatnich latach na korzyść aplikacji internetowych [[[ dziesięć ] Ze względu na ich wady w porównaniu z tym ostatnim (warunek konfiguracji systemu, obowiązek pobierania oprogramowania i wszystkie aktualizacje tylne itp.)
  • Rozszerzenia przeglądarki, do pobrania z katalogów rozszerzenia i rozróżnianie wykonywania w instancji Navigator. Zasadniczo oferują mniej funkcji niż inne kategorie oprogramowania, ale są również w większości tańsze i łatwiejsze w użyciu.

Niektóre z najczęściej używanych oprogramowania do skrobania internetowego to:

  • Lobstr.io
  • StableTech
  • Scrapebox
  • Zennoposter
  • Captaindata
  • Phantombuster
  • WebScraper.io
  1. Zbiory internetowe » W Wielki słownik terminologiczny , Quebec Office of the French Language (skonsultuję się z )
  2. Régis Micheli i Jean-Noël Anderruthy, Reklama odwołuje się do Google AdWords: Wskazówki, porady: Wszystkie certyfikowane techniki ekspertów. W ( Czytaj online )
  3. Clément Bohic, LinkedIn nie ogranicza gromadzenia danych online » , NA Silicon.fr W (skonsultuję się z ) .
  4. (W) Wendy Davis, Supreme Court Asks hiQ To Respond In Battle Over Data Scraping» W (skonsultuję się z ) .
  5. (En-ue) David Cohen6 dni temu W Court Sides With LinkedIn in Data Scraping Lawsuit vs. hiQ Labs» (skonsultuję się z )
  6. Arnaud Touati i Christina Salassidis, Scrapowanie internetowe, technikę ekstrakcji prawnej? » , NA Wiadomości prawne W (skonsultuję się z ) .
  7. Ponowne wykorzystanie danych publicznie dostępnych online do komercyjnych celów akwizycji » , NA Krajowa Komisja ds. Ochrony danych W .
  8. (W) Legalne skrobanie stron internetowych do celów prawnych » , NA Findatalab.com W .
  9. Gabriel Thierry, Start-up ze stacji F skazany po dzikim skrobaniu » , NA ZDNET W .
  10. (W) Gartner twierdzi, że cztery trendy kształtują przyszłość chmury publicznej » , NA Gartner (skonsultuję się z )

Powiązane artykuły [[[ modyfikator |. Modyfikator i kod ]

after-content-x4