[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/scrapowanie-internetowe-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/scrapowanie-internetowe-wikipedia\/","headline":"Scrapowanie internetowe – Wikipedia","name":"Scrapowanie internetowe – Wikipedia","description":"before-content-x4 Artyku\u0142 w Wikipedii, Free L’Encyclop\u00e9i. after-content-x4 . Skrobanie internetowe (Czasami nazywany \u017cniwny lub po francusku \u017cniwny [[[ Pierwszy ]","datePublished":"2021-07-12","dateModified":"2021-07-12","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/3\/38\/Info_Simple.svg\/12px-Info_Simple.svg.png","url":"https:\/\/upload.wikimedia.org\/wikipedia\/commons\/thumb\/3\/38\/Info_Simple.svg\/12px-Info_Simple.svg.png","height":"12","width":"12"},"url":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/scrapowanie-internetowe-wikipedia\/","wordCount":2716,"articleBody":" (adsbygoogle = window.adsbygoogle || []).push({});before-content-x4Artyku\u0142 w Wikipedii, Free L’Encyclop\u00e9i. (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4. Skrobanie internetowe (Czasami nazywany \u017cniwny lub po francusku \u017cniwny [[[ Pierwszy ] ) jest technik\u0105 ekstrakcji stron internetowych za po\u015brednictwem skryptu lub programu, aby go przekszta\u0142ci\u0107, aby umo\u017cliwi\u0107 jego u\u017cycie w innym kontek\u015bcie, takim jak wzbogacenie baz danych, SEO [[[ 2 ] lub eksploracja danych. (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4Table of ContentsW USA [[[ modyfikator |. Modyfikator i kod ] I Europa [[[ modyfikator |. Modyfikator i kod ] We Francji [[[ modyfikator |. Modyfikator i kod ] Frameworks i biblioteki [[[ modyfikator |. Modyfikator i kod ] Interfejsy programowania (API) [[[ modyfikator |. Modyfikator i kod ] Inne oprogramowanie [[[ modyfikator |. Modyfikator i kod ] Powi\u0105zane artyku\u0142y [[[ modyfikator |. Modyfikator i kod ] W USA [[[ modyfikator |. Modyfikator i kod ] W Stanach Zjednoczonych HIQ Labs u\u017cywa skrobania internetowego na dane LinkedIn do rekrutacji. Po rozprawie S\u0105d Apelacyjny Stan\u00f3w Zjednoczonych dla dziewi\u0105tego obwodu zgadza si\u0119 na HIQ Wrzesie\u0144 2019 : Trybuna\u0142 uwa\u017ca w szczeg\u00f3lno\u015bci, \u017ce u\u017cytkownicy zachowuj\u0105 w\u0142asno\u015b\u0107 swoich profili i \u017ce dane s\u0105 swobodnie rozpowszechniane w Internecie, mo\u017cna je zebra\u0107 [[[ 3 ] . Sprawa jest nast\u0119pnie wniesiona przed S\u0105dem Najwy\u017cszym [[[ 4 ] kto wyst\u0105pi w wy\u015bcigu [[[ 5 ] W listopadzie 2022 r. Na korzy\u015b\u0107 sieci spo\u0142eczno\u015bciowej LinkedIn decyzj\u0105 s\u0119dziego Edwarda Chena, wywo\u0142uj\u0105c\u0105 fakt, \u017ce HIQ praktykowa\u0142 retro-in\u017cynieri\u0119, aby \u015bwiadomie i wielokrotnie omin\u0105\u0107 ochron\u0119 przed robotami poprzez symuluj\u0105c ludzkich u\u017cytkownik\u00f3w. I Europa [[[ modyfikator |. Modyfikator i kod ] W wyroku z 2013 r. S\u0105d sprawiedliwo\u015bci Unii Europejskiej pot\u0119pi\u0142 Metamor bada\u0144 Innovweb, kt\u00f3ry ponownie wykorzystywa\u0142 dane ze sprzeda\u017cy Wegener Cars bez \u017cadnej modyfikacji [[[ 6 ] . We Francji [[[ modyfikator |. Modyfikator i kod ] . 30 kwietnia 2020 , CNIL opublikowa\u0142 nowe dyrektywy w skrobaniu internetowym [[[ 7 ] . Wytyczne CNIL okre\u015blaj\u0105, \u017ce dane dost\u0119pne dla spo\u0142ecze\u0144stwa s\u0105 zawsze danymi osobowymi i \u017ce nie mo\u017cna ich ponownie wykorzysta\u0107 bez wiedzy osoby, do kt\u00f3rej nale\u017c\u0105 te dane [[[ 8 ] . (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4W grudniu 2021 r. Start-up stacji F zosta\u0142 skazany na hakowanie komputerowe. Korzystaj\u0105c z techniki skrobania internetowego, zebra\u0142a dane z katalogu paryskiej szko\u0142y biznesu, aby poprosi\u0107 by\u0142ych uczni\u00f3w zak\u0142adu w celu wy\u017cywienia crowdfundingu [[[ 9 ] Pot\u0119pienie dotyczy metody dost\u0119pu do danych, to znaczy kradzie\u017c to\u017csamo\u015bci umo\u017cliwiaj\u0105ca \u201enieuczciwy dost\u0119p do automatycznego systemu przetwarzania danych\u201d, a nie do samego skrobania sieci. Wiele technologii umo\u017cliwia wyodr\u0119bnienie stron internetowych za po\u015brednictwem Scraping Web. Niekt\u00f3re wymagaj\u0105 wiedzy na temat rozwoju oprogramowania (na przyk\u0142ad frameworks i biblioteki lub interfejsy API), podczas gdy inne s\u0105 dost\u0119pne dla og\u00f3\u0142u spo\u0142ecze\u0144stwa i mog\u0105 by\u0107 u\u017cywane za po\u015brednictwem interfejsu graficznego (dotyczy to rozszerze\u0144 przegl\u0105darki lub oprogramowania jako us\u0142ugi). Frameworks i biblioteki [[[ modyfikator |. Modyfikator i kod ] Istnieje wiele framework\u00f3w i bibliotek oprogramowania, dost\u0119pnych dla kilku j\u0119zyk\u00f3w programowania, do pisania aplikacji internetowych. Niekt\u00f3re oparte s\u0105 na emulacji instancji przegl\u0105darki internetowej w celu przeprowadzenia dzia\u0142a\u0144 na stronach internetowych (takich jak klikni\u0119cie linku lub podanie przydatnego pola) do przeprowadzania automatycznych test\u00f3w lub w ramach skrobania internetowego, do skrobania internetowego, aby wyodr\u0119bni\u0107 dane. Nast\u0119pnie m\u00f3wi si\u0119, \u017ce skrobanie internetowe odbywa si\u0119 po stronie klienta, co ma t\u0119 zalet\u0119, \u017ce jest w stanie wyodr\u0119bni\u0107 dynamiczn\u0105 zawarto\u015b\u0107 generowan\u0105 przez kod JavaScript obecny na stronie. Na przyk\u0142ad biblioteka lalek Node.js na przyk\u0142ad na\u015bladuje instancj\u0119 przegl\u0105darki chromu i umo\u017cliwia zautomatyzowane dzia\u0142ania w bezg\u0142owych lub nie. Inne ramy i biblioteki oparte s\u0105 na analizie kodu HTML strony uzyskanej przez sk\u0142adanie \u017c\u0105dania HTTP. Ten kod HTML nie w tym przypadku nie jest interpretowany przez silnik JavaScript, nie jest interpretowany. Jest to wada w ramach skrobania sieci w erze nowoczesnej sieci, w kt\u00f3rej tre\u015b\u0107 stron internetowych jest cz\u0119sto dynamicznie generowana przez kod JavaScript. Nie trzeba interpretowa\u0107 JavaScript, ani pobiera\u0107 wszystkich zasob\u00f3w strony (arkusze styl\u00f3w, obrazy itp.) Ta metoda jest og\u00f3lnie bardziej ekonomiczna w zasobach (pami\u0119\u0107 RAM, przepustowo\u015b\u0107 itp.), A zatem szybciej. Jest to na przyk\u0142ad funkcjonowanie Biblioteki Drop (PHP). Najpopularniejsze biblioteki i frameworki do skrobania internetowego to: Interfejsy programowania (API) [[[ modyfikator |. Modyfikator i kod ] Korzystanie z interfejs\u00f3w programowania jest dobr\u0105 alternatyw\u0105 dla bibliotek i ram dla programist\u00f3w, kt\u00f3rzy chc\u0105 przyspieszy\u0107 opracowanie swoich aplikacji internetowych. API te zwykle dzia\u0142aj\u0105 w nast\u0119puj\u0105cy spos\u00f3b: U\u017cytkownik dokonuje \u017c\u0105dania HTTP do punktu zako\u0144czenia obecnego na zdalnym serwerze kontrolowanym przez us\u0142ugodawc\u0119. To \u017c\u0105danie ma przydatne za\u0142adowanie adresu URL ze strony internetowej, na kt\u00f3rej konieczne jest wyodr\u0119bnienie danych, a czasem inne parametry, takie jak selektor CSS lub XPATH, umo\u017cliwiaj\u0105cy zidentyfikowanie jednego lub bardziej precyzyjnego element\u00f3w HTML, z kt\u00f3rych wyodr\u0119bnia tre\u015b\u0107. Nast\u0119pnie serwer odpowiada \u017c\u0105danej zawarto\u015bci. Wiele firm oferuje interfejsy API ze skrobaniem internetowym, z kt\u00f3rych og\u00f3lnie op\u0142acono, tutaj jest nieheksowa lista najpopularniejszych opcji: Scraperapi Scrapingbee Scrapfly Scrapingfish Naboczy Jasne dane Scrapuj\u0105cy bot Diffbot Wapapi Inne oprogramowanie [[[ modyfikator |. Modyfikator i kod ] Na rynku istnieje wiele oprogramowania do automatyzacji operacji skrobania internetowych, niekt\u00f3re wymagaj\u0105 pewnej wiedzy na temat rozwoju komputera, a inne s\u0105 dost\u0119pne bez warunk\u00f3w umiej\u0119tno\u015bci. W\u015br\u00f3d tych oprogramowania mo\u017cna rozr\u00f3\u017cni\u0107 kilka kategorii: Oprogramowanie SaaS, dost\u0119pne z przegl\u0105darki internetowej i w pe\u0142ni hostowane przez dostawc\u0119. Nie wymagaj\u0105 \u017cadnej instalacji, s\u0105 og\u00f3lnie p\u0142acone i g\u0142\u00f3wnie opieraj\u0105 si\u0119 na modelu ekonomicznym opartym na u\u017cytkowaniu lub na miesi\u0119cznej lub rocznej subskrypcji. Oprogramowanie wykonywalne, kt\u00f3rego udzia\u0142y w rynku zwin\u0119\u0142y si\u0119 w ostatnich latach na korzy\u015b\u0107 aplikacji internetowych [[[ dziesi\u0119\u0107 ] Ze wzgl\u0119du na ich wady w por\u00f3wnaniu z tym ostatnim (warunek konfiguracji systemu, obowi\u0105zek pobierania oprogramowania i wszystkie aktualizacje tylne itp.) Rozszerzenia przegl\u0105darki, do pobrania z katalog\u00f3w rozszerzenia i rozr\u00f3\u017cnianie wykonywania w instancji Navigator. Zasadniczo oferuj\u0105 mniej funkcji ni\u017c inne kategorie oprogramowania, ale s\u0105 r\u00f3wnie\u017c w wi\u0119kszo\u015bci ta\u0144sze i \u0142atwiejsze w u\u017cyciu. Niekt\u00f3re z najcz\u0119\u015bciej u\u017cywanych oprogramowania do skrobania internetowego to: Lobstr.io StableTech Scrapebox Zennoposter Captaindata Phantombuster WebScraper.io \u2191 ‘ Zbiory internetowe \u00bb W Wielki s\u0142ownik terminologiczny , Quebec Office of the French Language (skonsultuj\u0119 si\u0119 z 25 stycznia 2023 ) \u2191 R\u00e9gis Micheli i Jean-No\u00ebl Anderruthy, Reklama odwo\u0142uje si\u0119 do Google AdWords: Wskaz\u00f3wki, porady: Wszystkie certyfikowane techniki ekspert\u00f3w. W 29 pa\u017adziernika 2012 ( Czytaj online ) \u2191 Cl\u00e9ment Bohic, ‘ LinkedIn nie ogranicza gromadzenia danych online \u00bb , NA Silicon.fr W 10 wrze\u015bnia 2019 (skonsultuj\u0119 si\u0119 z 5 czerwca 2020 r. ) . \u2191 (W) Wendy Davis, ‘ Supreme Court Asks hiQ To Respond In Battle Over Data Scraping\u00bb W 27 kwietnia 2020 r. (skonsultuj\u0119 si\u0119 z 5 czerwca 2020 r. ) . \u2191 (En-ue) David Cohen6 dni temu W ‘ Court Sides With LinkedIn in Data Scraping Lawsuit vs. hiQ Labs\u00bb (skonsultuj\u0119 si\u0119 z 10 listopada 2022 ) \u2191 Arnaud Touati i Christina Salassidis, ‘ Scrapowanie internetowe, technik\u0119 ekstrakcji prawnej? \u00bb , NA Wiadomo\u015bci prawne W 11 pa\u017adziernika 2017 (skonsultuj\u0119 si\u0119 z 5 czerwca 2020 r. ) . \u2191 ‘ Ponowne wykorzystanie danych publicznie dost\u0119pnych online do komercyjnych cel\u00f3w akwizycji \u00bb , NA Krajowa Komisja ds. Ochrony danych W 30 kwietnia 2020 . \u2191 (W) ‘ Legalne skrobanie stron internetowych do cel\u00f3w prawnych \u00bb , NA Findatalab.com W 5 lipca 2020 r. . \u2191 Gabriel Thierry, ‘ Start-up ze stacji F skazany po dzikim skrobaniu \u00bb , NA ZDNET W 16 grudnia 2021 . \u2191 (W) ‘ Gartner twierdzi, \u017ce cztery trendy kszta\u0142tuj\u0105 przysz\u0142o\u015b\u0107 chmury publicznej \u00bb , NA Gartner (skonsultuj\u0119 si\u0119 z 26 pa\u017adziernika 2022 ) Powi\u0105zane artyku\u0142y [[[ modyfikator |. Modyfikator i kod ] (adsbygoogle = window.adsbygoogle || []).push({});after-content-x4"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/all2pl\/wiki27\/scrapowanie-internetowe-wikipedia\/#breadcrumbitem","name":"Scrapowanie internetowe – Wikipedia"}}]}]