Apache Nutch-ウィキペディア、無料​​百科事典

before-content-x4

Apache nutch – オープンソース、拡張可能でスケーラブルなインターネットロボット(Webサイトを検索および分析するためのコンピュータープログラム)Apache Foundationのケアの下で開発された [2]

after-content-x4

Nutchシステムの特徴(YadavとGoyalによる [3] ):

  • 多数の機能とシステム操作を柔軟に構成する機能 [4] [5]
  • システム機能を拡張する可能性(プラグシステムを使用) [4] [6]
  • TikaやSolrなどのApacheエコシステムの他の要素、またはHadoopプラットフォームとの簡単な統合、
  • 高いスケーラビリティと損傷に対する抵抗、
  • 分散キーバルブデータベースにデータを保存する可能性、例:HBase(バージョン2.0から)、
  • ロボット除外プロトコルメカニズムのルールを考慮して(ファイルのWebページに保存されています robots.txt )) [2]
  • オープンソースコミュニティの良いサポート。

Nutchは完全にJavaで書かれています [3] 、しかし、彼のデータはプログラミング言語とは無関係に形式で保存されています。システムの構造はモジュール式であるため、操作を変更して他のツールやライブラリに接続できます。 Nutchプロジェクトの一部として、APIインターフェイスが作成されました。プラグインの形成(英語 プラグイン )システムへ。利用可能なAPIインターフェイスの1つはREST APIです。これにより、グラフィックインターフェイスやコマンドを使用することなく、システム操作のインタラクティブな制御が可能になります。 [7]

その補助タスクの多くでは、Nutchは既存のソフトウェアに基づいています [6]

  • Hadoop:スケーラビリティ、タスク、データシリーズ(1.x行)
  • Tika:ファイル形式の認識
  • Solr、Elasticsearch:保存されたデータで検索します
  • Gora、Hbase、Cassandra:データ収集(2.x行)
  • クローラーコモンズ [8] :ファイル処理 robots.txt

Nutch Projectは、Doug Cuttingの協力(とりわけLucene Platformsの作成者)とMike Cafarelliの一環として2002年に開始されました。 2004年と2005年の変わり目に、NutchプロジェクトはMapReduce関数によって実装され、分散ファイルシステムが導入されました(これは後で他の要素と別のHadoopプロジェクトとして分離されました)。これにより、多くのデバイスでのデータの処理とインデックス作成が可能になりました。 2005年1月、NutchはApache Software Foundation(ASF)プロジェクトに参加しました – 最初はSo -Calledによってカバーされています同じ年の6月にルーセンのサブプロジェクトになるためのインキュベーション [6] 。 2010年、Nutchは最高レベルで独立したASFプロジェクトになりました [9]

2014年2月、Common Crawlプロジェクト [十] 彼は、大規模なネットワークインデックス作成のための彼のオープンツールとしてNutchを受け入れました [11]

  1. Apache Nutch – 非常に拡張可能で、非常にスケーラブルなWebクローラー 、nutch.apache.org [アクセス2020-05-02]
  2. a b マイク・カファレラ、ダグ・カッティング。 Building Nutch:オープンソース検索 。 「ACMキュー」。 2(2)、s。 54-61、2004。 ))
  3. a b モニカ・ヤダブ、ネハ・ゴヤル。 オープンソースクローラーの比較 – レビュー 。 「科学および工学研究の国際ジャーナル」。 2229(5518)、s。 1544-1551、2015。 ))
  4. a b Nutchtutorial -Nutch -Apache Software Foundation 、cwiki.apache.org [アクセス2020-05-03]
  5. L. A.ロペス、R。Duerr、S。J。S. Khalsa」 大規模にドメイン固有のクロールのためのApacheNutchを最適化する 、」 2015 IEEE国際ビッグデータに関する会議(ビッグデータ) 、カリフォルニア州サンタクララ、2015年、pp。 1967-1971。
  6. a b c セバスチャン・ナーゲル: Apache nutchでrawうウェブ 。 2014年。 ))
  7. Nutchrestapi -Nutch -Apache Software Foundation 、cwiki.apache.org [アクセス2020-05-05]
  8. github プロジェクトリポジトリ:Crawler-Commons 、Crawler-Commons、3 Maja 2020 [アクセス2020-05-04]
  9. nutch.apache.org Apache Nutch™ – ニュース 、nutch.apache.org [アクセス2020-05-01]
  10. よくある質問 – 一般的なクロール [アクセス2020-05-04] ))
  11. Common Crawl’s Move to Nutch – Common Crawl [アクセス2020-05-01] ))

after-content-x4