n-gramm – ウィキペディア

before-content-x4

a n-gram 、時には Q-Gramm 呼ばれる、 [初め] テキストをフラグメントに分解した結果です。テキストは分解され、それぞれ

n {displaystyle n}
after-content-x4

連続した断片はそうです n-gram 要約。フラグメントは、文字、音素、単語などです。 Nグラムは、特にコンピューター言語学、定量的言語学、コンピューターフォーラム、特に暗号学およびコーパス言語学で使用されます。個々の単語、文、または完全なテキストは、分析または統計的評価のためにn-gramsに分割されます [2] データレコードにまとめられています。 2009年7月、2012年7月、2020年2月の州とのGoogle BooksのN-Gramsの3つのデータレコードには、図の形式と名前の下でWebインターフェイスとグラフィック評価が提供されました。 Google Books ngram Viewer オンラインで配置。

Bigramm-Werkeitge山:ドイツのテキストにおけるBigramsの分布。 「n」、「r」、および「d」の値はそれぞれ、この文字とその後のスペースで構成されるビッグラムに適用されます。

トリグラムと救急隊員:ドイツのテキストにおけるトリグラムの分布。トリプルER_とEN_が最も一般的です( “_”はスペースを表します)。

これは重要なn-gramsです モノグラム Bigramm (時にはgigramとも呼ばれます) 三ermamm 。モノグラムは構成されています a たとえば、単一の文字からのみフラグメント、bigram そしてトリグラム 三つ フラグメント。一般的に、あなたもからです マルチグラメン のグループに関しては話してください “多くの” フラグメント。

科学名の接頭辞は、しばしばギリシャの数字の助けを借りて形成されます。例はそうです 単核症 「単独」または「唯一」の場合、 Tri Tri 「3」のために テトラ 4用”、 ペンタ 5 “のために、 ヘキサ 「6」のために ヘプタ 「7」のために オクトト 「8」など。 とともに マルチ ラテン語の起源であり、「2つ」または「多く」を表しています。

次の表は、文字の数でソートされていることを示しています

n {displaystyle n}

ラテン語のアルファベットからの手紙が兆候としてとられた例とともに、n-gramsの名前の概要:

after-content-x4
n-gramm-name n
モノグラム 初め a
Bigramm 2 ab
三ermamm 3
テトラグラム 4 飲む
ペンタグラム 5 今日
ヘキサグラム 6
heptagramm 7 電話
オクトグラム 8 コンピューター
マルチグラム 17 観察リスト

多分

a {displaystyle sigma}

有限のアルファベットとbe

n {displaystyle n}

正の数。それからあります

n {displaystyle n}

– 単語をgramします

{displaystyle in}

長さ

n {displaystyle n}

アルファベットの上

a {displaystyle sigma}

、それは意味します

= 初め n )) a n {displaystyle w =(w_ {1}、ldots、w_ {n})in sigma ^{n}}

N-GRAM分析 特定の文字または特定の単語が特定の文字または単語のシーケンスにどの程度続くかという質問に答えるために使用されます。エピソード「for ex …」の次の文字の条件付き確率は、a = 0.4、b = 0.00001、c = 0、…合計1です。n-gramフローズンに基づいて、「exaの」「a」の断片の継続は、代替品よりもはるかに可能性が高くなります。

使用される言語は分析にとって重要ではありませんが、その統計:N-GRAM分析はすべての言語およびすべてのアルファベットで機能します。したがって、言語技術の分野での分析はそれ自体が証明されています。この方法で得られたデータ上の機械翻訳に対する多くのアプローチ。

N-GRAM分析は、電子メールなどの大量のデータが特定の主題領域について調べられる場合に特に重要です。原子爆弾やポロニウムに関する技術レポートなどの参照文書との類似性のため、クラスターを形成できます。参照文書にある電子メールの単語頻度が近づくほど、そのトピックを中心に、この例ではテロリズムに関連する特定の状況の下で、キーワードがテロリズム自体を明確に示すことを明確に示す可能性が高くなります。

これらの断層耐性で非常に高速な方法を使用する市販のプログラムは、スペルテストとフォレンジックツールです。 Javaプログラミング言語では、Apache Opache OpenNLPライブラリにはN-GRAM分析のためのツールがあります。 [3] NLTKはPythonで利用できます。 [4]

Google-Korpus [ 編集 | ソーステキストを編集します ]

Webインデックス [ 編集 | ソーステキストを編集します ]

Googleは2006年に6つのDVDを公開しました [5] Webサイトがインデックス化されたときに作成された1つの単語から5つの単語の英語n-gramsを使用します。以下は、ワードレベルでの3グラムと4グラムのGoogleコーパスの例です(つまり、 n 単語の数に対応)およびそれらが発生する周波数に対応します。 [6]

3グラム:

  • セラミックコレクタブル収集品(55)
  • セラミックコレクタブルは問題ありません(130)
  • (52)によって収集されたセラミック
  • 陶器の収集可能な陶器(50)
  • 陶器の収集品料理(45)

4グラム:

  • 入ってくる(92)
  • インキュベーターとして機能する(99)
  • 独立したものとして機能する(794)
  • インデックスとして機能する(223)
  • 表示として機能する(72)
  • インジケータとして機能する(120)
検索する文字列はです

個々の文字が大きくなる頻度が決定されます。
したがって、「周波数ベクトル」はそうです
_W:1
私たち:1
1
LC:1
CO:2
宛先:2
私:2
E_:1
_T:1
宛先:1
O_:1
_C:1

それは意味します

f = 初め 初め 初め 初め 2 2 2 初め 初め 初め 初め 初め )) {displaystyle f =(1,1,1,1,2,2,2,1,1,1,1,1)}

。下線が引かれたものは、単語の制限の略です。
ベクトルの長さは通過します

(|s|+2(n1)n){displaystyle {tbinom {| s | +2(n-1)} {n}}}

制限されています

| s | {displaystyle | s |}

の長さ

s {displaystyleS}

(ab){displaystyle {tbinom {a} {b}}}

二項係数はです。

Google Books Corpus [ 編集 | ソーステキストを編集します ]

2009年7月のGoogle Booksのデータレコードには、図の形式でのWebインターフェイスとグラフィック評価が提供されました。 Google Books ngram Viewer オンラインで配置。 [7] デフォルトでは、最大5枚のグリットで今年まで利用可能な本の数に対する正規化された頻度を示しています。オペレーターでは、いくつかの用語をグラフ(+)に要約し、非常に異なる用語(*)の乗数、または2つの用語( – 、 /)の比率を表すか、異なるコーパス(:)を比較できます。グラフィックは自由に使用できます(「あらゆる目的で自由に使用される」 [8] )、ソースとリンクが必要です。基本データは、個々のパッケージでの独自の評価のためにダウンロードされ、Creative Commons Attribution Licenseの下にあります。一般的な英語の評価オプションに加えて、特別なクエリがあります アメリカ英語 イギリス英語 (出版場所に基づいて区別)と 英語のフィクション (ライブラリの分類に基づいて)と 英語100万 。後者では、1500年から2008年までに公​​開されスキャンされた本の数に、年間最大6000冊の本がランダムに選択されました。さらに、ドイツ語、単純化された中国語、フランス語、ヘブライ語、ロシア語、スペイン語のコーパスもあります。スペースは、単にトークン化に使用されました。 n-gram層は、設定された境界を越えて発生しましたが、副業を超えていませんでした。体内で少なくとも40回発生する単語のみが記録されました。

2012年7月の新しい機関は、年末にアクセス可能になりました。イタリア語は新しい言語として追加されました 英語100万 再び形成されませんでした。基本的に、体はより多くの本、OCRテクノロジーの改善、改善されたメタデータに基づいています。トークン化は、セグメンテーションの統計的方法が使用された中国語を除き、手書きのルールのセットに従ってここで起こりました。 N-Gram層は現在、文の制限で終わりますが、現在はサイドボーダーを超えています。文の制限が記載されているため、2012年のコーパスの新しい機能が導入されており、1、2、3グラムの文の位置を評価する可能性が高いため、たとえば、英語のホモグラファー(同等に書かれた)の名詞や動詞でも区別できます。 [8] [9]

2020年2月、3番目のコーパスが2019年の名目年にネットに配置され、その機能は2012年版の機能に対応しています。

サイコロ係数 [ 編集 | ソーステキストを編集します ]

サイコロ係数は、用語のいくつかの類似性の1つです。 N-Gramsの割合を決定します。

a {displaystyle a}

b {displaystyle b}

利用可能。式はです

したがって

t バツ )) {displaystylet(x)}

用語のn-grammeの量

バツ {displaystyle x}

は。 Dは常に0〜1の間です。

[ 編集 | ソーステキストを編集します ]

  • 用語a = “wirk”
  • 用語b = “work”

Trigramsを使用する場合、分解は次のように見えます。

  • t(a)= {§§w、§wi、we、irk、rk§、k§§}
  • t(b)= {§§w、§wo、wor、ork、rk§、k§§}
  • T(a)

つまり、d(アクティブ、作業)=を意味します

236+6= 12{displaystyle {tfrac {2cdot 3} {6+6}} = {tfrac {1} {2}}}}


したがって、サイコロ係数は0.5(50%)です。

アプリケーション領域 [ 編集 | ソーステキストを編集します ]

広範な言語の中立性により、このアルゴリズムは次の領域で使用できます。

いつ n-gram統計 1つは、nグラムの頻度に関する統計を示し、時にはn語からの単語の組み合わせも示します。特別なケースは、BigRam統計とTrigram統計です。アプリケーションでは、特に音声認識システムを備えた暗号分析と言語学におけるN-GRAM統計が見つかります。システムは、検出中にコンテキストとともに異なる仮説をチェックするため、同性愛者(音の言葉)を区別できます。定量的言語学では、とりわけ、n-gramsのランキングは頻度とそれがどの法則に従うかという問題に関心があります。ドイツ語、英語、スペイン語のディグラメン(およびトリグラム)の統計は、Meierで見つけることができます [十] とバッグ・スペーカー。 [11]

意味のある統計には、数百万の文字または単語の十分に大きなテキストベースを使用する必要があります。 1.15%の相対頻度を持つ最も一般的なトリグラムとしての約800万の文字「I」のドイツ語のテキストベースの統計的評価は、例になります。次の表は、最も一般的な決定されたトリグラムとしての10の(このテキストベース)の概要を示します。

三ermamm 周波数
1.15%
a 1.08%
1.05%
0.97%
0.83%
sch 0.65%
0.64%
0.62%
終わり 0.60%
Cht 0.60%
  • WolfgangSchönpflug: ドイツ語のグラム周波数。 I.モノグラムとジグラメン。 の: Journal of Experimental and Applied Psychology XVI、1969、S。157–183。
  • Pia Jaeger: 変化における社会正義。理想主義的な構成要素および/または政治的受容を確保する手段。 Baden-Baden、Nomos 2017、ISBN 978-3-8452-8440-8、pp。25–56:「社会正義」という表現の表示とアプリケーション – アプリケーションの例
  1. ステファン・パトリック・セルバッハ: Hybride Bitparallete全文オファー。 (PDF、3,5 MB): 論文。 ヴュルツブルク大学、数学とコンピューターサイエンス学部、2011年 S. 20 2021年10月8日にアクセス
  2. ダンジュラフスキースタンフォード大学とジェームズH.マーティンコロラド大学ボルダー大学: 音声および言語処理 – 自然言語処理、計算言語学、および音声認識の紹介。 の: 3. N-Gramsによる言語モデリング。 2020年4月3日にアクセス (英語)。
  3. OpenNLPのドキュメント分類にNGRAM機能を使用する方法。 の: チュートリアルカート。 2020年4月3日にアクセス (アメリカ英語)。
  4. 指定された文のn-gramsを生成します。 の: Pythonプログラミング。 3. 2019年5月、 2020年4月4日にアクセス (英語)。
  5. Web 1T 5グラムバージョン1 記念 オリジナル 2013年9月29日から インターネットアーカイブ )) 情報: アーカイブリンクは自動的に使用されており、まだチェックされていません。指示に従ってオリジナルとアーカイブのリンクを確認してから、このメモを削除してください。 @初め @2 テンプレート:webachiv/iabot/www.ldc.upenn.edu
  6. アレックス・フランツとトールステン・ブラント: 私たちのすべてのn-gramはあなたのものです。 の: Google Researchブログ。 2006、 2011年12月16日に取得 テンプレート:Web/一時を引用します
  7. Google Books ngram Viewer
  8. a b Google Books ngram Viewer-情報
  9. Google Books Ngram Viewer -Datasets
  10. Helmut Meier: ドイツ語統計。 2番目の拡張および改良版。 Olms、Hildesheim 1967、pp。336–339
  11. Albrecht Beutelspacher: 暗号学 。第7版、Vieweg、Wiesbaden 2005、ISBN 3-8348-0014-7、230〜236ページ。また:トリグラム。
after-content-x4