スピーチタグの一部 – ウィキペディア

before-content-x4

スピーチタグの一部 ポーズタグ )単語と単語のタイプへの単語と句読点のマークの割り当てを理解する( 英語 スピーチの一部 )。この目的のために、単語とコンテキストの定義(隣接する形容詞や名詞など)の両方が考慮されます。

after-content-x4

スピーチの部分の記録とラベル付けはもともと手動で行われましたが、時間の経過とともに、コンピューター言語学によって手順がますます自動化されました。使用される方法は、監視された機械学習と克服できない機械学習に分けることができます。監視を学習するとき、z。 B. Hidden Markov ModelsまたはEric Brillは、プロセスまたは意思決定木(Helmut Schmidによる)、およびすべてのパートタイムタグは、事前に定義されたいわゆる毎日のセットからのものです。 POSタグは言語依存です。ドイツ語の場合、stuttgart-tübingen-taget(stts)はしばしば [初め] 使用済み。不安定に学習する場合、タグセットは事前に決定されるのではなく、確率的プロセスによって引き起こされます。

ペトラは長い小説を読みます。 次のように、Stuttgart-Tübingen-Taget(Short:STTS)でタグ付けされています。

Petra/ne reads/vvfin a/art long/adja roman/nn ./$。

各単語または句読点の背後には、スラッシュの翌日です。言葉に a 特定のコンテキストで正しくタグ付けすると、同じ動詞の形式と区別する必要があります。これらには、VVINF(不定詞の場合)またはVVFIN(有限形式用)がタグ付けされます。

監視を学ぶとき、その日は目的です a コンテキストの助けを借りて選択されます。たとえば、TAGシーケンスVVFIN-ART、VVFIN-VVINF、VVFIN-VVFIN(Taggerのいわゆるトレーニング)の確率が計算されます。 vvfin-artは他の2つが続くよりもはるかに一般的であるため、 a この文の種類としてタグ付けされています。 (一般的なエピソード 読める VVFIN VVINFではなく、VMFIN-VVINFでタグ付けされています。)

不安に学ぶとき、事前のトレーニングはありませんが、タグ付けされる文からそれ自体が計算されます。 B. a 頻繁に 読みます また 読む 立つだけでなく、多くの場合、文の終わりにも。 一方、それはしばしば期限があります 読みます また 読む 、しかし、文の最後には決して、またはめったにありません。 読む しばしば文の終わりにあり、決して 読みます また 読む 。それがタガーがzのスピーチを作成する理由です。 B. 聞いた、そして他の誰 読む 含む。 a スピーチの両方の部分に属します。それは与えられた文でのようです Taggerと同じ引数の後にタグ付けする必要があります。タガーは、監視された学習を使用して訓練されました。

コンピューター言語学(NLP)の分野のソフトウェアは、多くの場合、POSタグを自動的に実行できることがよくあります。教育部門を対象としたNLTKソフトウェアは、デフォルトで設定されたPenn TreeBankタグを使用して英語のテキストを提供できます。さらに、適切なテキストコーパスの助けを借りて個別に設計されたトレーニングが可能です。 [2]

POSタグは言語依存です。言語ごとに1つ以上のタグセットが存在する可能性があります。 Tagset STTS Tagset STTSは、オープンソースソフトウェア、英語のテキストのTagset Penn TreeBankによるドイツのテキストに使用されます。 [3] ヨーロッパの14の言語用 [4] スローガンデイリーセットを開発しました [5] サポートもサポートされています。 OpenNLPには、これらの異なる言語(ドイツ語、英語、スペイン語、ポルトガル語、デンマーク語など)の既に訓練されたモデルの選択があります。 [6] [7] これらのモデルの助けを借りて、これらの言語のいずれかのテキストコーパスは、対応するタグで自動的に提供できます。

after-content-x4

TreeTaggerは、シュトゥットガルト大学のマシンプログラム研究所のヘルムートシュミットによって開発されたツールです。 [8] 約16の異なる言語からテキストを自動的に提供するために使用できます。 [9] Treetaggerは、この領域で最も頻繁に使用される言語に依存しないツールです。 [十]

  • エリック・ブリル: 単純なルールベースのスピーチタガー。 応用自然言語処理に関する第3回会議(ANLP-92)の議事録。 S. 152-155、1992。
  • ユージン・チャーニアック: 自然言語解析のための統計的手法。 の: AIマガジン 18(4):S。33-44、1997。
  • ハンス・ヴァン・ハルテレン、ジャクブ・ザブレル、ウォルター・ダイレマンズ: 機械学習システムの組み合わせによる単語クラスのタグ付けの精度の向上。 の: 計算言語学 27(2)、S。199-22、2001(PDF 2,26 MB; 2,4 MB)。
  • ヘルムートシュミット: 意思決定ツリーを使用した確率的なスピーチのタグ付け。 1994年の言語処理における新しい方法に関する国際会議の議事録。
  1. stts(huベルリン)
  2. NLTK&Scikit-Learnで独自のPOSタガーをトレーニングするための完全なガイド。 の: NLP-For-Hackers。 21. 2016年8月、 2019年2月9日にアクセス (アメリカ英語)。
  3. ミッチェル・P・マーカス、ベアトリス・サントリーニ、メアリー・アン・マルシンキヴィッツ: 英語の大きな注釈付きコーパスの構築:ペンツリーバンク。 ペンシルバニア大学、 2019年2月9日にアクセス (英語)。
  4. 心|欧州委員会。 の: 言語工学。 2019年2月9日にアクセス (英語)。
  5. 2レベルの形態のアイルランドのタグ。 コンピューターサイエンスと統計学部 – トリニティカレッジダブリン、 2019年2月9日にアクセス
  6. Apache Stanbol -OpenNLP POSタグ付けエンジン。 2019年2月9日にアクセス (英語)。
  7. OpenNLPツールモデル。 2019年2月9日にアクセス (英語)。
  8. ヘルムートシュミットのホームページ。 の: 情報と言語処理のセンター。 Ludwig-Maximilians-University Munich、 2019年2月10日にアクセス (英語)。
  9. Treetagger-A Language Independent Of Speech Tagger |機械プログラム研究所|シュトゥットガルト大学。 2019年2月10日にアクセス (英語)。
  10. Imad Zeroual、Abdelhak lakhouaja: Multed:多言語アラインドおよびタグ付きパラレルコーパス 。の: 応用コンピューティングと情報学 。 2018年12月14日、ISSN 2210-8327 、doi: 10.1016/j.aci.2018.12.003 (英語、 Sciencedirect.com [2019年2月10日にアクセス])。

after-content-x4