Prosodie認識 – ウィキペディア

before-content-x4

Prosodie認識 (散文分類も)自動パターン認識またはモデル分類のサブエリアです。分類されるパターンは、言語の韻律特性を表しています。したがって、音声認識と組み合わせた韻律特徴の分類がしばしば行われます。

イントネーション(基本周波数の測定) [ 編集 | ソーステキストを編集します ]

  • イントネーション曲線比較
  • イントネーションの過程での特別な特徴:文を表現し、その後の空気を獲得した後、多くの場合、そのようなものがあります ピッチリセット 、新しい文の開始時の基本頻度の増加。基本的な周波数は、文の表現の過程での低下を示しています。これは吐き出しによるものです。文の表現と同時に吸入すると、基本的な頻度が増加する傾向があります。
  • フレーズの最後のイントネーション:これはドイツ語で特に重要です。たとえば、JA-NOの質問の場合には多くの場合、イントネーションが増加します。
  • 皮肉は、意図された文とはまったく異なるイントネーションを示しています。
  • 音節、単語、フレーズのハイライト(アクセント) B.あいまいさを避けるために、イントネーションも変更できます。したがって、音節、単語またはフレーズは異なって強調されます。

エネルギー、ボリューム、ラウドネス [ 編集 | ソーステキストを編集します ]

  • 相対量の変動

期間、量、リズム、音声速度 [ 編集 | ソーステキストを編集します ]

  • 単語間の壊れ(リズム)
  • 中程度の話す速度
  • 中央のスピーチからの逸脱
  • 中程度の音素長
  • 中間音節の長さ
  • 中程度の長さ
  • 中程度のフレーズの長さ(空気が持ち帰られるまで)

これらの特性は、測定の重要性に関するステートメントのみを有効にするため、これらの特性は韻律の言語モデル、特にイントネーションにしばしば示されています。言い換えれば、パターン認識とサンプル分析に必要なクラスを提供します。

滑らかなマイクロプロゾディック効果 [ 編集 | ソーステキストを編集します ]

ジッター きらめき マイクロプロソディから知られていると、振幅と周波数の不規則性が生成され、自動分類(イントネーションなど)の前に言語信号から削除する必要があります。これは、フィルターの中央値で離散言語信号を滑らかにすることで平滑化することで実行できます。

補間 [ 編集 | ソーステキストを編集します ]

プリザイブ短期声門閉鎖を作成します。この間、声帯は振動せず、測定可能な基本周波数はありません。したがって、スキャンには情報がない小さなギャップがあります。これにより、イントネーション分類器が間違ったカテゴリに分類されるように誘惑する可能性があります。補間は正しい検出を改善することができます。

イントネーションは、音響レベルでの基本周波数にほぼ対応しています。これは、SO -Called Pitch Trackers(The Praat Programなど)を使用して、オーディオ信号から自動的に抽出できます。一連の基本的な周波数値が作成されます。これらの個別の値の行は、回帰分析により、補間と多項式、たとえばストレートピースを介して多項式を介して媒介した後に近似できます。まっすぐな部分が多かれ少なかれ小さな部分を使用すると、基本的な周波数のコースをモデル化できます。声明のこの近い具体的な曲線から、結論は特別な韻律イベントに導かれるようになりました。たとえば、輪郭の直線の直線、つまり強調された単語を強く増加させることができます。これは、純粋な音声認識がアクセント情報を提供しないため、ロボットの対話の理解を理解するために使用できます。

感情検出 [ 編集 | ソーステキストを編集します ]

言語の精神的特性の変化は、言語信号から感情状態を「読む」ために使用されます。発掘された人々はより速く話し、怒っている人々は雄弁で怖がった人々を話します、一方で、かなり静かです。悲しい人々はよりゆっくりと細長い話をします。

ロボット [ 編集 | ソーステキストを編集します ]

ロボットがさまざまな言語レベルであいまいさを溶解できるようにするためには、プロソジアの検出を使用できます。これにより、音声認識のパフォーマンスが向上し、ヒューマンマシンコミュニケーションの会話または相互作用パートナーとしてのロボットの受け入れが向上します。また、ロボットは、声の感情的な特徴を使用して、自分の声を適切な方法で変えることができれば、より人間のように見えます(悲しい人々の思いやりのある声、幸せな人には楽しい声)、または彼の表情を感情に適応させることができます。皮肉やユーモアの検出は、自然な相互作用パートナーとしての受け入れも改善します。

after-content-x4

言語関連システムとダイアログシステム [ 編集 | ソーステキストを編集します ]

コンピューターの代替制御デバイス(Windows Vistaの音声認識など)または自動化された電話情報システムとして、多くの言語を消費するシステム(ロボット以外)があります。植民地認識の使用は、あいまいさ(例えば楕円文によって)または文の特定の部分への参照を解決することにより、そこでの音声認識を改善することもできます。引用は、文の途中でもよりよく認識される可能性があります(「バイキングの歴史」で言及された教授が、「バイキングの歴史」を引用または引用されたタイトルとして見ることができない限り、実際には有効な文法文ではありません)。

[ 編集 | ソーステキストを編集します ]

とりわけ、Prosodie認識モジュールは言語療法で言語障害を測定および治療するために使用されます。

スピーカーの認識 [ 編集 | ソーステキストを編集します ]

スピーカーが同時に話している多くの人々が言っ​​たことを認識するために、スピーカーの声は他のスピーカーの声と正確に区別できる必要があります。基本的な頻度、中速速度などの典型的な特性が役立つだけでなく、マイクロプロソディアの特性も役立ちます。 ジッター きらめき これは、異なる特徴のすべての人に顕著です。多くの声の1つを追求する問題は、完全な会話をテキストに翻訳するために会社の会議や会議で使用されるディクテーションシステムでしばしば発生します。人々は多くの話の1つに同時に簡単に集中できますが、自動システムは非常に困難です。とりわけ、この問題はカクテルパーティー効果として知られており、まだ最適なソリューションはありません。

スピーカーの検証 [ 編集 | ソーステキストを編集します ]

認可された従業員のみが、研究センターなどの高セキュリティエリアに特定の地域に入ることができます。これを確実にするために、生体測定特性に加えて、検証にしばしば韻律特性と微小筋特性が使用されます。多くの場合、これはパスフレーズです。

言語認識 [ 編集 | ソーステキストを編集します ]

スピーカーが話す言語を自動的に認識するために、音声認識の特性に加えて、韻律の特徴も使用できます(B Prosodyを参照)。各言語には典型的な音があり、頻繁な音の組み合わせや特徴的な音(アラビア語での喉の音など)の典型的な結果です。

機械翻訳 [ 編集 | ソーステキストを編集します ]

機械の翻訳では、音声認識を改善し、構文、意味的、実用的なあいまいさを溶解するためのProsodiモジュールが使用され、ターゲット言語に適切に翻訳できるようになります。 Verbmobilプロジェクトは良い例です。

after-content-x4