Dragon NaturallySpeaking – ウィキペディア

before-content-x4

ドラゴンは自然に話す コンピューターの画面またはコントロールコマンドのテキストの話された単語を実装する音声認識ソフトウェアです。 Dragon NaturallySpeakeは、プライベートユーザーやプロのユーザー向けにさまざまなエディションで購入できます。バージョン番号14(内部でのみ使用)以来、「自然を話す」指定はメーカーによって使用されていません。代わりに、マーケティングは「ドラゴン」という名前で作成され、次のようなエディションの指定が続きます。 B.「ドラゴンプロフェッショナル個人」。 MacOSオペレーティングシステム向けに書かれた同様のバリアントは、最近「MacのDragon Professional個人」と呼ばれていましたが、2018年10月以降は販売されていません。 [初め] Dragonという名前は、より良い断層のために最初に保持されます。

after-content-x4

プログラムの始まりと元のメーカーは、1980年代初頭にジェームズとジャネットベイカーによって開発されたジェームズとジャネットベイカーによって開発されたスピーチ認識のためのソフトウェアのプロトタイプに基づいていますが、当初はカーネギーメロン大学でIBM研究センターで働いていました。 [2] パン屋は1982年5月にドラゴンシステムを設立しました。 [3] Dragonの自然を話す先駆者は、DOS向けに書かれたSoftware Dragondictateであり、まだ継続的な音声認識を許可していませんでした。 Dragon NaturallySpeaking 1.0は1997年にリリースされました。2000年に同社はLernout&Hauspieに引き継がれました。破産不動産から、アメリカの企業Scansoftは、今日のNuance Communicationsと呼ばれる権利を取得しました。

Dragon NaturallySpeakeは、PCで音声認識のためのソフトウェアです。ソフトウェアは、テキストまたは制御コマンドでコンピューターに接続されたマイクで話されているステートメントを実装します。これは、スピーカーに依存する(ユーザーへの適応)フロントエンドシステム、つまり、ユーザーのコンピューター上のテキストに言語が実装されており、ステートメントの口述直後に表示されるものです(「あなたが見ているもの」)。インターネットを介して送信される音響情報が中央サーバーに実装され、テキストが戻されるスマートフォンの音声認識機能に関連して、実装の速度と精度が発生し、ユーザーの語彙とニーズに適応する可能性がある場合に利点がある場合があります。
バージョンに応じて、DragonNatulal Seakingは、事前に実装をサポートしています(ディクテーションデバイスまたは録音プログラムを使用)。

音響信号は、実装のためにデジタル散乱され、おおよその割り当てを可能にする特性に従って「音響モデル」の一部として分類されます。選択は、隠れマルコフモデルのさまざまなバリアントを統計的に使用しています。バージョン15から、ドラゴンは「ディープラーニング」を使用して新しい音声認識セットを使用することを誇っています。 [4] この音響モデルは、特に認識エラーを修正することにより、初期トレーニング(現在のバージョンではもはや必要ありません)と使用時に継続的に継続的に採用されています。 「認識された」音に加えて、最も可能性の高い言葉について統計的仮説がなされます。したがって、類似した音声/単語の場合、または同じサウンドの音/単語の場合、ソフトウェアは、スポークスマン内のマルチワードの結果を使用して、スピーカーが画面上にテキストとして表示されるかを決定します。これの基礎は、これらの確率を説明する音声モデル(言語モデル)です。詳細については、音声認識に関する記事で詳しく説明しています。識別プロセスは通常、現在のハードウェアでバックグラウンドで非常に迅速に実行されるため、声明が画面に記入された直後に話しかけたテキストが表示されます。

配信状態では、ソフトウェアにはそれぞれの入力言語の標準言語モデルが含まれています。これは、製造業者による非常に大きなテキストコーパス内の単語結果の確率の分析に基づいています。ユーザーのPCにソフトウェアを設定するとき、ユーザープロファイルのシステム – この標準言語モデルのシステムは、それぞれのユーザーの既存のテキストを分析することにより、その執筆スタイルに適合させることができます。これは、使用中にも継続的に実行されます(そのため、モデルの最適化)。言語モデルのこの継続的な改善(音響モデルのものについても)のために、誤って認識されている単語と単語の組み合わせの一貫した修正は、対応するプログラム関数を伝えます。 Dragonが自然にスピーキングすると、最大4つの単語の接続を使用するため、古いバージョン11の古いバージョン11でQuadgramsをコールしました。バージョン12から、Dragonは、5つのシーケンスを分析する「BestMatch V」言語モデルを使用して、対応する強力なPC(2 GBを超えるRAMのマルチコアプロセッサとメモリ)にユーザープロファイルを設定します。バージョン15では、音声モデルは再び「ベストマッチIV」と呼ばれ、変更された検出技術に関連するはずです。

音声モデルは、文法規則に従ってではなく、統計的手法のみを使用して機能します。この機能により、関連するステートメントが話されている場合、できれば全体のレートが話されている場合、認識の正確性が最適です。したがって、このソフトウェアは、文字、レポート、その他の事実テキストの典型的な典型的なものとして、よく構築された言語の認識を目指していますが、たとえば、多くのセットブレーク、省略、フィラーを備えた記録された口頭デバイスの実装、特にテキスト内のいくつかのスピーカーの議論の議論の直接的な実装ではありません。

Dragonの自然を話す言語モデルは、提供された語彙(Word Lexicon)に基づいて構築されています。ソフトウェアは文法ルールを使用していないため、語彙は単語のステムだけでなく、すべての個々の単語形式を保存しました。この語彙は、自分のテキストを分析することにより、認識エラーの場合は約150,000語の単語形式で修正することで、未知の単語と単語形式で補完できます。許容可能な領域で実装の速度を維持するために、語彙は異なる「スロット」、つまり前景の語彙と背景の語彙(サイズが約250,000〜300,000エントリと推定される)に分割されます。アクティブなアクセスのために、RAMの前景の語彙のみが保持され、背景の語彙からの単語が使用された後に追加されます(そして誤って認識されてから修正されます)。

ソフトウェアの言語モデルは特定の言語を対象としています。つまり、同じユーザープロファイルを持つさまざまな入力言語でテキストを指示することはできません。別の言語で指示するには、対応する個別のユーザープロファイルを作成して呼び出す必要があります。ドイツ語のドラゴンバージョンは、自然にスピーキングすることで、ドイツ語と英語でユーザープロファイルを可能にします。このソフトウェアは、スペイン語、フランス語、イタリア語、オランダ語、日本語でも利用できますが、個々のモジュールの形ではなく、個別のバージョンの形式では利用できます。 [5] 一般的な外国語は、付属の語彙に含まれています。他の外国語の追加と信頼できる認識は、その発音はドイツ語の通常のサウンドに対応していませんが、レキシコンにサウンド「話し言葉」(「ブレーク」と書かれた「brehkitsch」など、「brehkitsch」、「cia」、「ssie eia “” ssie eia “など)に音の「話し言葉」を格納することでユーザーが実行することができます。

after-content-x4

バージョン13までに使用されている「自然な話」ソフトウェアの名前は、継続的な音声認識の特性から派生しています。 20世紀の90年代半ばまで使用されていた音声認識システムとは対照的に、そして前任者のドラゴディクテートとは異なり、スポークスマンは個々の単語(個別言語)の間で不自然な音声休憩を取る必要はありませんが、継続的に話すことができます。ソフトウェアは、健全な結果から説明されている方法に基づいて、(可能性の高い)単語制限を決定できます。それにもかかわらず、構造化された明確な(ただし誇張されていない、明確にされていない)と流動的なスピーキング方法は、成功の最良の保証です(メーカーはニューススピーカーと話す方法を使用することをお勧めします)。

Dragon NaturallySpeakingは、バージョン10.1の64ビットWindowsの下で、Windows XPオペレーティングシステムの下で実行されます。 MacOS Sales Nuance Nuanceの2018年9月までに、同じ音声認識コアに基づくソフトウェアは、Dragonの名前のバージョン4まで聞かれましたが、上記のDragonの先駆者と自然にスピーキングし、最後に入手可能なバージョン6 “Dragon Professional Persuent for Mac”で言及されたものと混同してはなりません。このMacOSバージョンは、DragonのWindowsバージョンの背後にあるコンピューターの修正と制御オプションの機能に留まります。 MacOSバージョンの販売とサポートは、2018年10月にNuanceによって中止されました [初め]

Dragon NaturallySpeakeは、Linux Core(Ubuntu、Red Hat、Opensuseなど)を備えたオペレーティングシステムでネイティブに実行されません。 [6] ただし、API翻訳システムのワインは、経験豊富なLinuxユーザーによって手動で適応したインストールが実行されたといういくつかのバージョンのコアコンポーネントの安定した使用を可能にします。 [7] また、ZのWindowsバージョンにも考えられます。 B. LibreofficeとFirefoxは、ドラゴンでそれらを制御できるようにワインの下で実行されます。

バージョン11から、自然に話すことは、マルチコアプロセッサでマルチパス技術を使用します。このプロセスでは、同じステートメントが2つのプロセスコアで並行して分析し、この方法で信頼性を高めるために、異なる隠れマルコフモデルを使用した最も可能性の高いステートメントがこの方法で決定されます。したがって、他のタスク、特にディクテーションが決定されるターゲットアプリケーションに十分なコンピューター容量を維持するために、最新のプロセッサを使用することをお勧めします。ワーキングメモリのプロセッサとサイズ、および十分に大きな2番目または3番目のレベルキャッシュも、実装速度に大きな影響を与えます。強力な現在のPCを使用すると、テキストは通常​​、声明が与えられた直後に表示されます。

このプログラムは、作業ストレージのサイズとプロセッサの容量に比較的高い需要を置いていますが、ユーザーインターフェイスは目立たない「ドラゴンバー」であり、完全に隠すこともできます。この概念は、ユーザーがテキスト処理プログラムなどのターゲットアプリケーションで直接指示するという事実に基づいています。このテキストでは、キーボード入力なしで音声テキストが表示されます。互換性のあるアプリケーションプログラムは、音声コマンド(ドキュメントの保存や印刷、フォーマットなど)によって制御することもできます。最後になりましたが、これらの機能は、動きの制限を持つユーザーによって推定されます。アプリケーションプログラムとの通信のために、Dragonは自然にスピーキングして、MSAA(Microsoft Active Accessibility)インターフェイスとMicrosoft Language Interface SAPI 4(フォローアップバージョン5ではありません)を使用します。したがって、アプリケーションを制御するための完全なコマンドは、Microsoft Wordなどの対応する互換性のあるアプリケーションプログラムでのみです(バージョン2013は、自然を話す12.5、Dragon Professional個人または14のバージョン2016)またはソフトウェアが「標準ウィンドウ」または「フルテキストコントロールを備えたウィンドウ」と呼ばれるインターネットエクスプローラーのみです(以前のバージョンでも」 OpenOfficeライター、Mozilla Firefox、Mozilla Thunderbirdなどの他のソフトウェアは部分的にサポートされています。 Outlook.comなどのブラウザベースのクラウドアプリケーションは、部分的にのみサポートされています。 B. Microsoft Office Webアプリ。

Dragon NaturallySpeakingには、機能的なMicrosoft WordPadである独自のシンプルなテキスト処理プログラム「DragonPad」と、口述のテキストを非競合性のないターゲットアプリケーションに転送するために使用できるディクテーションウィンドウもあります。
互換性のあるアプリケーションプログラムに加えて、Dragon NaturallySpeakingは、Voiceコマンドを使用してWindowsインターフェイスを制御できます(Windows 8スタート画面では限られています)。

このソフトウェアには、バージョン9からスキップすることもできます。また、スピーカー自身のテキストの分析も必要です。検出率は現在、ハードウェアの品質と話す方法の明確さに応じて、ハードウェアの品質に応じて98%を超えています。また、精度は、メーカーが提供するマイクよりも優れたものを使用することによってプラスの影響を受ける可能性があります。

従来、限られた専門家の語彙(医師や弁護士など)が使用されるほど、検出率が向上しています。プログラムとハードウェアのパフォーマンスの向上により、現在のバージョンは、特定の専門分野で独自の語彙を使用する必要がなくなりました。ただし、語彙にまだ存在していない単語を正しく認識できないことがまだ適用されます。

(ドイツ版の)例外は、複合材料の自動形成の関数です。複合単語の典型的なコンポーネントには、語彙の特性も提供されます。これは、他の単語と合成して(おそらくジョイントSで)、前または後に口述されている場合、複合材料(おそらく共同Sで)に提供されます。この関数も統計的に制御されるため、誤った複合材も提供する場合があります。 B.「複合単語」の場合。

このようなケースは、ターゲットアプリケーションでのスペル検査によって認識エラーが認識される少数のものの1つです。(架空の)例のように、誤って認識された単語とは対照的に:「研修生は 「。したがって、音声認識によるテキストの修正は、メーカーがライセンス契約で明示的に示すものを推奨されます。

伝説: Alteバージョン 古いバージョン;まだサポートされています 現行版 現在のVorabバージョン 将来のバージョン
バージョン 出版 エディション
古いバージョン;もはやサポートされていません: 1.0 1997年6月 個人的
古いバージョン;もはやサポートされていません: 2.0 1997年11月 標準、優先、デラックス
古いバージョン;もはやサポートされていません: 3.0 1998年10月 Point&Speak、Standard、Preferred、Professional(Optionale Legal Oder Medical add-Ons)
古いバージョン;もはやサポートされていません: 4.0 4. 1999年8月 必需品、標準、優先、専門家、法的、医療、モバイル
古いバージョン;もはやサポートされていません: 5.0 2000年8月 必需品、標準、優先、専門家、合法、医療
古いバージョン;もはやサポートされていません: 6.0 15. 2001年11月 必需品、標準、優先、専門家、合法、医療
古いバージョン;もはやサポートされていません: 7.0 2003年3月 必需品、標準、優先、専門家、合法、医療
古いバージョン;もはやサポートされていません: 8.0 2004年11月 必需品、標準、優先、専門家、合法、医療
古いバージョン;もはやサポートされていません: 9.0 2006年7月 標準、優先、プロフェッショナル、リーガル、メディカル、SDKクライアント、SDKサーバー
古いバージョン;もはやサポートされていません: 9.5 2007年1月 標準、優先、プロフェッショナル、リーガル、メディカル、SDKクライアント、SDKサーバー
古いバージョン;もはやサポートされていません: 10.0 7. 2008年8月 必需品、標準、優先、専門家、合法、医療
古いバージョン;もはやサポートされていません: 10.1 2009年3月 標準、優先、専門的、法的、医療
古いバージョン;もはやサポートされていません: 11.0 24. 2010年8月 ホーム、プレミアム、プロフェッショナル、合法
古いバージョン;もはやサポートされていません: 11.0 2011年3月 医学
古いバージョン;もはやサポートされていません: 11.5 2011年6月 プレミアム
古いバージョン;もはやサポートされていません: 11.5 2011年7月 ホーム、プロフェッショナル、合法
古いバージョン;もはやサポートされていません: 12.0 2012年8月 ホーム、プレミアム
古いバージョン;もはやサポートされていません: 12.0 2012年9月 専門的、合法
古いバージョン;もはやサポートされていません: 12.0 2012年12月 医療行為
古いバージョン;もはやサポートされていません: 12.5 2013年2月 ホーム、プレミアム、プロフェッショナル、合法
古いバージョン;もはやサポートされていません: 13.0 2014年8月 ホーム、プレミアム
古いバージョン;もはやサポートされていません: 13.0 2014年10月 専門的、合法
古いバージョン;もはやサポートされていません: 14.0 2015年9月 プロの個人、グループ
古いバージョン;もはやサポートされていません: 14.0 2016年4月 専門家、法律団体、法律個人
古いバージョン;もはやサポートされていません: 15.0 2016年10月 プロの個人
現行版: 15.0 2017年5月 プロフェッショナルグループ
現行版: 15.1 2017年11月 専門家、法務グループ(ボリュームライセンス(VLA)のみ)それぞれ
現行版: 15.3 2018年2月 専門団体、法務グループ
現行版: 15.4 2019年4月 専門家、法務グループ(ボリュームライセンス(VLA)のみ)それぞれ
現行版: 15.5 2019年11月 専門団体、法務グループ
現行版: 15.6 2020年7月 専門団体、法務グループ
現行版: 15.61 2020年12月 専門団体、法務グループ
現行版: 15.7.1 2021年9月 専門団体、法務グループ
2020.1〜4 2020年1月 プロのどこでも、どこでも合法、医療
2021.1〜4 2021年1月 プロのどこでも、どこでも合法、医療
  1. a b Macの終わりのためのドラゴンプロフェッショナルな個人 記念 2020年11月7日から インターネットアーカイブ ))
  2. ドラゴンシステムの歴史 (英語)、2011年7月2日に呼び出されました
  3. 「Speechless」(Janet McIver Bakerについての肖像)、Tufts University Magazine、2012年秋 (英語)、2012年10月6日に呼び出されました
  4. https://shop.nuance.de/store/nanceu/de_de/content/pbpage.micrite-dragon-professional?currency=eur&pgmid=95401100&keyword=dragon+professional+indiualch +15-e#whatsneww
  5. メーカー側の言語バージョンのディレクトリ (英語)、2013年2月23日に呼び出されました
  6. よくある質問。 (もはやオンラインで利用できなくなりました)からアーカイブされています オリジナル 午前 6. 2015年8月 ; 2015年8月11日にアクセス テンプレート:Web/一時を引用します
  7. WineHQ -自然に話すドラゴン12.5。 2021年3月3日にアクセス
after-content-x4