1995年3月14日電話音声認識装置を開発〜不特定の人の電話音声を最大1000単語同時に認識可能〜
NTTデータ通信(株)情報科学研究所では、不特定話者の電話音声を同時に1000単語認識
ができる音声認識装置を開発しました。電話による不特定話者の言葉を項目毎に1000語の中から認識する装置としては国内で初めて95%の認識率を達成しています。
電話音声認識装置は、A4サイズのパッケージ上に音声認識、回線制御等の機能を持っており、利用者は特別な機器を使わなくても電話機から日常使用している言葉で、サービスを受けることができます。
電話回線を通した音声は、雑音や回線の歪みが多いため認識が大変難しく、従来の装置では十数個の単語、数字に限定され、また発声方法も1単語づつ区切って発声しなければなりませんでした。 このため、サービスの利便性が低く、また音声で発声するための商品コード表等が必要で、限られた分野、サービスにおいてのみ利用されてきました。
今回開発した電話音声認識装置は、実際の電話音声をサンプリングした音声認識辞書を作ることにより、自然な発声による1000単語の電話音声を認識することが可能になりました。NTTデータ通信では、今後この装置を組み込んだシステムの開発やパッケージ システムの開発を行い、ホームショッピング、チケット予約や各種情報案内システムに応用していく予定です。
電話音声認識装置は、A4サイズのパッケージ上に音声認識、回線制御等の機能を持っており、利用者は特別な機器を使わなくても電話機から日常使用している言葉で、サービスを受けることができます。
電話回線を通した音声は、雑音や回線の歪みが多いため認識が大変難しく、従来の装置では十数個の単語、数字に限定され、また発声方法も1単語づつ区切って発声しなければなりませんでした。 このため、サービスの利便性が低く、また音声で発声するための商品コード表等が必要で、限られた分野、サービスにおいてのみ利用されてきました。
今回開発した電話音声認識装置は、実際の電話音声をサンプリングした音声認識辞書を作ることにより、自然な発声による1000単語の電話音声を認識することが可能になりました。NTTデータ通信では、今後この装置を組み込んだシステムの開発やパッケージ システムの開発を行い、ホームショッピング、チケット予約や各種情報案内システムに応用していく予定です。
- 電話音声認識装置の特徴
- 不特定話者の認識
今回開発した電話音声認識装置に搭載している音声認識辞書は、全国7都市(札幌、仙台、東京、名古屋、大阪、広島、福岡)を中心に性別、年齢の構成を均一化した1600名の電話音声から構築されているため、年齢、性別によらずあらゆる人の音声特徴に対応した認識処理を実現しています。 - 1000語の大語彙認識
音声認識辞書は、単語を細分化した「音素」という単位で保有し、音素を並びかえて単語辞書を組み立てることにより音声認識を実現しています。
情報科学研究所では、音素を独自の技術で構築し、認識性能の劣化を起こさずに1000単語の認識を可能にしました。 - 連続音声認識技術
情報科学研究所が開発した認識アルゴリズムは、辞書に登録された単語と発声された文章中の単語との類似度の評価を行うと同時に、辞書に設定された単語間のつながり度合いを示す情報を用いて、連続音声認識処理を行う方式です。
この方式により、連続数字や複数の単語等を1回の発声で入力することができ1単語づつ入力する従来装置と比較して飛躍的に操作性が向上しています。
また、将来の会話音声認識(文章のような連続発声)に向けた基礎技術として今後開発が期待できます。 - メンテナンス性の向上
認識率を劣化させないで、認識する単語を追加できる技術をあわせて開発しました。新しい単語を追加する場合、新たに対象とする単語をテキストデータで入力する事で自動的に音声認識辞書に登録することができます。
従来の音声認識技術では、新しい単語を登録する場合、単語の発声データを収集し、学習されたデータを認識辞書に登録する必要がありました。従って、頻繁に認識対象単語が追加されるシステムにおいても、認識内容を容易に変更することができ、 運用時のメンテナンス性を向上させています。
- 不特定話者の認識
- 電話音声認識装置の概要
1台で電話回線を最大6回線同時に制御することができます。また、LAN(Ethernet)インターフェースを持っているので、音声認識サーバとしてクライアントサーバ型 システム、または装置だけでスタンドアロン型システムとして、システム規模に併せて自由に構成することができます。
電話音声認識装置の主な仕様項目 仕様 音声認識機能 認識単語数 最大同時1000単語 認識率 95%(1000単語認識時) 話者 不特定話者 発声形式 連続発声 音声応答機能 合成方式 編集合成方式 データ形式 μ−law符号化方式 音声登録 ライン入力による音声登録 回線制御 発着信 自動発信/着信 トーン検出 DTMFトーン(0〜9,#,*)検出機能 その他 I/F 電話回線I/F最大6回線、Ethernet 記憶装置 固定ディスク1GB,
3.5インチフレキシブルディスク外形寸法 185(W)×620(H)×500(D)mm 電源仕様 AC100 ±10% 300VA
- ニュースリリースについて
- ニュースリリースに掲載されている、サービス内容、サービス/製品の価格、仕様、お問い合わせ先、その他の情報は、発表日現在の情報です。その後予告なしに変更となる場合があります。また、ニュースリリースにおける計画、目標などは様々なリスクおよび不確実な事実により、実際の結果が予測と異なる場合もあります。あらかじめご了承ください。

