1997年6月24日世界初の電話回線対応日本語連続音声認識エンジンパッケージ
CTIをターゲットにダイアロジック音声処理ボード対応の
音声認識エンジンを開発・販売
NTTデータ通信株式会社は、ダイアロジック社製の音声処理ボードに対応した
音声認識エンジンを開発し、平成9年10月1日より販売を開始します。
これは、NTTデータ通信のCTI(Computer Telephony Integration)向け製品「VOISTAGE (注釈)(ボイステージ)」で使用している音声認識エンジンを、CTI市場全体への音声認識技術の 普及を目的として、ダイアロジック社の音声処理ボードにも対応できるようにしたWindowsNT用 のDLL(Dynamic-Link Library)形式のソフトウエアライブラリであり、CTIシステムに容易に 音声認識機能を組み込むことができます。
この音声認識エンジンをCTIシステムに組み込むことにより、例えば、会員番号やメニュー 番号を入力する際にプッシュボタンのかわりに自分の声でも操作できるようになります。 0から9までの数字(1桁〜7桁の連続発声対応)および「はい」「いいえ」の認識が可能な 簡易版(4回線同時認識、標準価格128,000円)と、事前にテキスト登録した任意の言葉を認識 できる高機能版(標準価格未定、98年春販売開始予定)の2種類を用意しており、簡易版の 販売を先行して開始します。どちらも不特定話者の連続音声の認識が可能です。
この音声認識エンジンは多回線対応(マルチスレッド/マルチプロセス対応)DLLであり、それぞれの回線で同時に別の音声認識処理を行うことが可能です。また、ダイアロジック 音声処理ボードドライバと密接に連携しているため、CTIアプリケーション用の音声認識 エンジンとして最適です。
ダイアロジックシステムズ株式会社(代表取締役 小森茂)はこの音声認識エンジンについて NTTデータ通信と特約店契約を締結し、ソフトウエアパッケージとして全国へ販売を行います。 また、NTTデータ通信もVOISTAGE*のVAR(付加価値再販業者)を通じての販売も同時に行い、 平成11年度末までに約2,000本の販売を見込んでいます。
本製品は6月25日〜28日まで幕張メッセで開催されるComputer Telephony World Expo Tokyo *97 において、NTTデータ通信、ダイアロジックシステムズ両社のブースにて展示を 行います。
(注釈)VOISTAGETMはNTTデータ通信の商標です。
*WindowsNT*はマイクロソフト社の登録商標です。
これは、NTTデータ通信のCTI(Computer Telephony Integration)向け製品「VOISTAGE (注釈)(ボイステージ)」で使用している音声認識エンジンを、CTI市場全体への音声認識技術の 普及を目的として、ダイアロジック社の音声処理ボードにも対応できるようにしたWindowsNT用 のDLL(Dynamic-Link Library)形式のソフトウエアライブラリであり、CTIシステムに容易に 音声認識機能を組み込むことができます。
この音声認識エンジンをCTIシステムに組み込むことにより、例えば、会員番号やメニュー 番号を入力する際にプッシュボタンのかわりに自分の声でも操作できるようになります。 0から9までの数字(1桁〜7桁の連続発声対応)および「はい」「いいえ」の認識が可能な 簡易版(4回線同時認識、標準価格128,000円)と、事前にテキスト登録した任意の言葉を認識 できる高機能版(標準価格未定、98年春販売開始予定)の2種類を用意しており、簡易版の 販売を先行して開始します。どちらも不特定話者の連続音声の認識が可能です。
この音声認識エンジンは多回線対応(マルチスレッド/マルチプロセス対応)DLLであり、それぞれの回線で同時に別の音声認識処理を行うことが可能です。また、ダイアロジック 音声処理ボードドライバと密接に連携しているため、CTIアプリケーション用の音声認識 エンジンとして最適です。
ダイアロジックシステムズ株式会社(代表取締役 小森茂)はこの音声認識エンジンについて NTTデータ通信と特約店契約を締結し、ソフトウエアパッケージとして全国へ販売を行います。 また、NTTデータ通信もVOISTAGE*のVAR(付加価値再販業者)を通じての販売も同時に行い、 平成11年度末までに約2,000本の販売を見込んでいます。
本製品は6月25日〜28日まで幕張メッセで開催されるComputer Telephony World Expo Tokyo *97 において、NTTデータ通信、ダイアロジックシステムズ両社のブースにて展示を 行います。
(注釈)VOISTAGETMはNTTデータ通信の商標です。
*WindowsNT*はマイクロソフト社の登録商標です。
|
製品概要
|
- 高性能な不特定話者連続音声認識
不特定話者音声認識アルゴリズムを採用しており、ノイズや歪みの多い電話回線 においても高い認識性能を誇ります。また、各種高速化処理手法によりレスポンスの 良い認識応答を実現できます。不特定話者対応の音声認識モデルを使っているため、 ユーザごとに長時間発声して登録する必要はありません。
- 大語彙の認識が可能(高機能版)
高機能版において500単語程度の大語彙でも認識が可能です。 あらかじめ認識対象の語彙をテキスト登録し、付属の辞書構築ツールにより認識辞書を 作成することによりどんな言葉でも認識できるようになります。語彙の追加のために 長時間発声して登録する必要は一切ありません。
- マルチスレッド/マルチプロセス対応
同時に複数回線上で音声認識処理を行えるよう、マルチスレッド/マルチプロセス対応の 音声認識エンジンとなっています。今回提供するパッケージ(簡易版、高機能版とも)に おいては1台のサーバPC上に4つまでの音声認識インスタンスを生成します。音声認識 インスタンス生成時にダイアロジックの回線デバイスとリンクすることにより、相当する 回線からの音声を認識できるようになります。また、それぞれの音声認識インスタンスで 別の認識対象の認識処理を行うことが可能です。 同時認識可能な回線数は4までですが、音声認識インスタンスを複数の回線デバイスで 共有することによりサーバPC上のすべての回線で音声認識機能は利用可能です。
- ダイアロジックドライバと密接に連携するDLL
音声認識エンジンはDLL(Dynamic-Link Libraryとして実現されています。ダイアロジックの音声ボードドライバと密接に連携しており、ダイアロジックのドライバAPI(アプリケーションプログラミングインタフェース) のスタイルに対応したAPIとなっています。しかも簡単なAPIとして提供しているため、効率的に音声認識機能をアプリケーションプログラムに組み込むことが可能です。音声認識処理の非同期動作、認識処理終了などの通知メッセージのコールバックにも対応しています。
- 音声認識エンジン簡易版(標準価格128,000円、平成9年10月1日発売予定)仕様
・不特定話者の連続音声認識が可能
・同時認識単語/数字(1桁〜7桁の連続発声対応)、はい、いいえ (固定語彙)
・応答時間/発声終了検出から1秒以内
・回線対応/同時4回線
・推奨動作環境/
コンピュータ本体:IBM PC-AT互換機 Pentium*Pro200MHz以上
メモリ:32MB以上
OS:Microsoft Windows NT* 4.0
・対応音声処理ボード/
音声ボード:ダイアロジック社製D/21x, D/41x, VFX/4xシリーズ
音声ボードドライバ:Dialogic SR4.25SC for WindowsNT*またはそれ以上
・開発環境/ 本音声認識エンジンを利用したアプリケーションを開発するためには、 Microsoft Visual C++*などの開発 環境が別途必要です。
- 音声認識エンジン 高機能版(標準価格未定、平成10年春発売予定)仕様
・不特定話者の連続音声認識が可能
・同時認識単語/100〜500単語程度(事前に認識対象語彙をテキスト登録する必要あり)
・応答時間/同時認識単語数100の場合1秒程度
(認識対象語彙、PCの性能により変化します)
・回線対応/同時4回線
・推奨動作環境/
コンピュータ本体:IBM PC-AT互換機 Pentium*Pro200MHz以上
メモリ:64MB以上
OS:Microsoft Windows NT* 4.0
・対応音声処理ボード/
音声ボード:ダイアロジック社製 D/21x, D/41x, VFX/4xシリーズ
音声ボードドライバ:Dialogic SR4.25SC for WindowsNT*またはそれ以上
・開発環境/
本音声認識エンジンを利用したアプリケーションを開発するためには、 Microsoft Visual C++*などの開発環境が別途必要です。 *WindowsNT*、Visucal C++*はマイクロソフト社の登録商標です。 (参考)
|
会社概要
|
- ダイアロジック・コーポレーション
- (本社、米国ニュージャージー州パシパニー、President&CEO HowardBubb)
1983年設立以来、オープンプラットフォームにて構築されるシステムに対して全世界に
300万回線以上の出荷実績を持ち、高性能ならびに規格準拠のコンピュータ・テレフォニー(CT)
コンポーネントのトップ・メーカーである。
同社の製品によって構築されたコンピュータ・テレフォニー・システムは、世界中の有線及び 無線のコンピュータによって応答されるすべての電話、ファクシミリ及びマルチメディアの 1/3以上が稼動し続けている。また、ダイアロジックの製品は、音声、ファックス、データ、 音声認識、音声合成及びコール・センター管理のCTアプリケーションでも使用されている。
同社は本社以外に、東京およびベルギーのブリュッセルに支社を、世界の各地30の営業所を設け、 製品は100ヶ国以上の国々にて認定を受けている。 - ダイアロジックシステムズ株式会社 (東京、代表取締役 小森茂)
- 日本におけるCTI市場に対する営業ならびにサポートを中心としてビジネスを展開する一方 、アジア・パシフィック地域の統括本部としてシンガポールをはじめとする北京、香港、インド、 オーストラリア、ニュージーランド等の各営業所を管理している。
|
用語解説
|
- DLL
- Dynamic-Link Libraryの略。複数のアプリケーションが同時に使用できる関数の共有ライブラリとして
機能するバイナリファイル。ライブラリを多用する場合、複数のプログラムが同一のライブラリを別個に
持つのでは効率が悪い。そこで、プログラム実行時に、必要なDLLをリンクすることにより、
アプリケーションプログラムで占有するメモリーを抑制します。
- マルチスレッド/マルチプロセス
- プロセスは、プログラム実行時の基本的単位。スレッドは、オペレーティングシステムがCPU時間を
割り当てる基本要素。通常は、1つのプロセスは1つのスレッドから構成されていますが、
マルチスレッドでは、1つのプロセスが複数のスレッドから構成されます。複数のスレッドで
構成することにより、複数の処理を並行して実行することができます。本音声認識エンジンにおける、
マルチスレッド/マルチプロセス処理とは、複数のスレッド、および、複数のプロセスから同時に
音声認識処理を行うことをさします。
- インスタンス
- 一般的には特定のクラスのオブジェクトを指しますが、特にここでは音声認識処理の受け入れ 準備の整った受け口です。
- ニュースリリースについて
- ニュースリリースに掲載されている、サービス内容、サービス/製品の価格、仕様、お問い合わせ先、その他の情報は、発表日現在の情報です。その後予告なしに変更となる場合があります。また、ニュースリリースにおける計画、目標などは様々なリスクおよび不確実な事実により、実際の結果が予測と異なる場合もあります。あらかじめご了承ください。

