●NTT音声認識技術の最前線 NTTコミュニケーション科学基礎研究所 メディア情報研究部 グループリーダ 中村 篤さん 音声認識 10-15年前:ヘッドセット、マイクロフォン、一人、発話スタイルは朗読 認識率:85%くらい 超高速音声認識エンジン 音声認識基礎技術→音声コミュニケーションを「ことば」に書き下す技術 重み付き有限状態トランスデューサー WFST型音声認識 WFSTによって→エンジン軽量化、複数モデルを統合・知識源全体を再整理→素早く動く、探しやすい http://ocw.mit.edu 音声区間検出技術→マルコフモデル 雑音抑圧技術 雑音は主観的 人による こういう音を消すのではなく、空間的な雑音を除去する 同時発音 「多様な環境下での音信号の音響・音声言語的解釈」技術へ 組み込みでも全然いける 軽い 処理量が非常に小さい 同時翻訳 ●音声認識応用アプリの現状と未来 NTTサイバースペース研究所 音声言語メディア処理プロジェクト グループリーダ 高橋 敏さん NTT音声認識エンジン VoiceRex ・音声インタフェース ・ディクテーション ・音声マイニング 大量の音声コンテンツからの情報抽出機能 コールセンター向け 株価 音声による端末入力 分散型音声認識 クライアントサーバ型 音声カーナビ ハンズフリー アイズフリー マルチモーダル音声対話エージェント Webサイトと連動した音声対話店舗検索システム テレビ字幕作成支援システム 音声議会録作成支援システム 方言に対応するには、方言の辞書を作る必要がある はしと橋 トーンの情報は使っていない 複数の大学に、ジョギラス?というソフトを提供している ●World Mobile Congress 2010レポート スマートフォンばかり。エントリーモデルまで。 Android対応ハード、ソフト、サービスが目白押し。というかAndroid対応当たり前。 Samsungもアプリケーションマーケットを開始。 日本の出展者元気ない でも、出展内容を見ると極端に差はない(ただしソフトウェアとサービス) バルセロナ(Barcelona) ・基調講演 エリックシュミット登場 ソニエリブース XPERIA (ペリエ) HTC (REGEND, DESIRE) サムソン(Wave) ソフトウェア編 Bluestreak (モバイルTV) Orange (フランスのキャリア Adobe Skype App Planet