●NTT音声認識技術の最前線
NTTコミュニケーション科学基礎研究所 メディア情報研究部 グループリーダ 中村 篤さん
音声認識
10-15年前:ヘッドセット、マイクロフォン、一人、発話スタイルは朗読
認識率:85%くらい
超高速音声認識エンジン
音声認識基礎技術→音声コミュニケーションを「ことば」に書き下す技術
重み付き有限状態トランスデューサー
WFST型音声認識
WFSTによって→エンジン軽量化、複数モデルを統合・知識源全体を再整理→素早く動く、探しやすい
http://ocw.mit.edu
音声区間検出技術→マルコフモデル
雑音抑圧技術
雑音は主観的
人による
こういう音を消すのではなく、空間的な雑音を除去する
同時発音
「多様な環境下での音信号の音響・音声言語的解釈」技術へ
組み込みでも全然いける
軽い
処理量が非常に小さい
同時翻訳
●音声認識応用アプリの現状と未来
NTTサイバースペース研究所 音声言語メディア処理プロジェクト グループリーダ 高橋 敏さん
NTT音声認識エンジン
VoiceRex
・音声インタフェース
・ディクテーション
・音声マイニング
大量の音声コンテンツからの情報抽出機能
コールセンター向け
株価
音声による端末入力
分散型音声認識
クライアントサーバ型
音声カーナビ
ハンズフリー
アイズフリー
マルチモーダル音声対話エージェント
Webサイトと連動した音声対話店舗検索システム
テレビ字幕作成支援システム
音声議会録作成支援システム
方言に対応するには、方言の辞書を作る必要がある
はしと橋 トーンの情報は使っていない
複数の大学に、ジョギラス?というソフトを提供している
●World Mobile Congress 2010レポート
スマートフォンばかり。エントリーモデルまで。
Android対応ハード、ソフト、サービスが目白押し。というかAndroid対応当たり前。
Samsungもアプリケーションマーケットを開始。
日本の出展者元気ない
でも、出展内容を見ると極端に差はない(ただしソフトウェアとサービス)
バルセロナ(Barcelona)
・基調講演
エリックシュミット登場
ソニエリブース
XPERIA (ペリエ)
HTC (REGEND, DESIRE)
サムソン(Wave)
ソフトウェア編
Bluestreak (モバイルTV)
Orange (フランスのキャリア
Adobe
Skype
App Planet