音声認識から音声が必要なくなる!? 頭で考えた言葉を認識するデバイスを開発 By - 土屋 夏彦 公開:2018-04-18 更新:2018-05-24 スピーカー人工知能(AI) Share Post LINE はてな コメント 米マサチューセッツ工科大学(MIT)は、実際に発声せずに『脳内で』しゃべるだけで音声認識ができる『無発声音声認識システム』の『AlterEgo(アルターエゴ)』を開発したと発表しました。 しくみは、耳からあごにかけて装着するウェアラブルデバイスで、頭のなかで言葉を発声すると、声が実際に出なくても耳からあごあたりの筋肉が動くので、筋肉が動いた際の微弱な電気信号をとらえ、それを何度も繰り返し学習させたAI(人工知能)が文字などに変換するというもの。 発表論文によれば、近年の音声認識方法の進歩により、ユーザは自然言語で音声認識デバイスと対話することがどんどんできるようになっているとあります。 すなわちここ最近注目されている音声アシスタント、例えば、SiriやAlexaやCortanaなどが自然音声による会話を容易にしてくれているというわけです。 これらの音声認識デバイスには、スマートウェア、専用ハードウェアスピーカー(Google Home、Amazon Echoなど)、ソーシャルロボットなども含まれるそうなんですが、ただこれらのデバイスはすべて、堅牢な音声認識による会話はできても、共通の制限があるというのです。現在の音声インタフェースにおける主な問題点とは…。 会話のプライバシーが保護されていない:これらのデバイスを介して会話する際には、声を出すしかありません。したがって、ユーザのプライバシーは維持されません。 盗聴される可能性:音声認識デバイスは、常に認識状態のため、特定のトリガーワード(例えば『OK Google』など)がきっかけで会話を常に聞き取ります。つまり会話を盗聴するきっかけが分かってしまうというわけです。 インパーソナルなデバイス:これらのデバイスはスマートフォンのように個人の持ち物ではなく、共有物となります。 これらの問題点から、現在の音声対話デバイスは、デバイスとしてのユーザビリティが低く、個人同士の会話などには活用するわけにはいかなかったというのです。 そこで考えられたのが今回の『無発声音声認識システム』の『AlterEgo(アルターエゴ)』となるわけです。 『AlterEgoは、個々に着用可能なサイレントスピーチインターフェイスを提供。これにより、ユーザは、認識可能な筋肉の動きや声を出すことなく、自然言語を使用してコンピューティングデバイスまたはその他の人々にテキスト形式で提供することができます。 ユーザが観察可能な動作を何もせずに、自然言語で会話(テキストによる通信)することを可能にするため、以下の3つの機能が開発されました。 双方向性のための新しい着用可能なアーキテクチャを紹介するサイレントスピーチ機能 無声音を検出するために必要な神経筋入力機能 神経情報に基づいた音声認識の実行プラットフォームおよびインタフェース機能 実験用のシステムで10人にテストしたところ、92%の認識率で頭の中のことばが正しく変換されたそうです。 ただこれからの開発においては、まだまだ多くの課題が残っているといいます。特に完全にサイレントスピーチの状態を提供できるようにするための課題としては、より多くのデータを学習させ、ユーザに依存しないより一般化されたマルチユーザシステムにできるか。そして広範な語彙を理解できるようにシステムを拡張させられるか。さらには現実の生活環境における日々のシナリオを縦断的にテストしていけるかに懸かっているそうです。 開発者によれば、今回の『無発声音声認識システム』の活用によって、発声に障がいを持つ人のアシストを始め、騒音環境下で会話をする必要がある空港や印刷会社、戦闘機のパイロット、消防隊員などに大いに利用が見込まれるといいます。 そしてさらには、今後人間の知能を拡張して行く中、あくまで日々の生活の中での自然な人間と機械の共生を可能にするためにはどのようなことが必要になっていくのかが分かるのではないかということです。こうしたところでもAIの学習機能が生かされているんですね。 [文・構成 土屋夏彦] 土屋夏彦 上智大学理工学部電気電子工学科卒業。 1980年ニッポン放送入社。『三宅裕司のヤングパラダイス』『タモリのオールナイトニッポン』などのディレクターを務める傍ら、『十回クイズ』『恐怖のやっちゃん』『究極の選択』などベストセラーも生み出す。2002年ソニーコミュニケーションネットワーク(現ソニーネットワークコミュニケーションズ株式会社)に転職。コンテンツ担当ジェネラルプロデューサーとして衛星放送 『ソネットチャンネル749』(現アジアドラマチックTV★So-net)で韓国ドラマブームを仕掛け、オンライン育成キャラ『Livly Island』では日本初の女性向けオンラインで100万人突破、2010年以降はエグゼクティブプロデューサー・リサーチャーとして新規事業調査を中心に活動。2015年早期退職を機にフリーランス。記事を寄稿する傍ら、BayFMでITコメンテーターとしても出演中、ラジオに22年、ネットに10年以上、ソーシャルメディア作りに携わるメディアクリエイター。 出典 AlterEgo: Interfacing with devices through silent speech/MIT Media Lab/ Share Post LINE はてな コメント
米マサチューセッツ工科大学(MIT)は、実際に発声せずに『脳内で』しゃべるだけで音声認識ができる『無発声音声認識システム』の『AlterEgo(アルターエゴ)』を開発したと発表しました。
しくみは、耳からあごにかけて装着するウェアラブルデバイスで、頭のなかで言葉を発声すると、声が実際に出なくても耳からあごあたりの筋肉が動くので、筋肉が動いた際の微弱な電気信号をとらえ、それを何度も繰り返し学習させたAI(人工知能)が文字などに変換するというもの。
発表論文によれば、近年の音声認識方法の進歩により、ユーザは自然言語で音声認識デバイスと対話することがどんどんできるようになっているとあります。
すなわちここ最近注目されている音声アシスタント、例えば、SiriやAlexaやCortanaなどが自然音声による会話を容易にしてくれているというわけです。
これらの音声認識デバイスには、スマートウェア、専用ハードウェアスピーカー(Google Home、Amazon Echoなど)、ソーシャルロボットなども含まれるそうなんですが、ただこれらのデバイスはすべて、堅牢な音声認識による会話はできても、共通の制限があるというのです。現在の音声インタフェースにおける主な問題点とは…。
会話のプライバシーが保護されていない:
これらのデバイスを介して会話する際には、声を出すしかありません。したがって、ユーザのプライバシーは維持されません。
盗聴される可能性:
音声認識デバイスは、常に認識状態のため、特定のトリガーワード(例えば『OK Google』など)がきっかけで会話を常に聞き取ります。つまり会話を盗聴するきっかけが分かってしまうというわけです。
インパーソナルなデバイス:
これらのデバイスはスマートフォンのように個人の持ち物ではなく、共有物となります。
これらの問題点から、現在の音声対話デバイスは、デバイスとしてのユーザビリティが低く、個人同士の会話などには活用するわけにはいかなかったというのです。
そこで考えられたのが今回の『無発声音声認識システム』の『AlterEgo(アルターエゴ)』となるわけです。
『AlterEgoは、個々に着用可能なサイレントスピーチインターフェイスを提供。これにより、ユーザは、認識可能な筋肉の動きや声を出すことなく、自然言語を使用してコンピューティングデバイスまたはその他の人々にテキスト形式で提供することができます。
ユーザが観察可能な動作を何もせずに、自然言語で会話(テキストによる通信)することを可能にするため、以下の3つの機能が開発されました。
実験用のシステムで10人にテストしたところ、92%の認識率で頭の中のことばが正しく変換されたそうです。
ただこれからの開発においては、まだまだ多くの課題が残っているといいます。特に完全にサイレントスピーチの状態を提供できるようにするための課題としては、より多くのデータを学習させ、ユーザに依存しないより一般化されたマルチユーザシステムにできるか。そして広範な語彙を理解できるようにシステムを拡張させられるか。さらには現実の生活環境における日々のシナリオを縦断的にテストしていけるかに懸かっているそうです。
開発者によれば、今回の『無発声音声認識システム』の活用によって、発声に障がいを持つ人のアシストを始め、騒音環境下で会話をする必要がある空港や印刷会社、戦闘機のパイロット、消防隊員などに大いに利用が見込まれるといいます。
そしてさらには、今後人間の知能を拡張して行く中、あくまで日々の生活の中での自然な人間と機械の共生を可能にするためにはどのようなことが必要になっていくのかが分かるのではないかということです。こうしたところでもAIの学習機能が生かされているんですね。
[文・構成 土屋夏彦]
土屋夏彦
上智大学理工学部電気電子工学科卒業。 1980年ニッポン放送入社。『三宅裕司のヤングパラダイス』『タモリのオールナイトニッポン』などのディレクターを務める傍ら、『十回クイズ』『恐怖のやっちゃん』『究極の選択』などベストセラーも生み出す。2002年ソニーコミュニケーションネットワーク(現ソニーネットワークコミュニケーションズ株式会社)に転職。コンテンツ担当ジェネラルプロデューサーとして衛星放送 『ソネットチャンネル749』(現アジアドラマチックTV★So-net)で韓国ドラマブームを仕掛け、オンライン育成キャラ『Livly Island』では日本初の女性向けオンラインで100万人突破、2010年以降はエグゼクティブプロデューサー・リサーチャーとして新規事業調査を中心に活動。2015年早期退職を機にフリーランス。記事を寄稿する傍ら、BayFMでITコメンテーターとしても出演中、ラジオに22年、ネットに10年以上、ソーシャルメディア作りに携わるメディアクリエイター。