音声認識とは・AI関連用語集

音声認識とは、意味や概念を詳しく解説

menu

×AI

AI用語事典

音声認識

speech recognition

音声認識は、人工知能の世界では主に「コンピューターに人の声を認識させる」技術として使われる言葉である。人間が本能的に可能な脳内活動をコンピューターに行わせるための自然情報処理「パターン認識」のひとつとされ、処理した声をテキスト(文字列)として変換したり、声を発している相手が誰なのか聞き分けたりすることを主な目的とする。

こう書くとスマートフォンに話しかければ必要な情報を知らせてくれる「Siri」や、呼びかけることで家電操作やネット通販などが可能な「アレクサ」といった音声アシストアプリを思い描く人も多いだろう。これらは音声を認識し、それを処理してクラウド上などへ送信。そこからその回答をデータとして受け取り、音声として発信している。

ペッパーくんの愛称で知られるソフトバンクの「Pepper」をはじめ、昨今身近になりつつあるのが人間の音声を理解し、コミュニケーションが取れる「スマートロボット」だ。これも、音声認識の技術向上がもたらしたAIだと言える。音声認識は他にも講演会やインタビューなどの内容のテキスト化や、カスタマーセンターの電話対応などでも注目されており、今後より一層の活用が期待される。

音声というと、初音ミクをはじめとした「ボーカロイド」を思い浮かべる人もいるかもしれない。こちらは「音声合成」という言葉で明確に区別されており、別物だ。コンピューターに人と同じような声を出させる、と考えれば関連があるような気もするが、音声認識はあくまでも受動的な技術であり、自ら発話するものではない。

もっとも、2017年にボーカロイドを開発したヤマハが人工知能を活用した製品を開発。作曲して歌う能動的な音声合成を可能にした。どんなものにも応用できるAIだけに当然の成り行きといえ、だからこそAIは、そのものの研究もちろんだが、同時にいかに実用できるかが重要かということでもある。

AI用語解説:×AI編集部監修

AI用語を調べる

アイウエオ索引

アルファベット索引

AI用語事典TOPに戻る