ここまでで見てきた音声処理の技術は、ただ「音を分析する」ためだけにあるわけではありません。
・声を文字にする
・文字を声にする
・誰の声かを見分ける
・声の調子から気持ちを読む
こうした力は、すでに私たちの暮らしや仕事のいろいろな場面で使われています。
声は、文字よりもずっと身近です。
手がふさがっていても使えるし、その場ですぐ伝えられるし、感情や個人らしさもにじみます。
だから音声処理とは、声の中にある情報を取り出して、人のことばの仕事を助ける技術だと言えます。
では、実際にどんな場面で使われているのでしょうか。
音声認識
いちばん身近なのは、やはり音声認識です。
たとえば、
・スマートフォンの音声入力
・スマートスピーカーへの呼びかけ
・会議の文字起こし
・動画の字幕生成
・車の音声操作
などです。
私たちはふだん、キーボードを打たなくても、「明日の天気を教えて」「この文章を書き取って」「○○に電話して」のように、声で機械に頼めるようになってきました。
ここで機械がしているのは、単に音を録音することではありません。
この声は、どんな言葉として話されたのか、を読み取って、必要なら文字にし、必要なら命令として理解することです。
たとえば会議の文字起こしでは、人が話した内容をその場で文章にしていきます。
これは、議事録づくりをかなり助けてくれますよね。
また、運転中や料理中のように、手で入力しにくい場面でも、音声認識はとても役立ちます。
つまり音声認識は、声を、機械が扱えることばや指示に変える技術として、日常の便利さを大きく支えているのです。
音声合成
音声処理は、聞くだけではありません。
声を作って返すこともできます。これが音声合成です。
身近な例でいえば、
・カーナビの案内音声
・読み上げソフト
・駅や施設の自動案内
・スマートスピーカーの返答
・動画やアプリのナレーション
などがあります。
ここでは、文字や文章の情報をもとにして、機械が人にわかる声を作ります。
音声合成が便利なのは、人がいつも画面を見られるとは限らないからです。
たとえば、
・運転中は画面をじっと見られない
・視覚に障害のある人には読み上げが助けになる
・作業中は耳から案内されたほうが楽
ということがあります。
昔の音声合成は、どこか機械っぽい平坦な声のことも多かったけれど、今ではかなり自然な抑揚や滑らかさを持つものも増えてきました。
つまり音声合成は、文字の情報を、耳で受け取れることばに変える技術として、人に情報を届ける役割を担っているのです。
話者識別
音声処理では、話の内容だけでなく、誰が話したのかを知りたいこともあります。
これが話者識別です。
たとえば、
・音声による本人確認
・コールセンターでの話者判別
・複数人の会話データの整理
・録音データの中で誰が話しているかの区別
などに使われます。
同じ「はい」という一言でも、
・声の高さ
・響き方
・話し方の癖
・声道の特徴
によって、人それぞれ少しずつ違いますよね。
話者識別は、そうした特徴から、この声は誰のものかを見分けようとします。
たとえるなら、電話越しでも「この声はあの人だ」とわかることがありますよね。
人は無意識にそれをしています。機械もそれに近いことをしようとしているのです。
この技術は、セキュリティや本人認証にも役立ちますし、長い会議録音の中で「ここからは別の人が話している」と分ける助けにもなります。
つまり話者識別は、声の内容ではなく、声の持ち主らしさを見分ける技術なのです。
感情分析の実用
声には、ことばの意味だけでなく、気持ちの揺れも含まれています。
同じ「ありがとうございます」でも、
・心から感謝しているように聞こえることもあれば
・急いでいて機械的に聞こえることもある
・少し怒っているように響くこともある
よね。
ここに注目するのが、音声の感情分析です。
感情分析では、
・声の高さ
・抑揚
・強さ
・速さ
・間の取り方
などを手がかりにして、この声にはどんな感情が含まれていそうかを読み取ろうとします。
たとえば、
・コールセンターでお客さんが強く不満を抱いていないかを見る
・対話システムが相手の困り具合を推測する
・教育や福祉の場で、声の変化を手がかりに状態を把握する
といった活用が考えられます。
もちろん、感情はとても繊細で、声だけですべてがわかるわけではありません。
でも、ことばの意味だけでは見えにくい部分を補う手がかりとして、音声の感情分析は重要になっています。
つまり感情分析は、声の言い方の中ににじむ気持ちを読む技術だと言えます。
まとめ
こうして見てみると、音声処理はとても幅広い仕事をしています。
・声を聞いて文字にする
・文字を声にして返す
・誰の声かを見分ける
・声の中の気持ちを読む
つまり音声処理は、人が声を使ってしている仕事を、一部助けたり、広げたりする技術なのです。
しかもその働き方は、ただ人の代わりになるというより、
・入力しやすくする
・情報を受け取りやすくする
・本人確認を助ける
・気持ちの手がかりを補う
というように、人のことばのやりとりを少しなめらかにする方向で役立っていることが多いです。
next ▶ 強化学習アルゴリズムの進化