6-3-1 音声処理とは何か

人の声は、ふしぎです。
同じ「ありがとう」でも、うれしそうに聞こえることもあれば、急いでいるように聞こえることもある、少し怒っているように響くこともあります。
しかも私たちは、その声を聞くだけで、何と言ったのか、誰が話したのか、どんな気持ちなのかを、かなり自然に感じ取っています。

でも機械にとって、声は最初から意味のあるものではありません。
ただ空気の揺れが時間の流れの中で続いているだけです。

その揺れの中から、

・話された言葉
・話し手の特徴
・感情の手がかり

を取り出そうとするのが、音声処理です。

ひとことで言えば、音声処理とは、人の声や音を、機械が聞いて、区別し、必要なら言葉や情報として扱えるようにする技術なのです。

音声処理の仕事は、一つではありません。
たとえば、スマートフォンに向かって「明日の天気は？」と話しかける場面を考えてみましょう。
このとき機械は、まず、声を音として受け取ります。
でも、それだけでは足りません。

そこからさらに、

「明日の天気は？」という言葉の内容を取り出す→ 音声認識
その声が誰のものかを見分ける→ 話者識別
声の調子から、怒っているのか落ち着いているのかを読む→ 感情分析
必要なら、逆に機械の側が声を作って返す→ 音声合成

というように、いろいろな仕事が重なっています。

つまり音声処理とは、単に「音を聞く」技術ではなく、声を、言葉や人物や感情へと読みほどいていく技術だと言えます。

音声認識

音声処理の中でも、いちばんわかりやすいのが音声認識です。
これは、人が話した声を聞いて、それを文字や単語として取り出す技術です。

たとえば、

・スマホの音声入力
・動画の字幕生成
・会議の文字起こし
・スマートスピーカーへの呼びかけ

などで使われています。

ここで機械がしなければならないのは、ただ音を録音することではありません。
「おはようございます」という声の流れの中から、これは『お・は・よ・う』という音の並びで、全体として『おはよう』という言葉だと見きわめる必要があります。
つまり音声認識は、音をことばとして受け取る仕事なのです。

音声合成

音声処理は、聞くだけではありません。
声を作ることもできます。これが音声合成です。
音声合成では、文字や文章をもとに、人が話しているような音声を作ります。

たとえば、

・カーナビの案内音声
・読み上げソフト
・動画やアプリの音声案内
・AIアシスタントの返答音声

などです。

昔の音声合成は、少し機械的で硬い響きのものも多かったけれど、今では自然なイントネーションや滑らかさを持つものも増えています。
つまり音声合成は、文字を声へ変える仕事だと言えます。

音声認識が「声→文字」なら、
音声合成は「文字→声」。
この二つは、ちょうど反対向きの関係にあります。

話者識別

音声処理では、「何を言ったか」だけでなく、誰が言ったかを知りたいこともあります。
それが話者識別です。

たとえば、同じ「はい」という一言でも、

・母の声
・先生の声
・自分の声

では、声の高さや響き方、癖が違いますよね。

話者識別では、そうした特徴から、この声は誰のものかを見分けます。
これは、音声による本人確認や、録音データの話者分離などにも使われます。
ここでは機械は、言葉の意味そのものよりも、声の持ち主らしさに注目しているのです。

感情分析

さらに音声からは、話し手の感情の手がかりを読むこともできます。

たとえば同じ「大丈夫です」でも、

・本当に落ち着いている声
・無理している声
・いらだっている声

では、受ける印象が違いますよね。

これは、言葉の意味そのものだけではなく、

・声の高さ
・強さ
・速さ
・抑揚

のようなものが変わるからです。

音声の感情分析では、そうした違いを手がかりにして、この声には、どんな気持ちがにじんでいるかを読み取ろうとします。
つまり音声処理は、言葉の内容だけでなく、言い方の中にある感情まで扱おうとする技術でもあるのです。

音素

音声処理を学ぶとき出てくる大事な言葉の一つが、音素です。
音素は、ざっくり言うと、言葉を区別するための、音の最小単位です。
少しかたく聞こえるけれど、意味としては、言葉を作る小さな音の部品と考えるとわかりやすいです。

たとえば、

かき
たき
まき

を比べると、最初の音が違いますよね。
そして、その違いによって、別の言葉になります。

つまり日本語では、

「か」と「た」は違う
「た」と「ま」も違う

という音の違いが、ちゃんと意味の違いにつながっています。
こうした、音を入れ替えると、別の言葉になるような小さな音の単位を考えるとき、音素という考え方が出てきます。

たとえるなら、音素はレゴの一つひとつの部品のようなものです。
部品を一つ入れ替えると、できあがる形が変わる。
それと同じように、音素を一つ入れ替えると、言葉が変わることがあるのです。

だから音声認識では、声の流れをただ聞くだけではなく、その中にどんな音素の並びがあるのかを捉えることが大切になります。
まずは、音素は、言葉を区別するための音の部品とつかんでおくと入りやすいです。

音韻

ここで、もう一つ似た言葉が出てきます。
それが音韻です。
音素と音韻は、かなり近いところにある言葉なので、最初は混ざりやすいです。
でも、見ている向きが少し違います。

音素が言葉を区別する小さな音の部品だとすれば、音韻はその部品が、その言語の中でどのように働いているかを見る考え方です。

たとえば、

かき
たき

では、最初の音が違うことで、別の言葉になりますよね。
このように、日本語では「か」と「た」の違いが、意味の違いに関わっています。

一方で、同じ「か」でも、

声の高い人の「か」
低い声の人の「か」
少し早口の「か」

のように、細かい発音の違いはあります。
でも私たちは、それらをたいてい同じ「か」として聞き取ります。

つまり人は、音の細かな物理的な違いをそのまま全部区別しているわけではなく、その言語の中で、どの違いが意味の違いに関わるのかを手がかりにして音を聞いているのです。
この「音を、ことばの仕組みとして見る」考え方が、音韻です。

たとえるなら、

音素→ レゴの一つひとつの部品
音韻→ その部品が、どんなルールで組み合わさって言葉を作るかという仕組み

のようなものです。だから、まずは、音素は音の部品、音韻は音の仕組みくらいに考えると入りやすいです。

ここは、混ざりやすいから、もう一度整理しておきましょう。

音素
→ 言葉の違いを生み出す、音の最小単位
→ 「か」と「た」が違えば別の言葉になる、みたいな話

音韻
→ その言語の中で、音がどういう仕組みで働いているか
→ 音を“ことばのルール”として見る考え方

まとめ

ここまで見てくると、音声処理は単なる音の分析ではないことがわかります。
機械はまず、ただの空気の揺れとして声を受け取ります。
でもそこから、

・どんな音の並びか
・どんな言葉か
・誰の声か
・どんな気持ちか
・どう返事の声を作るか

を少しずつ読み取っていく。

つまり音声処理とは、声という連続した波の中から、人にとって意味のある情報を取り出す技術なのです。

音声認識→ 声を文字や言葉として受け取る
音声合成→ 文字や文章から声を作る
話者識別→ 誰の声かを見分ける
感情分析→ 声の中の気持ちを読む
音素→ 言葉を区別するための、音の小さな部品
音韻→ 音が言葉の中でどう働くかを見る仕組み

next ▶　機械にとって、音とは何か