特徴量
AIにとって、世界はそのままだと少しぼんやりしています。
写真も、文章も、数字も、ただ並んでいるだけでは「意味」になりません。
そこで人間は、こう考えました。「この中の、どこを見ればいい?」
たとえば、りんごを見分けたいとき。
色。大きさ。丸さ。重さ。
こういった「注目ポイント」を抜き出します。
これが、特徴量。
教師あり学習では、
入力(特徴量)──正解(教師データ)
このペアを何度も見せて、「この特徴の組み合わせのときは、こうなる」と覚えさせます。
たとえばスパムメール。特徴量は、「特定の単語が多いか」「!マークの数」「URLの有無」みたいなもの。
これらを材料にして、「これはスパムっぽい」と判断できるようになります。
ここで大切なのは、AIは特徴量しか見ていないということ。
文章の気持ちも、写真の空気感も、人の表情のニュアンスも、全部いったん、数値化された特徴量に変換されてから学ばれます。
だから、どんな特徴を選ぶかで、AIの見える世界は変わってしまいます。
良い特徴を選べば賢くなるし、ずれた特徴を選べば迷子になる。
そしてここが、ディープラーニングとの大きな違いにつながります。
古典的な機械学習では、この特徴量を人間が考えていました。
でもディープラーニングは、そこさえAIに任せ始めたのです。
わたしたち人間も、実は「特徴量」で世界を見ています。
声のトーン。表情の変化。言葉の選び方。
何を大事だと思うかによって、同じ現実でも、見え方は変わる……。
AIの特徴量は、その縮図なのかもしれません。
教師データ
特徴量が「ここを見てね」というメモだとしたら、教師データは、「これが答えだよ」という、指さし。
たとえば、りんごの写真。
特徴量は、色、形、大きさ……。
教師データは、「これは、りんご」というラベル。
教師あり学習では、
入力(特徴量)──出力(正解ラベルや数値)
このペアを、何千回、何万回と見せます。
AIはその中から、「こういう特徴のときは、こうなる」という関係を、少しずつ覚えていくのです。
たとえばスパムメールなら、
このメール → スパム
このメール → 普通
たとえば家の価格なら、
この条件 → 3000万円
この条件 → 2800万円
こうして、正解例を積み重ねます。
ここで大事なのは、教師データは、人間が用意しているということ。
誰かが一つひとつ、「これは正しい」「これは違う」と判断して、ラベルをつけている。
だから教師データは、多いほどいい。正確なほどいい。偏りが少ないほどいい……でも集めるのは、とても大変。時間も、お金も、人の手も必要。
ここが、教師あり学習の現実的な壁でもあります。
分類問題と回帰問題
教師あり学習でAIがやっていることは、大きく分けると、たった二つ。
分けることと、予測すること。
それが、「分類」と「回帰」です。
まずは、分類。
分類は、「これは、どの仲間?」とたずねる学習。
たとえば、このメールは → スパム?ふつう? この写真は → 猫?犬? このお客さんは → 購入しそう?しなさそう?
あらかじめ決まっている箱の中に、AIがそっと入れていく。
白か黒か。AかBか。いくつかの選択肢の中から、いちばんそれらしい答えを選ぶのです。
次に、回帰。
こちらは、「だいたい、いくつくらい?」を当てる学習。
たとえば、家の値段はいくら? 明日の気温は? 売上はどれくらいになりそう?
答えは、数字。
しかも連続的。
3000万円。23.4度。152万円。
きっちりした箱はなくて、なめらかな線の上を予測します。
同じ教師あり学習でも、問いの形が違うだけで、AIの役割も変わります。