2-4-1 機械学習の扉

機械学習とは何か

昔のAIは、人に教えられて生きていました。
「もし熱があったら風邪」
「もしAならB」
人間が一つずつ決めたルールを、そのまま守る。これが、ルールベース手法です。
とても素直で、理由も説明できて、動きも予測しやすい。
ルールベースAIは、分厚いマニュアルを抱えて働く優等生。
でも、この子には弱点がありました。
現実は、例外だらけ。ルールは増え続け、やがて管理できなくなるのです。
しかも、「なんとなく」「空気的に」「経験的に」……そういう、人間の曖昧な判断は、ルールにできません。

そこで登場したのが、機械学習
今度は、教えない。
代わりに、「これが正解だよ」という例を、たくさん見せます。
写真、文章、数字。もりもり、山ほど見せます。
するとAIは、自分で気づき始めるのです。
「この形、よく出てくる」「この言葉の並び、怪しい」。
機械学習は、説明されなくても、経験から覚えるAI。

ここが決定的な違いです。
ルールベースは、人が考えて、AIが従う
機械学習はAIが見て、AIが学ぶ
だから機械学習は、ルール化できない問題、膨大なデータがある世界で、とても強い。
スパム判定も、画像認識も、翻訳も、この力で動いています。

ところが、機械学習にも、ちゃんと弱点があります。
それが、次元の呪い

たとえば、身長と体重だけなら、人を分類するのは簡単。
でも、身長、体重、年齢、血圧、心拍数、食事、睡眠、歩数、天気、気分……特徴が増えれば増えるほど、空間は一気に広がって、データは、スカスカになります。
AIは、「どこも遠い」「似ている点が見つからない」状態に陥ります。
これが、次元の呪いと呼ばれるものです。

だから機械学習は、大量のデータが必要、前処理が大事、特徴の選び方が重要……という、繊細な存在でもあるのです。
しかも、「なぜそう判断したか」を説明するのが、苦手。

ルールベースは、理由がわかるけど、柔軟じゃない。
機械学習は、柔軟だけど、理由が見えにくい。
そしてどちらも、万能じゃない。
この違いを受け入れたところから、第三次AIブームは始まります。

はじめは、たった二つの軸でした。
紙の上に点を打てば、人はそれぞれ違う場所に立つ。
近い人もいれば、遠い人もいる。
「似ている」という感覚が、ちゃんと見えます。

でも、軸を増やすとどうだろう。
軸は増えるたび、二次元は三次元に、世界はやがて四次元、五次元、十次元……と広がっていきます。
そして、ある瞬間に気づく。
「あれ、誰も近くにいない……」

みんな、遠い。

これが「次元の呪い」。
少し哲学的に言えば、世界を細かく分けすぎると、共通点は見えなくなる……。

人間も、そうかもしれません。
ラベルを増やし、属性を増やし、説明を増やしていくと、かえって「その人らしさ」が遠のいてしまうことがあります。
機械学習は、たくさんの軸の中で、似ているものを探そうとします。
でも軸が増えすぎると、距離という概念そのものが、意味を失うのです。
近いも遠いも、区別がつかなくなる。
世界が広がりすぎて、足場がなくなる。

わたしたちは、どれだけ世界を切り分ければ、本当に理解したことになるのだろう。

機械学習の背景

誰かが写真を撮る。誰かが検索する。誰かが買い物をする。誰かが短い言葉を投稿する。
その一つひとつは、とても小さな出来事。でも、それが毎日、何億回も積み重なっていきます。
気づけば、人類は自分たちの生活そのものを、丸ごと記録するようになっていました。
これが、ビッグデータ

第2次AIブームの頃、AIは待っていました。人間が知識を整理して、ルールを書いて、丁寧に教えてくれるのを。
でも第3次では、立場が逆になります。
人間はもう、全部を説明しません。
代わりに、こう言います。「これが正解だよ。あとは、たくさん見て覚えて」

写真の山。文章の海。行動ログの連なり。
AIは、それらを静かに眺めながら、よく出てくる形、繰り返される流れ、なんとなく似ている気配を、自分なりに見つけていきます。
誰にも説明されず、誰にも褒められず。ただ、世界を見続ける。
ここが、決定的な転換点。
昔は、「人間の知恵をどうAIに入れるか」が問題でした。
今は、「世界のデータをどうAIに見せるか」が問題になるのです。

機械学習が注目された理由は、AIが賢くなったからじゃなく。世界が、データで満ちたから。
センサーが増え、ネットが広がり、人の行動が記録されるようになって、ようやくAIは、「学べるほどの現実」を手に入れました。

第三次AIブームは、技術の進歩だけじゃなく、人間の暮らしそのものが生んだ波。
わたしたち一人ひとりの小さな行動が、機械学習の教科書になっていったのです。

機械学習の代表的な応用例

機械学習と聞くと、なんだか研究室の奥深くにあるものみたいに感じるけれど。
実はもう、わたしたちの日常のあちこちに溶け込んでいます。

スパムフィルタ —— 迷惑メールを見分けるAI

朝、メールを開いたとき。
怪しい広告メールが、ちゃんと「迷惑メール」フォルダに入っています。これ、当たり前みたいだけど、実はすごい。
機械学習は、どんな言葉が多いか、どんな文の形か、過去にスパムだった例を大量に見て、「これは怪しいかも」と判断している。
ルールで決めているのではありません。AIは「今までの例」から学習しているのです。
ここが、機械学習らしいところです。

レコメンデーションエンジン —— 「これ、好きそう」

動画サイトやネットショップで、「あなたへのおすすめ」って出てきますよね。これも、機械学習です。
あなたの過去の行動と、似た人たちの行動を重ね合わせて、「この人は、たぶんこれが好き」と予測しています。

レコメンドAIは、あなたの趣味を、そっと覚えている案内人。
完璧じゃないけど、ときどき、妙に当たる。
それは、膨大な「人の選択」を学んでいるからなのです。

統計的自然言語処理 —— 言葉を「確率」で読む

翻訳アプリや、検索の予測変換。これも機械学習の仲間です。
昔のAIは、文法ルールを一生懸命書いていました。
でも今は違います。大量の文章を読み込んで、この単語の次には何が来やすいか、この表現は、どう言い換えられやすいかを、確率で覚えています。
これが、統計的自然言語処理。

統計的自然言語処理は、言葉の流れを、空気みたいに感じ取るAI。
意味を理解しているわけじゃありません。でも、使われ方のクセは知っています。
だから、自然っぽい文章が作れるのです。

スパムフィルタも、レコメンドも、言葉を扱うAIも。
全部、世界のデータを見続けて、少しずつ覚えた結果です。
機械学習は、気づけばわたしたちの生活の中で、黙々と働いています。