ここまで見てきた画像認識の技術は、ただ試験のためにある言葉ではありません。
「何が写っているのかを見分ける」
「どこにあるのかを見つける」
「どの部分なのかを塗り分ける」
「どういう姿勢をしているのかを捉える」
そうした力は、すでに私たちの暮らしのいろいろな場所で使われています。
しかも画像認識は、ただ写真を「眺める」だけの技術ではありません。
写真や映像の中から、意味のある情報を取り出して、人の仕事を助ける技術だと言えます。
では、どんな場面で使われているのでしょうか。
スマートフォンの顔認証
いちばん身近な例の一つが、スマートフォンの顔認証です。
スマホを手に持って顔を向けると、すっとロックが解除される。
これも画像認識の応用です。
ここでは単に「顔がある」とわかればよいのではなく、
・顔の位置
・目や鼻や口の配置
・本人らしい特徴
などを見ながら、この顔が登録された本人かどうかを判断しています。
つまり顔認証は、画像認識の中でもとくに物体識別や顔の特徴抽出の力が活かされている例だと言えます。
私たちはつい「便利だな」で済ませてしまうけれど、機械にとっては、顔の中の微妙な違いを読み取る繊細な仕事なのです。
自動運転
画像認識の応用として、象徴的なのが自動運転です。
車が安全に走るためには、カメラ映像の中からたくさんの情報を理解しなければなりません。
たとえば、
・前に車がいる
・横断歩道がある
・歩行者がいる
・信号が赤になっている
・どこが道路で、どこが歩道か
といったことです。
ここでは、これまで見てきたタスクがいくつも重なっています。
物体検出→ 車や歩行者や標識を見つける
セマンティックセグメンテーション→ 道路、歩道、建物などを塗り分ける
インスタンスセグメンテーション→ 人や車を一つひとつ分ける
つまり自動運転は、画像認識の「総合問題」みたいな世界なのですね。
車はただ前を見ているのではなく、道路という場面そのものを読んでいるとも言えます。
医療画像診断
医療の世界でも、画像認識はとても重要です。
たとえば、
・レントゲン画像
・CT画像
・MRI画像
・病理画像
などの中から、
・病変らしい部分
・腫瘍の位置
・臓器の境界
を見つける手助けに使われています。
ここでは、物体検出も使われますし、セグメンテーションもとても大切です。
たとえば腫瘍の診断では、「病変があるかどうか」だけでなく、「どこからどこまでが病変か」を知りたいことがあります。
そういうとき、画像の中を細かく塗り分けられるセグメンテーションはとても役立ちます。
もちろん、医療では最終判断を人が行うことが大切ですが、画像認識は、人の見落としを減らしたり、確認を助けたりする「もう一つの目」として期待されています。
工場の外観検査
工場でも、画像認識はよく使われています。
たとえば製品をカメラで撮影して、
・傷がある
・欠けている
・汚れがついている
・部品がずれている
といった異常を見つけるのです。
人の目で一つひとつ確認するのは大変だし、長時間続けると疲れてしまいますよね。
画像認識を使うと、同じ基準で繰り返し見続けることができるので、外観検査の自動化に役立ちます。
ここでは、
・正常と異常の識別
・欠陥部分の検出
・異常領域のセグメンテーション
などが活躍します。
つまり画像認識は、工場で製品を「ちゃんとできているか」確認する厳しい検査員のような役割も担っているのです。
監視カメラと異常検知
監視カメラも、昔は「映して記録する」ことが中心でした。
でも画像認識が入ると、ただ録画するだけではなく、
・人が何人いるか
・危険な場所に立ち入っていないか
・不自然な動きがないか
・置き去りの荷物がないか
といったことを読み取れるようになります。
ここでは物体検出や姿勢推定、場合によっては行動認識につながる技術も関わってきます。
たとえば駅のホームで、
・線路に近づきすぎた人
・倒れている人
・混雑しすぎている場所
を見つけて、注意や支援につなげることも考えられます。
つまり画像認識は、カメラを単なる記録装置から、状況を理解する目へと変えていく技術でもあるのです。
小売や流通
コンビニやスーパー、倉庫などでも、画像認識は活躍しています。
たとえば、
・商品棚に何が並んでいるかを確認する
・品切れを見つける
・倉庫で荷物の種類や位置を認識する
・レジで商品を認識する
といった場面です。
ここでは、商品を見分ける画像分類だけでなく、棚の中のどこにあるかを知る物体検出も大切になります。
つまり画像認識は、お店や倉庫の中の「ものの流れ」を見えるようにする技術でもあります。
人がいちいち数えたり確認したりしていた仕事を、少しずつ支えているのです。
姿勢推定の活用
以前見た姿勢推定は、実社会でもかなり面白い応用があります。
たとえば、
・スポーツフォームの分析
・ダンスや演技の動きの解析
・リハビリ支援
・フィットネスアプリ
・作業姿勢の安全確認
などです。
野球なら、投球フォームのどこに癖があるかを見る。
ヨガなら、ポーズが正しく取れているかを見る。
リハビリなら、体の動きが回復してきているかを見る。
ここでは、「人がいる」だけでは足りません。
腕や足がどう動いているか、体のバランスがどうなっているかが大事です。
姿勢推定は、人の体を物体としてではなく、動く身体として読む技術なので、こうした場面で力を発揮します。
まとめ
こうして見てみると、画像認識は単に写真の中身を当てる遊びではありません。
・本人確認を助ける
・車の安全運転を助ける
・医師の診断を助ける
・工場の検査を助ける
・現場の安全確認を助ける
・スポーツやリハビリを助ける
つまり画像認識は、人が目で見て行ってきた仕事を、一部支えたり、補ったりする技術なのです。
しかも大事なのは、人の仕事を全部置き換えることだけではありません。
むしろ多くの場面では、人が見ることを、より確かに、より速く、より見落としにくくするために使われています。
next ▶ 自然言語処理とは何か