ディープラーニングの認識系タスク

2026/3/232026/4/5

ディープラーニングの応用の中でも、もっとも身近なのが「認識するAI」です。写真の中の物体を見つける画像認識、文章の意味をとらえる自然言語処理、声を文字に変える音声処理など、私たちの身の回りにはすでに多くの認識技術が使われています。このページでは、CNNやTransformerなどの代表的なモデルもふまえながら、AIがどのように「見る・読む・聞く」力を獲得してきたのかをやさしく見ていきます。

目次

6-1 画像認識
6-2 自然言語処理
6-3 音声処理

6-1 画像認識

◆画像認識とは何か

画像認識には、画像全体を分類するものから、画像の中の物体を見つけたり、領域を細かく分けたり、人の姿勢を推定したりするものまで、さまざまなタスクがあります。▶続きを読む

◆画像認識モデルの発展

画像認識の精度は、AlexNetをきっかけに大きく伸び、その後もResNetやEfficientNet、Vision Transformerなど、さまざまなモデルの工夫によって発展してきました。▶続きを読む

◆検出・分割・姿勢推定のモデル

画像認識では「何が写っているか」を知るだけでなく、「どこにあるのか」「どの部分なのか」「どんな姿勢をしているのか」を捉えるためのモデルも発展してきました。▶続きを読む

◆画像認識の活用例

画像認識は、医療、自動運転、監視、工場の検査、スマートフォンの顔認証など、私たちの身の回りのさまざまな場面で活用されています。▶続きを読む

6-2 自然言語処理

◆自然言語処理とは何か

自然言語処理は、人が使う言葉を機械に扱わせるための技術であり、文章を分けたり、意味をとらえたり、質問に答えたりするさまざまなタスクを含んでいます。▶続きを読む

◆機械にとって、言葉とは何か

機械は言葉をそのまま理解できるわけではないため、単語や文を数字に変え、意味の近さや関係が表れるように工夫しながら扱っています。▶続きを読む

◆自然言語処理モデルの発展

自然言語処理のモデルは、統計的機械翻訳やSeq2Seqから始まり、BERTやGPT、大規模言語モデルへと発展しながら、言葉をより深く扱えるようになってきました。▶続きを読む

◆自然言語処理の活用例

自然言語処理は、翻訳、検索、要約、質問応答、感情分析、対話AIなど、私たちの身近な多くの場面ですでに活用されています。▶続きを読む

6-3 音声処理

◆音声処理とは何か

音声処理は、人の声や音を機械に扱わせるための技術であり、話された内容を文字にしたり、声を合成したり、話し手や感情を読み取ったりするさまざまなタスクを含んでいます。▶続きを読む

◆機械にとって、音とは何か

機械は音をそのまま理解できるわけではないため、まず声を数字に変え、さらに周波数や聞こえ方の特徴を取り出しながら扱っています。▶続きを読む

◆音声処理モデルの発展

音声処理のモデルは、隠れマルコフモデルのような古典的手法から、CTCを用いた音声認識、WaveNetのような音声合成モデルへと発展してきました。▶続きを読む

◆音声処理の活用例

音声処理は、音声入力、読み上げ、本人確認、感情分析など、私たちの暮らしや仕事のさまざまな場面ですでに活用されています。▶続きを読む