ディープラーニングの応用の中でも、もっとも身近なのが「認識するAI」です。写真の中の物体を見つける画像認識、文章の意味をとらえる自然言語処理、声を文字に変える音声処理など、私たちの身の回りにはすでに多くの認識技術が使われています。このページでは、CNNやTransformerなどの代表的なモデルもふまえながら、AIがどのように「見る・読む・聞く」力を獲得してきたのかをやさしく見ていきます。
6-1 画像認識
画像認識の精度は、AlexNetをきっかけに大きく伸び、その後もResNetやEfficientNet、Vision Transformerなど、さまざまなモデルの工夫によって発展してきました。▶続きを読む
画像認識では「何が写っているか」を知るだけでなく、「どこにあるのか」「どの部分なのか」「どんな姿勢をしているのか」を捉えるためのモデルも発展してきました。▶続きを読む
6-2 自然言語処理
自然言語処理は、人が使う言葉を機械に扱わせるための技術であり、文章を分けたり、意味をとらえたり、質問に答えたりするさまざまなタスクを含んでいます。▶続きを読む
機械は言葉をそのまま理解できるわけではないため、単語や文を数字に変え、意味の近さや関係が表れるように工夫しながら扱っています。▶続きを読む
自然言語処理のモデルは、統計的機械翻訳やSeq2Seqから始まり、BERTやGPT、大規模言語モデルへと発展しながら、言葉をより深く扱えるようになってきました。▶続きを読む
自然言語処理は、翻訳、検索、要約、質問応答、感情分析、対話AIなど、私たちの身近な多くの場面ですでに活用されています。▶続きを読む
6-3 音声処理
機械は音をそのまま理解できるわけではないため、まず声を数字に変え、さらに周波数や聞こえ方の特徴を取り出しながら扱っています。▶続きを読む
音声処理のモデルは、隠れマルコフモデルのような古典的手法から、CTCを用いた音声認識、WaveNetのような音声合成モデルへと発展してきました。▶続きを読む