AIのテクノロジーの基礎は3点!音声認識・画像認識・自然言語処理について

AIのテクノロジーの基礎は3点!音声認識・画像認識・自然言語処理について

2020年7月18日
STEAM

公開日2020/7/18 更新日2020/7/18

・はじめに

こんにちは、soublogを運営している作曲家の颯 Souです。

【経歴】
京大院卒業・航空宇宙/大企業でエンジニア/
自由を求め脱出/作曲家・ブロガーのフリーランス/
STEAM教育の大切さに気づきSTEAM教育オンライン研究所設立/研究所所長兼任
【経過】
20曲リリース/AWA動画広告BGMプログラム採用/
soublog401記事/月1万7千PV/
ラズパイ・Python実験中

世の中にAIが応用された商品が多いけど、結局AIと呼ばれるのはどういうテクノロジーが基本にあるのだろうと思うかもしれません。

そもそも、AIで第3次ブームが来たのは、ディープラーニング(機械学習)ができたおかげです。

今あるAIを応用した技術は主に次の3点が基礎となっています。

・音声認識
・画像認識
・自然言語処理

また、それぞれ技術の段階は次の3段階で評価できます。

・実用レベル
・研究レベル
・基礎研究レベル

実用レベルとは、商用化されているものを指します。
研究レベルとは実証実験されているものです。
基礎研究レベルとは、アルゴリズムなどが研究段階のものです。

音声認識、画像認識、自然言語処理について、実用段階なのか研究レベルなのか、議論していきたいと思います。

また、身近な製品ではどういったものに応用されているかもご紹介します。

目次は次の通りです。

  • AIでできること
    ・音声認識
    ・画像認識
    ・自然言語処理
  • まとめ

・AIでできること

音声認識

アップル、グーグルでスマホの音声検索を使われている方はご存じだと思いますが、音声で話しかけると、正確に認識しますよね。

ほぼ、人間と同等のように認識できるといっていいのではないでしょうか。

私の経験上これまで、Google検索で音声認識で誤って認識したことはありません。

つまり、実用レベルだといってもいいと思います。

音声認識として身近なものに、Siriがあります。

Siriは、スティーブジョブズが買収してApple Storeに配信されましたが、ちょっとしたメモや、メールを起動することができます。

また、スマートスピーカーのGoogle HomeやAmazon Echoなども身近になってきたのではないでしょうか。

Google Homeでは、音声検索、よくいう、ググるということができたり、Amazon Echoでは、検索の他にも、音楽を聞いたり、ショッピングをしたり、株価、天気を聞いたりできます。

画像認識

画像認識においては、一般の画像についてはAIは人間と同様の認識が可能ですが、動画においては、まだ人間のように認識するのは難しいようです。

動画認識はどこの技術で使われるかというと、自動運転技術ですね。

もし、これが人間同等の判断ができるようになれば、自動運転も夢ではないでしょうね。

AIは、動画上で信号機を認識したり、白線を認識したりすることが必要で、それによってアクセスやブレーキやハンドルを操作しなければなりません。

今はその実用段階ではないということです。

自然言語処理

自然言語処理は一般的にAIと人間の会話を表します。

まだまだAIが人のように会話を理解することはきません。

特定のシチュエーションにおいて、AIと会話が成立するということはあるようです。

例えば、カーナビゲーターの音声案内などです。

しかし、何も想定されてないシーンにおいては、まだまだ研究段階です。

自然言語処理は基礎研究段階だと言えます。

自然言語処理の応用として機械翻訳があります。

私は、よくGoogle翻訳を用いています。

私の英語力で見た感じですが、最近のGoogle翻訳の精度はとてもよくなってきたように思います。

また、自然言語処理の応用として、チャットボットがあります。

企業サイトにいくと、チャット形式でAIが質問に答えてくれるサービスがあります。

質問をすることで、AIが答えらしきところに導いてくれて、いくつかの答えの候補がでてきてきます。

チャットボットに「この中に正解はありますか?」と聞かれます。

・まとめ

AIの技術の根幹は、

・音声認識
・画像認識
・自然言語処理

の3点です。

その技術はディープラーニングによって研究が進みました。

今思えば、機械が学習するなんて夢のある話ですね。

以上、参考になれば幸いです。

STEAMに戻る