AIの話題を毎日のように目にします。
きゅうり農家がAIでキズ物や大きさを仕分けたり、道路の交通量調査を自動化したり、JRの駅で無人コンビニが営業したり。
これらの取り組みは、すべてカメラ映像を使ったものです。画像認識はAIの得意分野で、AIは人の眼になると言われています。
はるか古代、ニョロニョロした生き物しかいなかった地球上で、一気に進化して多様な生物が生まれたカンブリア紀は、眼を持った生物が現れたことで食べる☓食べられるのバランスが大きく変わったことが、きっかけとも言われています。
AIやロボットもディープラーニングによる眼を手に入れたことで、一気に活躍の場が広がっていくかもしれません。
身の回りのあちらこちらにAIが備えられた社会で力強く生きていくには、こちらもAIのことを知っておく必要がありそうです。
物体検出ライブラリ『YOLOv3』を試す
YOLO v3はGoogleでも働いていた、Josep Redmonさんが開発した物体検出(どこに何が写っているのかな?)ライブラリで、2019年1月現在において、もっとも優れた物体検出ライブラリの1つです。
早速動かしてみました。
いかがでしょうか。まちがえて認識することもありますが、ちょっとした驚きがあるレベルになっていると思います。
自分で画像認識のAIを作るには、
- 最小値を探す数学とアルゴリズム
- テンソルの計算
- 大量の学習データと正解ラベル
- 高性能なコンピュータと学習時間
などが必要です。すべてを自分で用意するのは難しいですが、YOLOv3のように公開されているものを組み合わせれば、専門家でなくてもオリジナルなAIを手に入れることができるようになってきています。
AIはオープンなので学び放題
YOLOv3に限らず、ディープラーニングのモデルやライブラリ、学習データがオープンになっています。これはすごいことで、高校生くらいの数学と、少しのプログラミング(機械学習やAIではPythonが人気)を身に着けていれば、世界の最先端の一歩手前まで、0円で学ぶことができるのです。
極一部ですが、以下に列挙しています。今後何回かに渡って、今のAIができることをたどって見たいと思います。
モデル
- 画像分類の CNN
- 深層強化学習の DQN
- 時系列予測の LSTM
- 類似画像生成の GAN
- 音声合成の WaveNet
ライブラリ
- テンソル計算の TensorFlow
- ディープラーニングモデル構築の keras
- 強化学習の keras-rl
データ
- 手書き数字の画像集 MNIST
- 1400万枚のラベル付き画像集 ImageNet
- いろいろな音を集めた ESC-50