pal_log

面白いこと、役立つこと、くだらないこと

人工知能とビッグデータ

今流行っている人工知能に関しては、ビッグデータとともに使われていくと思っている。

ビッグデータは、一部の本では価値の無い無駄な技術だと言われていた。

僕もその本を読んで正しいと思っていた。
統計学が最強の学問である』だ。(本自体は、統計学の勉強になり面白い)

統計学が最強の学問である

統計学が最強の学問である

いわく、統計学はいかに少ない情報で正確な真実を見出すかを研究したものだ。
統計学の研究によれば、少ない情報で有意となったデータに対し、追加で情報を足しても、その結果が変わることはないということだ。
だから、ビッグデータは意味が無い。莫大な情報は何も生み出さない。


でも、それは観点が違うということを知った。
ビッグデータは、正確な真実を求めはしない。
本当にただただ存在する莫大な情報だ。
そしてそれは、人工知能(とくにDeepLearning)などと結びつくことで真価を発揮する。

人工知能とはどのようなもので、ビッグデータと結びつくと何がいいのだろうか。

人工知能が取り沙汰されたのは、Googleの猫からだ。
その技術はDeepLearningといわれる。
隠れた層を増やすことで、特徴点の最適化がされていく技術だ。


Googleの猫は、膨大な猫の映っている画像を機械に認識させることで、猫とは何かという問いに、機械が正しく答えた事件だ。
機械が本当に猫という概念を理解していることにはならないが、それが猫と呼ばれるものであることは認識され描き出された。
ここでのポイントは、「膨大な猫の映っている画像」だ。
ビッグデータはここで必要となる。
大量のデータを機械に流し、多くの特徴点を抽出することで、その精度を高める。
そのためにこそ、ビッグデータは必要となる。
それは少ないデータで統計的な処理をしても実現できないのだろうか。
実現できるかもしれない。
だが、その方法は現在までに発見されていない。

ビッグデータは真実を見極める技術ではない。ただ、使い方次第で役に立つ。

統計的な有意性は、ある事柄とある事柄が相関関係に有り、第三項などを経由しておらず、どうも因果関係があるのだろうということから生み出される。
統計に限らないが、真実というものにはレベルが有り、それは実験や検証の方法から生み出される
医学論文では、エビデンスレベルというものがあり、以下のようになっている。
※数字が小さい方が真実である可能性が高い

  1. ステマティック・レビュー/RCTのメタアナリシス
  2. 1つ以上のランダム化比較試験による
  3. 非ランダム化比較試験による
  4. a. 分析疫学的研究(コホート研究)
  5. b. 分析疫学的研究(症例対照研究,横断研究)
  6. 記述研究(症例報告やケース・シリーズ)
  7. 患者データに基づかない,専門委員会や専門家個人の意見


統計はあくまで真実を見極めるものだ。
それは絶対的真実を見出すための技術だ。
お腹が空いていて、満腹中枢のいたずらでないことを証明し、他の第三項が原因となる問題もクリアしているときに、お腹が空いていること=食べなければいけないことという真実を見出す技術だ。


対して、ビッグデータパターン認識の技術だ。
それは真実ではなくてもいい。
現実に起こる可能性が高い状態であればいい。
お腹が空いていると感じたら、ご飯を食べたらいい。
それがたとえ満腹中枢に騙されていたとしても、その可能性は低いことが多いのだから。
騙されることもあるから、理性という別の手段もあわせもつ必要はある。


具体的な例のひとつとしては、必要な情報を入手するときに役に立つと考えている。
何かを検索したときに、検索した人の履歴(パターン)に基づいて、必要そうな情報を教えてくれる。
逆に、多くの人の検索結果(パターン)から自動的(人工知能を用いて)に、より精度の高い情報を押してくれる。
現実に、Googleの検索アルゴリズムで重大な要素に選ばれている。
コールセンターに用いられているが、企業のナレッジベース検索技術として、とても有用だろう。
僕が注目している使い方だ。
これは大企業ほど力をもつことは格差問題として扱われるかもしれない。
「ねぇワトソン博士、AWSについてうちの会社の実績を知りたいのだけど、教えて!」と言えば、表現の仕方はシステムによるが、すぐに答えを出してくれることだろう。

考えられているような華々しい技術ではないと思うが、実際に使われていくだろう。

裏方の技術として。
そして僕は裏方が好きだから、それでいいのだ。