2008年06月25日

回帰分析は誰のもの

インターネットやテレビゲームが少年の脳を汚染して犯罪を誘発しているという、まことしやかな「直感」が語られやすい状況や、そう言いたくなる気持ちは理解できる。
しかしテレビゲームやネットの爆発的普及とともに少年犯罪が急増しているという統計は、どこにもない。
私たちは地味なものよりも衝撃的なもの、昔のものよりは最近のものによる印象の強さで、判断を誤りやすい。統計は頭を冷やすための最低限のツールである。
その数学が戦略を決めるは、コンピュータのハードディスク容量の増加、演算速度の向上により、ビジネス、行政、犯罪捜査、教育など多くの分野で、多くの経験と直感が統計にとって替わられている現場のレポートであり、その先にある人間と統計(コンピュータ)との関係を示す意味でも興味深い。
その中の「おもしろい計算」をいくつかメモ。

●ワインの質=12.145+0.00117×冬の降雨+0.0614×育成期平均気温−0.00386×収穫期降雨
●貢献出走塁=(ヒット数+四球)×総塁数/(四球以外の打席数+四球数)MLBのスカウトの直感よりもよい打者を獲得できる。
●クレジットカード返済実績の低い人々は事故を起こしやすいので、レンタカーや保険会社はサービス提供を拒否する。
●航空会社は、フライトキャンセルの際、常連よりも他社に乗り換えそうな客に優先的に別便の席を提供する。
●2004年、ハリケーンがフロリダを襲う直前に、ウォルマートはハリケーン進路にある店に、イチゴポップタルトを大量にストックした。「調理や冷凍が不要で、食器なしで食べられる甘い食べ物」だから、ハリケーン後に売れることをウォルマートはデータマイニングで知っていた。
●ハラーズ社のカジノでは、各属性の顧客がいくらまで負けてもまたカジノに来るかを予測している。損失がその限界額に達すると、店が食事をプレゼントしたりする。すると一気に顧客満足が向上する。
●大手クレジットカード発行会社のキャピタル・ワンは、顧客から電話がかかってくると、顧客の過去の質問履歴から計算しておそらく顧客が質問するであろう内容を、聞かれる前にコンピュータが答えることで、コールセンターの負荷を大きく減らしている。顧客がカードを解約しようとした際、その顧客が「いい客」であれば、慰留専門の担当者に電話が自動的に回る。金利が高いと言って解約を主張する顧客には統計的に慰留に最適な低い金利を提示する。
●南アのマイクロクレジット会社、クレジットインデムニティ社では、DMの右上に微笑む女性の写真を入れると、金利を4.5%引き下げたという告知と同じだけ男性の応答率が向上した。また、1週間前に電話して「大きな資金需要はないか?」と聞いておくと、DMの効果は大きくなる。
●Joann.comでは、「ミシンを2台買うと1割引!」というプロモーションが大成功した。ミシンを2台買う人はいないが、多くの人が知り合いを巻き込んで購入した。顧客が営業を代行してくれたのである。
●本書のタイトルも、「The End of Intuition」か「Super Crunchers」かで迷ったが、グーグルアドワーズの実験結果により後者に決めた。
●慈善団体が寄付を募るDMを出す際、マッチング寄付(個人の寄付が集まると、企業がそれと同額もしくはそれ以上の寄付をするシステム)について、なし、同額、2倍、3倍と手紙ごとに変えた。結果、マッチング寄付は無いよりあったほうが寄付は集まるが、2倍、3倍にしても寄付は増えない。
●銃を持っていて、裏庭にプールがある家では、子供はプールで死ぬ確率のほうが100倍近く高い
●性犯罪者再犯率急速リスク評価(PRASOR)では、性犯罪者を性犯罪歴、釈放時年齢、被害者の性別、被害者との親族関係で点数をつけ、例えば4点以上であればその囚人が釈放されたら10年以内に性犯罪の再犯率が55%。出獄後の病院への強制収監に利用されている。
●ケニヤとウガンダの調査では、包皮切除された男性のAIDS感染リスクは包茎男性の半分以下であった。医者の仮説が的中した。
●シカゴ周辺の新車ディーラーでは、顧客は人種と性別によってディーラーは粗利を変えていた。白人男性に比べて、白人女性は4割高く、黒人男性は2倍以上、黒人女性は3倍以上、払わされた。自動車ローンにおいても、黒人の場合ディーラーが金利を上乗せして契約することが多かった。
●2SDルール「正規分布する変数が、平均値から正負を問わず2標準偏差内にある確率は95%」


ここから言えるのは、データマイニングをしている企業からいいサービスを提供される場合、その会社に利益をもたらしているということだ。つまり「おいしい客」ということで、消費者として必ずしも喜ぶべきことではない。

回帰分析の良さは、その予測だけではなく予測がどれくらい信用できるかという精度を教えてくれることだ。予想屋との違いはここにある。
しかし、サンプル数の足りない珍しい事象についての因果関係を予測することは苦手としている。

回帰分析に頼った結果生じた「間違った判断」が一度でも生じると、その印象に引きずられて、人は統計を軽視しがちになる。回帰分析によって職を奪われる人の反発も加速し、「統計アルゴリズムを無視できる裁量システムが、かえって精度が低いのだという証拠が忘れ去られてしまう」。私たちの「科学的態度」を問う一冊である。

「絶対計算」時代に、残された人間の出番は、統計回帰分析を行うための仮説立案にある。統計ソフトがあればだれでも優れたマーケター・予測屋になれるわけではない。解析すべき変数を見つけ出す仮説は、経験に基づく直感によってしか生まれない。これは決して人間にとって不幸な状況ではない。

このような経験は人類史で何度も見られてきた。
天気予報は古来から私たちの暮らしに欠かせない。気圧と天気のデータが蓄積されることで前近代の呪術的な天気預言者の多くは失業し、天気図が読めて統計ができる人が、天気予報の主役になった。
同じ変化がマーケティング、医療、司法、教育、農業などで生じているだけで、科学のフロンティアが前進し「人の行動」がもはや洞察力や推理力ではなく「計算」の領域に取り込まれてきた事実を示しているに過ぎない。天気予報を預言から統計に変え、人類の誕生を創造から進化に書き換えた科学史を振り返れば何ら驚くことではなく、私たちの統計的なアプローチを受け入れる度量と、回帰分析を社会的に正しく使う叡智が問われているだけなのだろう。

羽生善治のこういう発言も納得できる。
飛躍的なアイデアとか、強烈な個性とか、そういうものが成立しにくい時代なのかなと。例えば阪田三吉さんはものすごい才能だとは思いますけども、いまの時代に生きていたら太刀打ちできないでしょう。すぐ対策が立てられてしまうし、自分自身も研究しないといけない。データを真面目にコツコツと研究していけるタイプの人しか生き残っていけない。(二宮清純との対談『歩を「と金」に変える人材活用術―盤上の組織論』より)
人類史が繰り返してきたように、武器が変われば戦い方が変わる。
現在、人間とコンピュータの関係は新しい局面を迎えている。これは人間の直感の終焉でもなく、コンピュータの勝利を意味するものでもない。ただ、既に手に入れた手段を無かったことにすることはできない。「コンピュータにわかるはずがない」という反動的な懐古主義とは冷静に距離を置いて、新しい回帰分析のツールをどう使い、その限界と弱点をどう忘れずにいるのかが私たちの課題である。





posted by ysms at 02:29| Comment(0) | TrackBack(1) | 01 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:


この記事へのトラックバック

データマイニングの実例
Excerpt:  インターネットでブログを読んでいたら、ある本を紹介しているブログサイトがあった。 Lynceus -回帰分析は誰のもの-  紹介されていたのは、「その数学が戦略を決める」とい本。  様々な例が..
Weblog: Office NBI - d3blog
Tracked: 2008-06-26 11:35
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。