1. まとめトップ

統計学の知識は仕事に使えるか

統計が話題になっているが、専門家の見方を鵜呑みするばかりで、統計のホントやウソを見破るのは至難の技だ。せめて、その入口だけでも理解して種々のデータを眺めてみようと、ちょっとばかり調べてみた。「統計リテラシー」を高めて、少なくとも、仕事人として必要な、その本質だけは理解しておきたい

更新日: 2018年03月31日

67 お気に入り 90459 view
お気に入り追加

この記事は私がまとめました

近代産業社会において、統計学の貢献は小さくありません。たとえば量産品の品質検査は通常、抜き取りとなります。この時の適正数を決めているのは統計学の知見です。世論調査も同様です。正当性を有するサンプル数で行われ、時として逆に民意を左右するまでになりました。しかし今日、統計学における期待には大きな変化が生じています。その受け皿になっているのが、「ベイズ統計学」です。

数限りないデータをただ漠然と見ても、何も得ることはできない。データの数を数えたり、平均を出したり、傾向を見たり、分類をしたりと、何らかの手を加えることによって、初めてデータの性質や意味を知ることができる。しかしデータにはどうしてもばらつき(不確実性)が生じる。また、すべての母数を対象にした調査もなかなかできない。ゆえに統計学は、それら制約された状況下で状況(データ)を把握するための学問である。ちなみに、標本から標本の特性を分析するのが「記述統計学」、標本から母集団を推計するのが「推測統計学」。

「近代統計学の祖」とは、ベルギーのケトレー(19世紀)です。ケトレーが、統計学の三つの流れを統合しました。
1)施政者が重視するようになった、産業・人口・面積等に関する数量的なデータの把握及びその調査・研究。
2)ペストが猛威をふるったロンドンで、イギリスのジョン・グラント(17世紀)が手がけた死亡統計の解析。
3)パスカル、フェルマー(17世紀)が基礎を作った確率論はサイコロ賭博の考察に端を発する。

▼統計学が見つけた社会の真実

ロングテール(the long tail)とは、主にネットにおける販売に置いての現象で、売れ筋のメイン商品の売上よりも、あまり売れないニッチな商品群の売上合計が上回る現象のことです。今まで、実店舗などの販売は、全体の2割ほどを占める売れ筋商品に注力する手法がとられていました。これは パレートの法則 (別名 80:20の法則)と呼ばれていました。従来の考え方が、統計の見出した新しい結果に覆されたです。

社会調査ではサンプルを用いて社会の真相を突き止める方法があります。しかし、そのサンプルは「最適なサイズ」を決めなければならず、その適正規模について統計学の知見が活かされます。例えば「日本全国20代以上の既婚女性」では母集団があまりにも巨大すぎます。ゆえに、必要なサンプル数は、通常、「信頼水準95%・許容誤差5%」に定められます。これは「100回サンプリングしたら、そのうち95回は標本誤差が許容範囲内(例 ±5%)に収まる」という意味です。サンプルサイズが大きくなりすぎると、調査料金も上がるので、そのバランスのいいところを狙います。

視聴率調査は一分単位でデータを算出していますが、サンプリングの世帯数はわずかに600世帯。これは関東1600万世帯の0.004%にすぎない数字。では、このサンプルの信頼度はどれくらいでしょうか。実は95%というかなり高い確率となり、その誤差は「16.7%~23.3%」の範囲に入っていると示せます。では同じ信頼値のもとで、もっと高い精度(小さな誤差)はとなると、たとえば「18.3%~21.7%」の範囲まで半減させるためには4倍ものサンプルを集めなければなりません。つまりコスパ次第なのです。

▼統計の使い道を覚えよう

【統計の嘘の見抜き方】同章がお薦めするのが同書。
1.比較対象の定義が異なる
2.偏った標本
3.少ない標本
4.誘導的な質問
5.空気を読んで答える人
6.見栄をはる人
7.利害関係のある調査員
8.平均には三つの種類がある
9.視覚でごまかす
飯田泰之氏の表現を借りると、「見せ方」「選択」「収集」。たとえば、少年犯罪は、過去50年で見れば大幅減少だが、わずか10年で見ると急増になる。また、飛行機と自動車の安全性も、移動距離単位で見れば飛行機に軍配が上がり、利用頻度で見れば実は自動車が安全

本書は『「それ、根拠あるの?」と言わせない データ・統計分析ができる本』柏木吉基著。

データ分析の手法より大切なのが仮説を意識した「思考パターン」。何を調べるかを明確にした上でデータに当たるべき。ただし、仮説とは、他の可能性を排除してしまうことにもなりかねず、複数の仮説や、目的を多面的に見ることも大切。具体的には、ある目的「〜の原因を見つけたい」に対し、複数の仮説を考えてみて、それらを個々に検証するための指標を挙げてみる。ここから最初の分析が始まる。つまり、最初に「当たりをつけて」からロジックを固めていくという作業だ

バラバラなデータを思い切り一つのデータに代表させる:「平均」
また、平均では見落とさてしまうはずれ値の回避策が:「中央値」

出典『「それ、根拠あるの?」と言わせない データ・統計分析ができる本』柏木吉基著

平均値は全体の規模をつかむには便利な指標だ。ある商品の販売量を、月毎に、年毎に、あるいは客先毎に出すとき、平均値を使えば、その規模感をつかみ、他との比較も容易になる。しかし、平均とは、内に含まれる極端な値(はずれ値)に左右されてしまい、必ずしも実際の代表値を示してものとは限らない。そこで、中央値を探してみて、平均値と照合してみるのもいい手だ。

さらに、平均値や中央値では見落とされてしまいがちな真実=バラツキを標準偏差(Excel関数では「STDEV関数」)で求める

出典『「それ、根拠あるの?」と言わせない データ・統計分析ができる本』柏木吉基著

平均値に、「標準偏差」を「±」した範囲が、すべての値の3分の2を含んでいる。これが標準偏差の2個分、すなわち、平均値 ± (2 × 標準偏差)の範囲は、すべての値の95%が属することになる。ただしこれは、左右対称の正規分布であることが前提である

【公式:n=サンプル数、p=ある質問に対する回答比率、「2」は信頼度95%の係数1.96の近似値】これはサンプル調査の誤差を表す式。たとえば、ある調査のサンプル数が1000で、「はい」と答えた人の割合が30%だった場合、n=1000、p=0.3となる。したがって、ここでは「30%±2.9%」が調査精度となる。式にはルートが掛かっているので、誤差を半分にするにはサンプル数を倍にするのではなく、その二乗の4倍にしなければならないという意味だ。しかし、実際には、サンプルが多いより、回収率という要素の方が大事だ。そこで事前に用意されている早見表では、サンプル数と回収率によって誤差の目安をつけている

出典enq-q.com

アンケート実施時には、回答者の人数によって変わってくる誤差率を考慮する必要がある。たとえば、商品パッケージを決めるためデザイン候補AとBのアンケートを実施する場合、200人に聞く場合、最大で7%程度回答に誤差が出る。注意すべきは、その質問の選択肢に回答した割合で誤差率は違うということ。200名回答者がAとBのどちらかを選択する場合、「Aを100名、Bを100名(この場合各50%)」のケースと「Aを180名、Bを20名(この場合80%と20%)」のケースでは誤差率が違ってくる

▼統計学の本質とは何か、最低でもこれだけは押さえよう

平均ではなくバラツキに注目する:
統計学とはバラツキの研究とも適宜できる

出典『ヤバい統計学』カイザー・ファング 著、矢羽野薫訳

物事の変化、バラツキの大きさ、そしてバラツキの原因。「平均」を決めてからの測定は、「平均」以外を見つける作業でもある

【文章は『ヤバい統計学』参照】ディズニーランドにできるあの長い行列。これは主催者側の設計ミスか、それとも故意か。需要を正確に予測していれば、十分な収容能力のアトラクションを作れたのでは、などと不満たらたら疑ってしまう。実はディズニーでは、需要の90%を満たせるような設計がすでになされている。同地でできる待ち時間は、おおかたバラツキによるものだった。そして、あの「ファストパス」は、バラツキを排除するための優先入場予約システムだった

疫学に関わる統計学者の重要な実績:
たとえば「O157の感染源を探せ」という39日間に及ぶ闘い(米国)。偶発的に起こり得る1例から始まり、その後、他で発生した5つの症例と結び付けられ、徐々に感染者が膨らんでいく中、そこから共通の感染源を発見し、特定し、再現実験を行うのは想像以上の難作業

出典『ヤバい統計学』カイザー・ファング 著、矢羽野薫訳

大腸菌(O157)だけでも膨大な種類があり、それらの中から異常に増発した事例を吸い上げるという、データへの敏感度が求められる。その後、単独要因か、複合要因か、無数の組合せから最も疑わしい要因に近づいていかなければならない。たとえば、本件米国の症例で言えば、ある一定期間の、袋詰めホウレン草が主因だったと判明したが、そこに到るまでの作業は、疫学者(統計学者)をもってしても至難の技だ。初期のデータはわずかに数例で、患者の状態は緊急性を要する状況。おまけに情報は信頼性の欠けるものが多い。原因究明が遅れたり間違えたりすれば、その結果は極めて深刻なものになる

実際の健康障害の発生状況に基づいた科学的議論が日本では欠けている。たとえば、大腸菌O157というと、「カイワレ」とか「牛の保菌」程度の知識しかない方が「・・・が危ない!」を連発している。巨象の一部を表現することでは、複雑な食中毒を防止することはできない。同サイトでは、参考のために、米国のリスク評価を和訳した。感染経路と媒介物についての知識を整理し、感染のリスクを減らすことができるように、危険な行動を少なくするよう消費者を啓蒙するのに役立たせている

コストや時間の制約から、母集団の一部を標本(サンプル)として選び出して調査を行い、その結果から母集団全体の傾向を推察する標本調査(サンプル調査)が一般的である。1936年のアメリカ大統領選挙は、再選を目指す民主党のフランクリン・ルーズベルト候補が不利と見られ、当時、世論調査で有名だった総合週刊誌「リテラリー・ダイジェスト」は、対立候補の当選を予言していた。予言の根拠は200万人への調査だった。他方、当時まだ弱小だったギャラップ社は、わずか3000名への調査で、ルーズベルトの再選を予想し、一躍有名になった

(ギャラップ社の勝因は)標本の偏りをより少なくする科学的な抽出方法を用いたこと。その方法は、母集団全体を互いに重ならないグループに分け、それぞれのグループに対して決まった割合で対象を抽出するものだった

母集団全体(この場合は大統領選挙の投票権を持つ人の全体)を「収入中間層・都市居住者・女性」「収入下位層・農村部居住者・男性」のように互いに重ならないグループに分け、それぞれのグループに対して決まった割合で対象を抽出するというもの(この方法を「割り当て法」という)。その結果、抽出された標本の姿は母集団により近いものとなり、結果としてギャラップ社側はリテラリー・ダイジェスト社の1%にも満たない小さい標本から正しい結果を予測することができた

政府統計のように実態統計に始まり、それを基礎にしながらも,品種改良の農場試験や品質向上のための品質管理(QC),生産管理などで統計が重宝され,統計データに基づいた改良改善・管理のための統計利活用が盛んになった。しかし今日では、これまで以上の「知の創造」社会に向けて展開し始め,それにつれて統計学も「計画の科学」「判断の科学」「政策の科学」を目指した進展を見せている

統計的探究プロセスから始めることになる(問いの連鎖)。それはおおかた5段階(とらえる-あつめる-まとめる-よみとる-いかす)に及ぶ。最初「おや?」「あれ?」と驚き,どうしてなのか,疑問に感じ,現象を観察し直す。次に、その問題の確かな実態,現象をできるだけ正確に収集する。そして集められたデータに対して,分類の基準をしっかり決め,落ちや重なりがないように正確に集計し整理する。ここから統計的傾向性,統計的規則性と予測傾向を読み取る。最後にその結果を価値判断し、活かす

「統計」という言葉は「すべてを集めて計算する」という意味。
明治年間を通じて次第に定着するようになった。後、中国に伝わってそのまま根付く

柳河春三氏編纂の小冊子の中で「統計」という言葉が「仮に」使われていたらしい。「統計学の開祖」とも言われる杉亨二も、無理に訳語を当てずに「寸多知寸知久(スタチスチク)」を用いるべきと主張していたくらい。ただ、結局、誰が訳したか分からず、確定的な証拠は残っていない。「統計」を冠した最初の政府組織は明治4年に大蔵省に置かれ、明治7年にはフランス語のの訳書として、簑作麟祥(みつくり・りんしょう)により文部省から「統計学」という本も出されている

統計学とは何か。一つは、得られたデータからその特徴を抜き出すテクニック。もう一つは、部分から全体を、現在から未来を推測するテクニック。そこで重要なのは「平均値」であるが、これは、数値的に広がって存在するデータから、代表値を一つ選んだものだ。平均の求め方は、通常使う「算術平均」の他、「相乗平均」「二乗平均」「調和平均」など色々ある。そしてもっと重要なのは「標準偏差」だ。これはデータのバラツキを示すものだが、平均値からどの程度広がりをもって存在しているかを示すのが標準偏差だ

海の水位が「平均値」だとしたら、波打ちの激しさが「標準偏差」

出典『完全独習統計学入門』小島寛之著

たとえば模擬テストを10回受けて、平均60点をとる二人。一人が標準偏差10、もう一人が同じく30としたとき、後者は高得点をとるときもあれば、悪いときもあり、成績ムラのある人だと分かる。もしこれが株式投資だとしたら、後者のような株式はハイリスク・ハイリターンとされる

データをビジネスに使うために:
1)何かの要因が変化すれば利益は向上するのか
2)そうした変化を起こすような行動は実際に可能か
3)変化を起こす行動が可能なら、そのコストは利益を上回るのか

出典『統計学が最強の学問である〜デ-タ社会を生き抜くための武器と教養』西内啓著

疫学研究をきっかけに統計学が花開く。心臓病であろうが、コレラであろうが、原因が不明なのであれば、慎重かつ大規模なデータの収集で、適切な統計解析を行う以外にはありえない。しかし、この作業の限界は、データの入力・管理、及び集計の手間だった。ゆえに、「IT」の時代となった今日、あらゆる業務がデジタル化され、処理されていく中、ほとんど普及しきってしまった「IT」で、どうやって次のビジネスを生み出すかという課題が生じた。それゆえに、解析というキーワードが注目を浴び、統計学に光があたり始めた

全人口の0.5%(サンプリング)を調査しただけでは不安という人:
真の失業率が0.5%として、日本なら60万人を調査した結果、全員が失業者になるという確率は、200分の1(0.5%)を60万回一度もはずれずに失業者を探し続けるようなもの

出典『統計学が最強の学問である〜デ-タ社会を生き抜くための武器と教養』西内啓著

このサンプリング調査は非復元抽出(つまり、失業者を一人ずつ探しだすと、その次の一人を探し出す母数からは徐々に失業者がいなくなり、最後の一人を探し出すときには1億人以上の中から探し当てることになる)のため、失業者全員がサンプリング調査で抽出される確率は天文学的な数字になる

1 2 3