雲雀は高く空を舞い このページをアンテナに追加 RSSフィード

「ひよこは高く空を舞い」について

2007-02-04

[]「論文が書ける統計」 - (3) - 分布を表現する数値 「論文が書ける統計」 - (3) - 分布を表現する数値 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 「論文が書ける統計」 - (3) - 分布を表現する数値 - 雲雀は高く空を舞い 「論文が書ける統計」 - (3) - 分布を表現する数値 - 雲雀は高く空を舞い のブックマークコメント

第2章より

代表値 / average

  1. 平均値 /mean
    1. 算術平均 / arithmetric mean
    2. 幾何平均 / geometric mean
      • 算術平均を逆対数変換した値。データの変換をした際に用いられたりする、とか。
    3. 調和平均 / harmonic mean
      • 逆数の算術平均の逆数\frac{1}{\frac{\sum_{i=1}^n\frac{1}{x_i}}{n}}
  2. 中央値 / median
  3. 最瀕値 / mode

ばらつき具合

  1. 四分位点 / quartile
    • 全体の順位の25%, 75%にあたる値
  2. 標準偏差 / Standard Deviation
    • 個々の値の平均値からのずれの平均値

歪度 / skewness

尖度 / kurtosis

これらはn次のモーメントとして一般化され、たような。そこらへんは、過去日記を参考、と書こうとしたら書いてなかった。訳たたずめ。

[]「論文が書ける統計」 - (2) - 正規性の検定手法 「論文が書ける統計」 - (2) - 正規性の検定手法 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 「論文が書ける統計」 - (2) - 正規性の検定手法 - 雲雀は高く空を舞い 「論文が書ける統計」 - (2) - 正規性の検定手法 - 雲雀は高く空を舞い のブックマークコメント

第2章より

  • コルゴモロフ・スミルノフ検定 / Kolmogorov-Smirmnov test
  • \chi^2適合度検定 / Chi square test for goodness of fit
  • シャピロ・ウィルクス検定 / Shapiro-Wilks test

[]「論文が書ける統計」 - (1) - パラメトリック,ノンパラメトリック 「論文が書ける統計」 - (1) - パラメトリック,ノンパラメトリック - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 「論文が書ける統計」 - (1) - パラメトリック,ノンパラメトリック - 雲雀は高く空を舞い 「論文が書ける統計」 - (1) - パラメトリック,ノンパラメトリック - 雲雀は高く空を舞い のブックマークコメント

もう悩まない!論文が書ける統計

もう悩まない!論文が書ける統計

第一章より

  • パラメトリック(parametric):「母集団特性値の/母数の」
    • 母集団についてある仮説(正規性・等分散性など)が設けられている手法
  • ノンパラメトリック(nonparametric)
    • 母集団について仮説を設けない手法/distribution free method

パラメトリックな手法は母集団に付いて色々と前提条件があるが、観測値の大小の程度まで考慮して解析できる方法で有意差も出やすい方法であるが、ノンパラメトリックな手法は前提条件は無いがパラメトリックな手法よりは有意差の出にくい方法である。

[]多群比較を二重比較の繰り返しで行なうのは不適 多群比較を二重比較の繰り返しで行なうのは不適 - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - 多群比較を二重比較の繰り返しで行なうのは不適 - 雲雀は高く空を舞い 多群比較を二重比較の繰り返しで行なうのは不適 - 雲雀は高く空を舞い のブックマークコメント

  • 比較対象が3群以上存在し、帰無仮説が複数個になると、検定の多重性の問題が生じる。(第一種の過誤が発生する可能性が高まる)

なぜ3群以上を比較するときに、2群間の検定ではいけないか? 

A, B, Cの3群があり、A-C間、B-C間で、p値=0.05として2標本間でStudentのt検定を2回繰り返し行った場合、「少なくとも一つが有意差あり」となる確率は、p=1-(1-0.05)^3=0.09となってしまい、設定したp=0.05よりも高くなる。

[] 平均の差の検定におけるt検定と多重比較法の使い分け  平均の差の検定におけるt検定と多重比較法の使い分け - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク -  平均の差の検定におけるt検定と多重比較法の使い分け - 雲雀は高く空を舞い  平均の差の検定におけるt検定と多重比較法の使い分け - 雲雀は高く空を舞い のブックマークコメント

複数回の検定において「それらの検定すべて」において有意差があるという結果のみに意味がある時はt検定を使用.

複数回の検定において「少なくとも1つ以上の検定」での有意差に意味がある時は多重比較法を使用.


多重比較法とは、第1種の過誤を避ける為に検定全体としての有意 水準を公称の値にコントロールできるように 個々の検定における有意水準を調整する.そのため,多重比較法で有意差が検出されなかった検定では (例えば、CとAに有意差がなかったとすると) 「AはCよりも優れているという結果が得られなかった」だけで 「帰無仮説を保留する」 ということになる.

これは多重比較法では 有意水準を調節しているため 単回の検定よりもさらに、積極的には帰無仮説が支持されないことを示している.(ロバストでない)

トラックバック - http://chick.g.hatena.ne.jp/allegro/20070204

2007-02-03

[]前口上としての統計曼荼羅(三中 信宏氏) [http://cse.niaes.affrc.go.jp/minaka/R/preamble.html:title=前口上としての統計曼荼羅(三中 信宏氏)] - 雲雀は高く空を舞い を含むブックマーク はてなブックマーク - [http://cse.niaes.affrc.go.jp/minaka/R/preamble.html:title=前口上としての統計曼荼羅(三中 信宏氏)] - 雲雀は高く空を舞い [http://cse.niaes.affrc.go.jp/minaka/R/preamble.html:title=前口上としての統計曼荼羅(三中 信宏氏)] - 雲雀は高く空を舞い のブックマークコメント

三中 信宏氏による。この方は「系統樹思考の世界」の著者でもある*1

系統樹思考の世界 (講談社現代新書)

系統樹思考の世界 (講談社現代新書)

統計学を学習するにあたっての前書き。統計学を始める、あるいは舐めるにあたっては必読かと。また、「403 Forbidden」から辿れる「大統計大曼荼羅」は「統計学の世界の鳥瞰」にうってつけ。

他のページも読んでみたい。

以下、気になったところを写経。

生物学畑の統計ユーザーにとって必要なのは、どのような統計手法が自分にとって道具となり得るのか(なり得ないのか)、そしてユーザーが選んだ統計手法をどこまで責任をもって使いこなせるのか、という問題意識であると私は考えます。

数理統計学という数学の一分野は、とりわけ農学系・生物学系の統計学ユーザーにとっては手ごわい相手と一般にみなされています。その理由はおそらく変量の誤差構造の定量的分析という一見わかりにくいものの考え方にあるのかもしれません。

正規分布の定礎の上にそびえ立つ理論の城を見上げる多くの農学系・生物系学習者は、数理統計学を学ぶためには正規分布に基づく理論体系を会得することが城門の通過儀礼として求められていると思い込み、そして悩み続けています。その悩みのある部分は、学習者の初等的な数学的能力の欠如に起因するのですが、別の部分ははたして正規分布に基づく数理統計学が農学・生物学研究の現場にどれほど通用するのかという疑念に起因しています。生物統計学を実践するには「正規分布を学べ」というスローガンだけでは学習者の心理的動機づけとしては不十分なのです。

いったん開発された生物統計学の手法は、数学的に磨き上げればごく一般的な数理統計学の理論となります。数学的に洗練されてしまうと、データの形式さえ適合しているかぎり、どんな統計的手法でも適用できます。たとえ、その手法の前提条件が満たされていなかったとしても、統計計算はつつがなく完了し、計算結果はきれいに出力され、ユーザーはその出力をみて満足してしまう——残念なことに、この症候群はしだいに蔓延しつつあるようです。

これらの統計学的な疑問に答えるには、まずはじめにデータの変動というあいまいな現象をモデル化したり定量化したりする必要があります。上述のガウス正規分布関数はそのための強力な武器の1つです。しかし現実には正規分布に正確に従うデータはありません。正規分布(あるいは他のパラメトリック確率分布)からのずれが小さいときは、近似的にもしくは変数変換によって、正規分布ベースの推定・検定方法のようなパラメトリックな標準的統計手法を利用するのが常道です。しかし、そのずれが大き過ぎるときには、検出力は多少落ちてもノンパラメトリックな統計手法を用いるべきでしょう。また、最近ではブーツストラップなど新たなコンピューター集約型の統計手法を駆使して経験的に確率分布を生成するというやり方も広く利用されるようになってきました。ベイズ統計学の利用もモデル選択や意思決定の場面では重要です。

生物統計学の「現場」の事情に合わせて、既存の統計学の理論を鍛え直していく試みは今後も続けられていくでしょう——そして、賢明な統計学ユーザーはこのような手法の進歩が今なお続いていることを知っています。

統計学ユーザーに望みたいのは、統計学の世界の鳥瞰です。できるだけ広く遠く生物統計学の裾野を見渡してみようということです。自分の抱えている問題解決にとって、いま使っている統計手法ははたして適切なのか、他にももっと使える方法があるのではないか——この素朴な知的好奇心こそ、蔓延する無思考症候群を予防し、主体的かつ積極的な統計学ユーザーへの道を拓くのです。

*1:この本はnosemさんも読まれてたhttp://d.hatena.ne.jp/nosem/20060720#p3

トラックバック - http://chick.g.hatena.ne.jp/allegro/20070203
テクノラティプロフィール