データ分析

研究デザインにおける検定力の重要性

2014年01月22日 61.8k ビュー

統計学では、「検定力（“power”）」とは、重要な関心事の効果を発見する、研究の力を意味します。基本的には、研究のデザインを行う時に、以下で挙げる重要な要因4つを考慮しなければなりません。

1. サンプルサイズ。ユニット（例えば、患者）の数のことで、通常“N”と書きます。

2. 効果量。（たいてい、大きな効果が期待される場合は、小さな効果が期待される場合ほどサンプル数は多くなくてよい) 。

3.有意水準（α level）：これは有意な閾値のことです（通常.001、.05、.1にします)。p

値がこの値と同じかそれより大きい場合、結果が統計的に有意でないといえます。

4. 検定力：研究が効果を発見する確率を表わした数値。

自分の研究の検定力はどのように決めるのでしょうか。上の４つのパラメーターは相関しているので、どれか3つの値を決めれば、4つ目の値を算出することができます。しかしふつうは、有意水準は決まっており(一般には.001、.05、.1から選びます) 、効果がどのくらい大きい（小さい）か（効果量）は、文献レビューにより大まかにわかります。そこで、研究に十分な検定力を持たせるには、サンプルサイズに注目しなければならないでしょう。

ネイチャーのような一流のジャーナルの多くは、検定力が十分であることを示すため、サンプルサイズの根拠を述べるよう求めています。ネイチャーでは、サンプルサイズが小さいときどんな検定を行ったらよいかについて述べた、特別のガイドラインも用意しています。その他、British Journal of Surgeryのようなジャーナルでは、検定力を論文の中で明示するよう求めています。さらに他のジャーナル、Molecular GeneticsやMetabolismでは、「検定力の算出をせずに投稿された場合、不採択になるか、あるいは査読せず著者に戻します」と明言しています。検定力に厳しいのは医学系、生命科学系のジャーナルだけではありません。アメリカ心理学会もまた、Reporting Standards for Research in Psychologyの中で、心理学論文では「方法」において検定力分析を報告するよう強く勧めています。

検定力の結果を示すことは、補助金を申請する時にも役立ちます。審査者は検定力を見て研究の頑健性を判断できるからです。

上の説明では方法論について何も述べていないことにお気づきになったかもしれません。これは、研究の検定力が方法論とは関係ないからです。たとえ検定力が低い研究でも、無作為臨床試験のような一番厳密な検定を行うことができます (例えば、サンプルサイズが非常に小さいため、あらかじめ選んだ効果を適切に検出できない)。「検定力不足の研究（“Underpowered studies”）」とは、観察された効果が信頼でき再現性があると考えるには、検定力が十分でない研究のことです。

残念なことに、研究を終えた後に検定力を決めるのは非常に困難です。ですから、データ収集を始める前に統計学者に相談し、研究デザインに十分検定力があるかチェックすることが大切です。