≪Non-category (寄稿・挨拶・随想・その他)≫

免疫毒性のプロトコールと統計学的検定法に関する一考察


2007; 12(1), 4-5


角田正史
北里大学医学部衛生学公衆衛生学

免疫毒性学会のニュースレターに投稿の機会を与えて戴き,誠に有り難うございます。この度,ニュースレターの編集委員に就任させて戴くことになりました。まだまだ修行中の身でありますが,前任でありました畏友,櫻井照明先生が力を注がれた部分を担当して欲しいとの御依頼でしたので,お引き受けすることに致しました。諸先生にご指導頂きながら,微力なりとも尽くしていきたいと思っております。宜しくお願いします。この機会に,簡単に私の免疫毒性学との関わりと,ここ近年模索中のことについて書いてみようと思います。 

私が免疫毒性に興味を持ち始めたのは,1993−1994年にピッツバーグ大学の公衆衛生学部の修士課程在学中に,当時は最新の技術であったヒトの血清サイトカインの測定を行った時からです。以後,研究を続けるうちにヒトの血清サイトカインは疫学的指標としては難しい点があることを経験しましたが,何らかの形でより有効な指標として使えないかと思っておりました。次いでジョージア大学大学院の博士課程で本格的に毒性学を学ぶにあたって,動物実験において免疫毒性の指標としてサイトカインの遺伝子発現や蛋白量定量は有用であることを経験してきました。また免疫細胞を用いた評価を始めたのもこの頃です。日本に戻ってからは,免疫毒性の専門家の諸先生にご指導頂きながら,研究を続けております。 

さて最近,課題として考えていることに,免疫毒性に限らない話にもなりますが,毒性学試験を行った後,評価の際に適用する統計学的検定法です。用いる指標が細胞の生存率にせよ,サイトカインの産生にせよ,連続量を扱い,安全なレベルを検討するには統計的解析が必須となります。私自身は統計の専門家ではありませんし,数学的才能にも欠けておりますので,模索中という感じです。 免疫毒性試験のプロトコールによると,毒性試験を第1段階で行うときは,動物数は1群8匹以上とし,用量段階は,原則として3段階以上の投与群を設け,別に対照群を置く,となっています。動物数に関しては,同系でない場合を想定している,というお答えを学会の時にお伺いしたことがあり,同系という遺伝的にある程度は同一であるという動物群(マウス,ラット)であれば,1群5匹以上なら良いのではないかと考えます。用量依存性の判断をするためには対照群を含めて4群というのも当然の話なので,最低5x4=20匹の動物を相手にした統計学を考えなければいけません。一日で処理する動物数は,どのような指標を用いるかで大きく違うのは勿論ですが,マウスの30匹(6匹x5群)処理でも結構大変な作業という印象があります。 

この程度の数は統計的に扱うのは群としては小さく,指標が連続量であった場合に,群別に正規性を検討することは出来ません。しかし逆に小さいために,正規性がないとは言えないので,パラメトリックの方法を適用するのは間違いではない,ということは言えます(勿論,全体の分布やバラツキを見て明らかに正規性がない,あるいは対数正規分布のような形をしている場合は別ですが)。そこで,一要因である場合には,平均値を算出し一元配置分散分析を行い,評価するのが,検出力から考えても適当であると考えます。ここで問題になるのが,どのpost hoc testを適用するということです。 

毒性学で良く使用されるpost hoc testには,その検出力の高さからFisher's PLSD, Student-Neuman-Keuls の方法等があります。統計学の専門書では,細かい数式は省きますが,4群以上の場合には第一種の過誤を5%以下に抑えきれないので,これらの方法は使用してはならない,という指摘があります(永田と吉田,1997)。一方,同じ本に,無毒性量が「無投与群と比較したときに統計的検定で有意差のない用量レベル」と考えられている場合,多重比較法は通常の検定よりも検出力が低くなっているから,毒性を見落とす確率が大きくなり,無毒性量を多重比較法を用いて定めるというやり方は正しくない,とあります。厳密に統計学的に正しい方法を用いると検出力が低くなるのはやむを得ないというところなのでしょう。実際の免疫毒性を初めとするプロトコールで行った結果に統計学的手法を適用する場合,厳密な統計学的な考えと,どのように一定の適合性を求めるかが問題になると思います。 

他のpost hoc test,例えばDunnettの方法は対照群との比較しか出来ないので,不満が残るし,統計学的には問題がないと考えられるTukey-Kramerの方法では検出力に不安が残ることになります。更に保守的なScheffeの方法では検出力の低さのために,動物実験で有意差が出るのは極めて限られた場合になってしまいます。 

現時点では,まだ統一見解はないと考えています。一つの考え方として,ある化学物質について,一定のレベルで実際に毒性があるのを見落とすのが大きな問題である可能性がある場合,検出力が大きな多重比較法で行っても良いのではないか,ということがあります。また米国毒性学会の統計処理サービスのブースなどでもディスカッションした際も,それぞれの毒性学者が,それぞれの多重比較法の長所・欠点(検出力や甘さ)や適用条件を理解した上で行えば良いのではないか,という意見がありました。 

難しい数式は別として,毒性学の研究者の間でそれぞれのpost hoc testについて一定の理解を進める必要はあると思います。今後は私自身は統計学の専門家ではないので,多重比較法の新たな発展,見解を期待したいところです。

参考文献
永田靖,吉田道弘.統計的多重比較法の基礎.サイエンティスト社,東京,1997.Immunotox Newsletter