第15回：妥当性って何？

2021年11月29日

“えきがくしゃ” 青木コトナリ　連載コラム

「疫学と算盤（ソロバン）」　第15回：妥当性って何？

投票という名のエンターテイメント

先回のコラムで大谷翔平がMVPに選出されるかどうかという話に触れたこともあってか、実際に選出されたことは嬉しいというよりもホッとしたような妙な安堵感もあった。彼が選出されたことは全く妥当なこととはいえ、それでも選考メンバー全員が1位票（MVPは1位、2位、3位を選ぶ形式）であったことは大きく取り上げられている。

例年のように比較しやすい打力勝負ではなく（注：メジャーリーグのMVPは最も好成績を残した野手が選ばれる傾向にある）、投手兼野手という、他の選手との比較が困難なプレースタイルであったことも手伝って、違う考え方をする人が出てもおかしくはなかったからである。

野球のMVPに限ったことではないが、投票で決めるという方法論は投票者の価値観の違いが色濃く出るため、しばしば物議を醸し出すものである。実際のところ日本のプロ野球におけるMVP－最も価値のある選手－表彰では、基本的に「優勝したチームの中でキャプテンシーを発揮した」因子が強く意識され、個人タイトルであるにも関わらずチームの優勝なくしてこのタイトルをとるのはかなり難しい。一方で、視点を換えてみれば選手の価値なるものは数字で測れない部分があるのは確かであり、また「人間の多様な価値観が混ざり合う」ことは、そもそも野球やその他のスポーツ等、エンターテイメントにおける“投票というエンターテイメント”でもあり、ハラハラどきどき、結果が出ることが面白くもある。

それでもやはりエンターテイメント性が高いからといって、妥当な測定指標があるにも関わらず投票という方法を用いるということは無いだろう。より妥当な指標があれば社会からの納得も得られる。コロナの例で考えてみれば、昨年の発生当初では「昨日と比べて○人の増加/減少です」といった報道が主であったが、今年に入っては「前の週の同じ曜日に比べて○人の増加/減少です」が主流となった。発生傾向には曜日の周期があり、同じ曜日と比べることが“妥当”だと社会が判断したのである。ところでこの「妥当性」というのは一体、何者なのだろうか。

測定方法の進歩

「妥当」という言葉について手元にある辞書で調べてみると、「よくあてはまっていること。ちょうどよいとみとめられること。」とある（恥ずかしながら小学生向けの辞書しかなく、ひらがなで説明されているのはそのためだ）。コロナ罹患数の増減を同じ曜日で比較するというのは、“前の日と比べるよりもよく当てはまる”というわけだ。ところがこの「妥当」を見つけるのが極めて困難な場合も多々あって、まさに今、コロナ禍にあってロックダウンなのか緊急事態宣言なのか、飲み会は4人までか8人までか、「妥当」の判断は人によってまちまちである。

病気の診断も、適切な治療法の選択も含め人間の主観によって判断しなければならないことは往々にしてある。医師法は病気の診断等を理解したものだけがこれを行ってよいという意味で、ヒトによる判定という揺らぎを相応に妥当なものへと押し上げているという見方もある。そのようにして考えてみると、測定器という文明の利器が何とありがたいことか。今でこそ当たり前になった体温計や血圧計など江戸時代には無かった代物である。

また私が幼少の頃はスタンダードであった水銀柱による体温計は、いまや電子体温計にすべて差し替わっており、破損の危険におびえながら使うということはもはや遠い昔の話となった。こうした変化が起きたことには、技術の進歩によって電子体温計の価格が手に届く程度となっただけではなく、ある日を境に水銀柱体温計での測定結果と「妥当性」で肩を並べ、あるいは追い越したという背景事情がある。価格が下がっただけで、測定結果の妥当性が追いつかなければ今でも水銀柱の体温計は生き残っていた筈である。

スケールの開発

病気の治療がそうであるように、測定の世界にあっても満足度の高い分野と低い分野とがある。うつ症状などの精神疾患系にはほとんど測定器が貢献していないようにも思えるし、痛みの度合いなども測定器を開発する側にとっては強敵だ。こうした分野において脳波や血液検査などでその診断を支援しようという動きはあるものの、未だ実用化の目途が立ちそうな話は聞こえてきておらず、もっぱら「スケール開発」によりこれを補完しようという動きが主流である。

「スケール」というのは、乱暴にいえば入学試験における学力の測定に国語、数学、英語といった科目を配するようなことであり、そこで妥当性を得ようとするならば相応の苦労が必要となる。例えば生活の質を測定するスケールとしてのEQ-5D-5L（EuroQol 5 dimensions-5Level、イーキュー･ファイブディーと読みます）は、「移動の程度」「身の回りの管理」「ふだんの活動」「痛み/不快感」「不安/ふさぎ込み」の５つを質問するもので、要するにこれが入学試験の5教科といったところであろうか。

本来ならば100も200も質問したいところをグッとこらえて5問で済ませているのは、「ヒトは5問までならば（いい加減では無く）ちゃんと答えるようだ」といった幾度もの研究結果による再現性が得られた賜物であり、世界的にもよく用いられている。

妥当性の正体

ところで、入学試験を3科目にするとか5科目にするとか、その妥当性というのは、一体誰が決めた妥当性なのだろう。音楽や体育、倫理学などがその選定から漏れたのは何故か。また、国･数･英の得点を一般的な学科では1:1:1の比率、つまり単純合計で合否を決めるが、一部では数学だけを倍にして1:2:1のようにしている学部もあるようだ。そもそも「学力」なる目に見えないものがくせ者であって、何をもってして妥当とするのかは様々な意見もあろうが、入学試験の場合は合否を判定する側が「その合計点が高い人から順番に入学を認める」として、その“妥当性”を決めているということになる。

一方、美術専門の大学であれば美術関連の記述試験と実技試験が加わらなければ妥当な学生は確保できまい。その意味において3教科や5教科の合計点をもって合否を決めるというのは、「本当に相応しい人が入学するかどうかまでは保証しないし、そもそも“相応しい学生”を明確に定義し測定できる測定器もスケールもない」ための“妥当”ならぬ“妥協”の産物と言えなくもない。

さらに病気の診断においては、人の健康や生命に直接関わるものであって、易々と妥協はしたくないところである。病気診断スケールは一見すると、単なるアンケート調査のような体裁ではあるが、実のところその項目選定は練りに練られたものである。質問項目に漏れがないだろうか、わかりにくかったり思い違いをしたりしないか、あるいは類似項目があって2度、3度と同じような質問にはなっていないのだろうか。こうした項目の構成に関する妥当性は、「構成概念妥当性」や「内容妥当性」なる下層概念として整理される。

さらには「同じ状態のときに本当に同じ回答になるのだろうか」といった再現性や、「このスケールを使うことで病状が良くなったり悪くなったりしている様子を測定することが出来るのだろうか」という変化の観察能力、「英語で作られたスケールを日本語に訳した場合、これまでに得られている結果の信頼性が損なわれたりはしないのか」といった文化慣習差による一般化可能性課題等々、妥当性に関する様々な留意事項が丁寧に検証され項目の改訂を繰り返して、ようやく国際的なスケールとして認められるのである。

妥当性の分類についてはどうやら明確な国際共通のものは無さそうで、○○妥当性なる用語は案外と多くて混乱してしまうのだが、主には以下のような分類となろうか。

【妥当性の構成概念】

意図したものを測定しているか系	構成概念妥当性	収束的妥当性	「相関が強い」と目される他の検査結果との相関の高さ
		弁別的妥当性	「相関がない」と目される他の検査結果との相関の無さ
		因子妥当性	「相関がない」と目される他の検査結果との相関の無さ
	内容的妥当性	表面的妥当性	（簡単にいえば）見た感じ妥当な項目群かどうか
		構成概念妥当性	（簡単にいえば）論理的な視点と合致した項目群か
	基準関連妥当性	判別的妥当性	合･否や有･無のように分けることができるものか
		併存的妥当性	既存のスケール等と結果が似ているかどうか
		予測的妥当性	得られた結果で未来を予測できるかどうか
内的･外的の視点	内的妥当性		同じ集団で行えば同じ結果になると期待できるかどうか
	外的妥当性		得られた結果は別の集団でもあてはまるか（一般化可能性と同義）

内的妥当性と外的妥当性

どのような項目でスケールを構成するのか、という視点とは別に、内的妥当性･外的妥当性という視点での「妥当性」のとらえ方もあるので紹介しよう。医薬品として承認するかどうかを検証する目的で実施される臨床試験においては、安全性を担保する視点で例えば「30歳～50歳で、他に治療中の病気も無い」ことや「妊婦を除く」など、当該医薬品が発売されたとしたならば実際に処方されるであろう症例群を全て網羅してはいない条件で被験者を決定することが常である。内的妥当性というのは、「同じようにして30～50歳で他に病気も無いし妊婦でも無い」症例群で試しても、今回得られた結果と同じようなものが得られるだろうか、という視点の妥当性である。

一方、これが「実際に市場に出て、より高齢者や他に病気を抱えている人、あるいは妊婦」に投与されてもこの結果と同じような効き目が担保されているかどうかの視点が外的妥当性である。同じように医薬の分野に留まらず社会学や心理学といった分野も含め「海外で得られた結果は日本でも同様だろうか」とか、「静岡県で試してみて得られた結果が日本全体でも得られるだろうか」という疑問が湧くことも多々ある。こうした概念は「結果を一般化出来るか」という視点で一般化可能性と呼称する。つまり外的妥当性とは結果の一般化可能性と同じ概念である。

「アウトカムがいつ起きたか」を比べる妥当な指標とは

先回は「効く」を比べるうえで「イベント発生の有無」と「イベント（アウトカム）がいつ起きたか」の2系統にわけてお話をしたところであったが、特に“生物統計学らしい”ともいえる後者で用いられるグラフは、直線ではなく曲線で描かれることが“基本”である。何故か。それには、妥当性のある仮説が一体、どのようなものなのかを考えてみるとよいだろう。

仮に恐ろしい感染症が流行し、罹患した人は1日あたり20％の人が死亡するとしよう（あくまでも仮のお話です）。もしここに極めて優れた治療薬があったとしてそれを処方すれば1日で10％の人の死亡で済む、と仮定してみる。もちろん、これは恐ろしすぎる世界観なので、臆病な方はこの1日を1ヶ月あるいは1年に読み替えて読み進んでいただいて構わない。それどころか、悪いイベントではなく「完治した」として読み替えていただいても差し支えない。

では実際にこのようなことが起きるとしたら生存曲線はどのように描かれるだろうか。

罹患した人が最初に1000人いたとしたら1日あたり20％の人が亡くなるので、つまり1日目は200人が死亡することになる。2日目はどうだろうか。同じようにこのうち200人、翌日3日目も200人、4日目も200人、5日目も200人、均等に死亡例が発生するならば1000→800→600→400→200→０となって綺麗な直線を描き、この1000人は5日で全員死亡となる。

しかしながらこれはどこかがおかしい。たとえば5日目を切り取って考えてみると200人が生き残っているのに、この5日目ではその全員が死亡するとなれば死亡率100％、つまり最初の死亡率20％よりもはるかに高い数字に上昇しているのであって、仮定とした「死亡率は1日で20％」を維持していない。

気を取り直して毎日20％の人が死亡すると考えてみよう。1日目で残った800人は翌日2日目ではその20％が死亡するので、死亡する人の数は200人ではなく、800人×20％＝160人と想定するのが“妥当”だろう。つまり生存者は逆に800人×80％＝640人である。連日8割の人が生き残る。同様にして計算してみると、1000→640→512→410→328（さらには→262→210→168→134→107→86→69→55→･･･と続く）となる。これをグラフで描写することで曲線が描かれるというわけである。

同様にして先の「1日あたり10％の死亡に留める夢のクスリ」の方は1000→900→810→729→656→･･･、といった具合である。1日あたり20％死亡するとしても罹患した1000人が全て死に絶えるのは5日ではなく36日となる。

一方の夢のクスリの方では74日となり、グラフを端まで描ききるには横幅が足りない。「イベント発生を遅らせるクスリ」というのはこうした概念で評価することになるのである。因みに1日あたり20％の死亡率を10％に下げる治療のことをハザード比（Hazard Ratio、HR）が0.5である、という（10％÷20％）。15％までしか下げられなければ15％÷20％＝0.75、つまりHR＝0.75である。

妥当性って何？

さて、ここまで指標の妥当性についてみてきたわけであるが、一旦、スタートラインに立って本コラムの冒頭部を眺めてみよう。「彼が選出されたことは全く妥当なこととはいえ、」と、大谷選手のMVPが妥当であると私は言い放っているではないか。何故そんなことが言えたのだろうか、そして読者諸氏がこれをさらりと読み流していたとしたらそれは何故なのか。結局、妥当性って何？

その本質を私たちは実は何もわかっていないのかもしれない。

第15回おわり。第16回につづく

第14回に戻る