2018年04月07日

論理的思考力講座(5):感度・特異度・正確度(1)

 ども勉三です。今回は論理的思考力講座の第五回。皆さんは「感度」「特異度」「正確度」という言葉を聞いたことはあるでしょうか? これは何かを予測するもの(天気を占う下駄飛ばしでも、癌を診断する医療機器でも予測するものなら何でも構いません)の性能を定量的に論じるための指標として昔から用いられてきたものです。

 現在、これらの概念は機械学習や人工知能(AI)の台頭でますます重要度が増しています。なぜなら、人工知能の用途の1つに予測があるからです。開発された人工知能がこれまでの手法より優れているのか劣っているのかを論じる時に、これらの指標が活躍するわけです。

 そう聞くと難しいことのように聞こえるかもしれませんが、小学校の算数で十分に理解できることなので、文系だから理系だからという以前に、全員が知っておくべきだと勉三は考えています。これを知っているだけで、ちんぷんかんぷんの人工知能の報道に対しても「実際のところはどうなんだろう?」と自ら問いながら考察することができるようになります。

覚えるのはこれだけ!この表だけで全てが説明できる

 まずは下の表をご覧ください。これは魔法の表です。これだけで沢山の難しい概念が説明できるのです。この表の見方が分かれば、必要なことの8割は覚えたも同然です。

005_1.GIF

 例えば、今10000人の人がいて、そのうち100人が癌だったとしましょう。残りの9900人は健康(癌ではない)とします。この人たちが癌の検査を受けました。診断結果は以下の様になりました。健康な9900人の人のうち、9000人が癌でないと正しく診断されました。つまり900人は癌と誤って診断されてしまったのです。一方、癌の100人のうち、90人は癌であると正しく診断されました。これも10人は癌でないと誤って診断されてしまったとしましょう。

 さて、上のことを文章で書くと分かりにくいかもしれませんが、以下のように表にして表すと一目瞭然です。その通り。最初にお見せした表は、このことを分かりやすく表すためだけの表に過ぎません。

005_2.gif

 このように表にすることで分析が非常にしやすくなります。例えば、正しく診断された人は90と9000という表の左上と右下に位置するわけです。逆に誤って診断された人は900と10という表の左下と右上にいる。この表をもとにして、検査がどれぐらい優れているかを計算するのが「感度」「特異度」「正確度」というわけです。

TP、FN、FP、TNという4つの記号で考えよう

005_1.GIF

 最初の表に戻りましょう。ここでは、実際に癌があって(Yes)、診断結果も陽性だった(Positive)人数が入る部分を「TP」と表現しています。これは True Positive の略で、本当に陽性だったという意味合いです。先ほどの例で言えば、TP=90人なわけです。

 逆に、実際に癌があって(Yes)、診断結果は陰性だった(Negative)人は「FN」(False Negative)といいます。間違った陰性(偽陰性)という意味合いですね。同様に、癌がなくて陽性と診断された人は「FP」(False Positive)、癌がなくて陰性と診断された人は「TN」(True Negative)といいます。

 このように実際の数字でなくて文字で考えることで、どんな場合にでも使える数式を作るための準備ができました。

感度は「癌の人をどれだけの確率で癌だと診断できるか」の指標

005_3.GIF

 まずは感度(sensitivity)から。言葉で説明すれば、感度は「癌の人をどれだけの確率で癌だと診断できるか」の指標です。先ほどの表で考えると一目瞭然です。実際に癌である人(Yes)の部分のうち、TPの人数がどれぐらいかの割合を求めればいいのです。癌である人(Yes)の数はTPとFNを足した数ですから、式としてはTPを(TP+FN)で割ればいい。

 先ほど挙げた例だと、癌の人が100人いて、90人は癌だと診断されたわけですから、90÷(90+10)=0.9が感度ということになります。90%のようにパーセンテージ表示することも多いです。つまり、この癌検査は「癌患者を9割の確率で癌だと診断できる検査」だと主張することができるわけです。

 なお、感度は再現率(recall)と呼ばれることもあります。医学系では感度、統計系では再現率という表現を使う傾向にあるようですが、どちらも知っておいて損はないでしょう。

特異度は「癌でない人をどれだけの確率で癌でないと診断できるか」

005_4.GIF

 しかし、癌検査の性能を表す指標は感度だけではありません。特異度は「癌でない人をどれだけの確率で癌でないと診断できるか」の指標で、ちょうど感度を裏返したような関係になっています。

 感度が理解できれば、特異度を理解するのは難しくありません。上の図を見ればすぐに理解できると思います。先ほどの例だと、9000÷(9000+900)=約91%ということになります。感度とは異なる数字になることが分かるかと思います

 今回はたまたま感度も特異度も9割でそれほど違わない結果になりました。しかし、検査や診断によっては感度と特異度が大きくことなることもあります。そういった例は実は非常に重要で、次回詳しく説明したいと思います。

正確度は「どれぐらいの割合で正しく診断できるか」

005_5.GIF

 最後は正確度。これも非常に簡単です。検査を受けた全ての人を合計して、正しく診断できた数(つまりTPとTNの合計)の割合を求めればいいだけです。

最後に

 いかがでしたでしょうか。拍子抜けするぐらい単純だったかと思います。しかし、これらの概念をきちんと知っている人は意外と少ないのです。また、簡単であるにも関わらず、現在の機械学習や人工知能を語るときにはこれらを知っていることが必須ともいえるぐらい重要なものになっています。

 次回は、感度と特異度が大きく異なるような検査があったとき、どう考えればいいかを説明したいと思います。

スポンサーリンク

.

posted by 勉三 at 10:00 | Comment(0) | 仕事・キャリア
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。