第613号コラム:佐々木 良一 理事(東京電機大学研究推進社会連携センター 顧問 客員教授)
題:「コロナとコンピュータウイルスと疫学と」
1 はじめに
新型コロナウイルスの流行がやまず落ち着かない日が続いています。この流行に伴って、「疫学」という言葉をよく聞くようになってきました。私は疫学の専門家ではありませんが、大学時代に疫学研究室に籍を置いていたこともあり、また、コンピュータウイルスの流行現象の予測などに疫学を適用していたこともあります。そこで、最近よく使われる疫学という言葉の理解を助けるために、疫学に関する入門的な知識を書いてみます。また、最近の新型コロナウイルスの対策を考えるうえで疫学がどう役に立つのかを解説するとともに、筆者らが、この疫学をコンピュータウイルスの流行予測などに適用した結果を簡単に報告します。
2 疫学の概要
疫学の定義としては次のようなものがあります[1]。「明確に定義された人間集団の中で出現する健康関連のいろいろな事象の頻度と分布およびそれらに影響を与える要因を明らかにして、健康関連の諸問題に対する有効な対策樹立に役立てるための科学」免疫学と混同されることが少なくないですが、まったく異なっており、集団の健康現象を対象とした応用統計学、応用数学の一分野と見ることもできると思います。ラテン語: epi + demos + logos の複合となっており、それぞれの意味は以下のとおりです。
epi : 英語 upon
demos : 英語 people
logos : 英語 doctrine
したがってもともと「人々の中で起きている諸事象に関する学問」であり、数少ない集団を扱う学問といってよいと考えられます。
疫学には次の4つの分野があるといわれています[2]。
(1)記述疫学 descriptive epidemiology:
疫学事象を観察し、その事象の分布をつかみ、特性を記載し、考察することによって仮説をたてる。仮説をたてる場合は、いわゆる5W内の4W(what、 who、 when、where)について検討する。
(2)分析疫学 analytical epidemiology:
記述疫学によってたてられた仮説について、的確な診断と統計学的解析によって5Wうちの残されたwhyを探求する。その結果、5Wがすべて解析されるが、それでも疫学ではあくまで因果関係の推定段階にある。
(3)実験疫学 experimental epidemiology:
分析疫学で検討された因果関係推定の仮説を実験によって確かめ、原因の作用機序を明らかにする。その場合、かならず対照を置かなければならない。
(4)理論疫学 theoretical epidemiology:
コンピュータの活用とモデルの作成によって、費用と時間のかかる疫学の野外実験をその状態ににせて仮説を検証する。例えば、数学モデルを用いて疾病の発生と伝播のパターンをシュミレーションすることができる。
別の分類方法もありますが、私には昔習ったこの分類法の方がしっくりきます。
3 新型コロナウイルス流行と疫学
新型コロナウイルス流行と4つの疫学の関係は次のように記述できると思います。
(1)記述疫学
感染者数や死亡者数を調査し、正確に記述するというのが記述疫学の基本だと思います。その際、国別に集計したり、都道府県別に集計したりすることによりいろいろな特徴が見えてきます。新型コロナウイルスの事案でいえば、日本の死亡者数が外国と比べ少ないことなどのことが良くわかります。調査結果の時間的推移の分析などは、記述疫学として取り扱われる場合も分析疫学といて取り扱われる場合もありますが、いずれにしても新型コロナウイルス事案においては、感染者数や死者数の推移などを、個人やいろいろな組織がわかりやすい図表で発表してくれています。①横軸に時間を取り、縦軸に感染者数や死者数の対数値を取ったものや、②横軸に感染者数の積分値を対数表記し、縦軸に、新規感染者数を対数表記したものなどがその例です。対数表記することにより、一般的に変化の傾向がわかり安くなります。
(2)分析疫学
新型コロナウイルスや原因や対策の手掛かりを得るために、いろいろな統計分析が実施されます。国別のBCG接種体制と新型コロナウイルスの感染者数の相関の強さを発見したのが今回の事案における、分析疫学の成果になりうるものといってよいでしょう。過去には有機水銀と水俣病の関係や、カドミウムとイタイイタイ病の関係、整腸剤キノフォルムとスモン病の関係などを分析疫学に基づいて発見しています。
(3)実験疫学
国別のBCG接種体制と新型コロナウイルスの感染者数の相関の強さを発見しても、対策として実施するには実験が必要になります。今回の場合はオーストラリアでBCGの接種を実際にやってみようとしていると聞いていますが、これを実験疫学といってよいと思います。実験疫学という言葉を使わず、動物実験とか臨床実験という場合も多いように感じています。
(4)理論疫学
新型コロナウイルスの感染者予測にSIRモデルが利用されています。このSIRモデルの利用などは明らかに理論疫学分野に属するものです。ここで、感受性人口が S (Susceptible:感染する可能性のある人) 、病例数が I (Infectious: 感染して病気になった人)、快復数が R (Recovered / Removed: 快復または隔離された人)であり、相互の数の関係を連立微分方程式で表しています。SIRモデルの解説はいろいろな人がしていますが、京都大学の門信一郎準教授の書いたもの[3]が一番正確で分かりやすいと思います。このモデルに基づき、厚生労働省クラスター(感染者集団)対策班メンバーで北海道大学教授の西浦博教授氏が新型コロナウイルスに関するデータを用いて具体的なSIRモデルを構築しています。そして、このモデルを用いてシミュレーションを行うことによって、対策をしなければ42万人の死者が出るとか、接触を8割減らせば約1カ月で流行を抑え込めるなどのことを発表し、それに基づき社会が動いていっています。考えてみるとマイナーな学問だと思っていた疫学が、社会的に非常にメジャーなものになっていることを感じます。
4 コンピュータウイルスと疫学
ウイルスの流行対策などのために使われる疫学を、コンピュータウイルスなどに適用しようという動きもあります。
(1)最初に、コンピュータウイルスの流行に疫学を明示的に適用した研究発表は、1991年のKephartらの「Direct-graph Epidemiological Models of Computer Virus」[4]だと思います。ここでは、コンピュータウイルスのネットワーク上での感染をコンピュータ上にモデル化し、シミュレーションを行うことにより、流行を予測するとともに、対策の検討を行っています。これは明らかに理論疫学の応用です。理論疫学の適用はその後もいろいろ実施されています。ただし、疫学を適用しているという意識は次第になくなっていき、コンピュータウイルスの流行の予測に微分方程式を用いるという意識になっていったと考えられます。これは日本でも同様で、コンピュータウイルスの流行の予測に理論疫学を用いたという書き方をする論文はほとんどなかったと思います。
(2)理論疫学以外は特にそうで、分析疫学の応用ということを明示的に記述したものはほとんどなかったと考えられます。
(3)しかし、2006年には、全米科学財団(NSF)が、米国の大学で、コンピュータウイルス対策に疫学や生態学の手法を取り入れる研究に対し、資金援助を決めた。カリフォルニア大学の研究チームと、カーネギー・メロン大学の研究者に、それぞれ620万ドル、640万ドルが援助されています。
そのような状況の中から私たちも、2003年ごろから理論疫学や分析疫学をコンピュータウイルスや個人情報漏洩などの対策の研究に積極的に用いてきました。最初に適用したのが理論疫学で、コンピュータウイルスに対する、種々の対策を打った場合に、感染の広がりにどのような影響があるかを、連立微分方程式で定式化し、シミュレーションすることによって分析しました。この結果は、文献[5]などにまとめ上げました。少し遅れて分析疫学的アプローチ(記述疫学的アプローチを含む)を開始しました。そのアプローチ方法は、文献[6]などに示す通りです。また、疫学の特徴である地域特性に注目した都道府県別の個人情報漏洩などの分析を行いました。その結果は文献[7]などにまとめました。セキュリティポリシー策定率が高い都道府県は個人情報漏洩の発生が低くなる傾向があるなどの面白い結果が得られています。いずれもそれなりに楽しく研究できたのですが、その社会的影響は限定的です。理論疫学の方は、いろいろなモデルを作ることはでき、予測は精緻にできるのですが、それが正しいかどうかのデータがなかなか得られないこともあり、中断しています。
分析疫学の方は、疫学と呼ばず、統計学的アプローチといっても似たようなアプローチはできるので、私たちも特に疫学的アプローチとよばなくなりました。しかし、疫学で重要視される地域特性に着目したアプローチは今も時々やっており、例えば文献[8]のような適用結果が得られています。ここでは、野良IoTの都道府県別の分布をCensysのデータを分析することによって調べ、人口あたりの野良IoTの数とフィッシング被害数の間に相関関係がみられるなどの結論を得ています。
5 おわりに
新型コロナウイルスの流行対策に疫学が社会に大きな影響を与えているにも関わらず、コンピュータウイルスへ疫学を適用した結果の社会的影響がなぜ小さいのかを考えてみました。1つは分析対象の社会的影響によるのだと思います。新型コロナウイルスの方は、対応を誤ると多くの人々の生命に影響が及び、そのために必要とされる対応は日本人全体に影響を及ぼします。コンピュータウイルスの場合も影響は少なくありませんが、新型コロナウイルスの場合に比べると限定的です。もう一つはデータの利用可能性だと思います。新型コロナウイルスの場合はデータがリアルタイムで得られる環境での適応になっています。一方、コンピュータウイルスへの適用の場合はなかなかデータが得られないという問題があります。コンピュータウイルスへの適用の場合も、ワクチン会社と協力するなどして、データがうまく得られるようにしておくと有用性が増していくのだろうと思っています。今後、疫学的研究をやる場合は、データをどのようにして得るか、その分析結果をどう社会に発信していくかを、事前によく考えて実施することが望ましいのだろうと思います。落ち着かない日が今後も続くと思いますが、心に余裕をもって楽しく過ごしていきましょう。
参考文献
1)日本疫学会監修「はじめて学ぶやさしい疫学」南江堂、2002
2)小河 孝「疫学用語」
3)RAD-IT21「この感染は拡大か収束か:再生産数Rの物理的意味と決定~単純なモデル方程式に基づく行動変容の判断のために~」
4)Kephart Thomas W. , “Direct-graph Epidemiological Models of Computer Virus”, Proceedings of IEEE Symposium on Security and Privacy, May 20-22, 1991
5)Satoshi Seki, Ryoichi Sasaki, Mitsuru Iwamura, Hiroshi Motosugi, “Epidemiologic Approach for Measures against Computer Viruses -Application of a model of measures against mass-mail viruses”, Proceedings of 1st International Workshop on Security (IWSEC2006)
6)佐々木良一他「コンピュータウイルスに対する分析疫学的アプローチ」電子情報通信学会、SITE研究会、2004年5月
7)文倉斉、小林哲郎、佐々木良一「個人情報漏洩の地域特性に関する統計分析と考察」日本セキュリティマネジメント学会誌25巻第3号2012年1月pp3-14
8)Yuki Nakazawa, Ryoichi Sasaki, Atsuo Inomata, “Survey and Analysis of Regional Characteristics of Unmanaged Stray IoT devices” International Journal of Cyber-Security and Digital Forensics (IJCSDF) 7(3): 200-208, 2018
【著作権は、佐々木氏に属します】