第250号コラム:野﨑 周作 氏(株式会社UBIC 執行役員 技師長 リーガルテクノロジー担当)
題:「Predictive Codingが変える不正調査」

リーガルテクノロジー業界最大のイベントである「LegalTech New York 2013」が1月29日~31日にニューヨークで開催されました。イベントは例年以上の盛り上がりをみせていましたが、その中における1つの大きなトピックスとしてPredictive Codingに関する議論やソリューションが多く取り上げられていました。EディスカバリにおいてPredictive Codingを実際に使用した事例も少しずつ出てきており、いよいよ広く利用される段階に入った事を実感させるものでした。今回のコラムではPredictive Codingに関しての簡単な説明と実際に弊社で対応した企業の内部不正調査案件にてPredictive Codingを使用した事例をご紹介したいと思います。

[Predictive Codingとは]
 Eディスカバリをはじめとするリーガルプロセスの中で最も時間とコストがかかるのはドキュメントレビューでしょう。通常、調査対象となるデータを証拠保全し、データ処理をした後、弁護士による指示のもと、Date Filtering(日付による絞込み)やKeyword Filtering(キーワード検索)を行い、人が実際にレビューするドキュメント数の絞込みを行います。しかし、Custodian(調査対象者)数が数十名以上の案件となってくるとレビューすべきドキュメント数は数十万から多い時には数百万ドキュメント残ることがあります。これらのドキュメントレビューを完了する為には、レビュワーの人数にもよりますが、数週間から長い案件では1年以上かかる場合もあります。今後、企業等で保存されるデータ容量はますます増加していくと考えられますので、ドキュメントレビューにかかる負荷も更に大きくなるのは間違いありません。
 このドキュメントレビューの負荷を減らす技術として注目されているのがPredictive Codingです。Predictive Coding はTechnology Assisted Review (TAR)と呼ばれるコンピュータが人のレビューをサポートする機能になります。レビュワーがドキュメント毎に分類分けのタグ付けを行う事をCodingと言いますが、この作業をコンピュータがPredictive(予測的)に行う事からPredictive Codingと呼ばれています。

 Predictive Codingには大きく分けて下記の3ステップがあります。
1)レビュー対象の全ドキュメントのうち一部をコンピュータでランダムに抽出する
2)人が抽出されたドキュメントを実際にレビューし、Responsive(案件と関連有り)またはNon-Responsive(案件と関連無し)の分類分けを行う
*この分類分けされたドキュメント群をTraining Data Setと言う
3)Training Data SetをPredictive Coding技術により分析し、そこで学習した情報を元に残りのドキュメントに対してスコア付けを行う(スコアが高いドキュメント程、コンピュータはResponsiveの可能性が高いと分析)

 3)の分析で行なっている事を簡単に説明すると、ドキュメント内で使用されている単語の重み付けになります。例えば、ResponsiveとNon-Responsiveに共通して存在しているAという単語と、Responsiveにのみ存在しているBという単語がある場合、Bの方がResponsiveとNon-Responsiveを分別する上で重要な単語という扱いになります。単語を扱う際にはキーワード検索と同様に言語の違いによる問題があります。日本語は英語とは異なり単語と単語の間にスペースが無いので、日本語(日英混合)のPredictive Codingにおける単語の分析に関しても、英語のみのPredictive Codingに比べて、非常に高度な技術が必要になります。(コンピュータフォレンジック調査の経験のある方は日本語の検索に苦労された経験が一度はあるかと思います。)
 また、Predictive Codingによるドキュメントレビューの効率性を測る数値として、「Predictive Codingを使用した際のスコアの高いトップ25%以内のドキュメントにResponsiveドキュメントの90%以上が含まれること」というマーケットの要求するスペックがあります。全体の25%のドキュメントレビューが完了した時点で90%のResponsiveドキュメントのレビューを完了できる事になりますのでかなりの効率化が見込めます。

[Predictive Codingを使用した不正調査事例]
 調査依頼元となるS社の社員Aは数年間にわたり部品製造会社Z社に対して実態の無い部品の開発を発注し、社員Aは支払った金額から不当利益を得ている可能性のある事が、S社の内部調査で判明しました。弊社の調査士がS社の担当者と共に社員Aに気づかれないよう社用PCの証拠保全を行い、Eメールデータを中心に不正の確固たる証拠や不正を共謀している可能性のある関係者の洗い出し調査を行う事になりました。
S社は内部調査にてZ社の担当者やS社内で共謀している可能性のある人物をリストアップしており、まずは社員Aと彼らとのEメールコミュニケーションを調査するべく、名前やEメールアドレスをキーワードにして調査対象のEメールを絞込み、調査を開始しました。(50,000通程あったEメールがキーワード検索によって1,700通に絞り込まれました。)1,700通のEメールを調査した結果、本事案と関係していると思われる重要メールを146通確認しました。私たちはこの1,700通のEメールをTraining Data Setとし、全体の50,000通に対してPredictive Codingの分析を行いました。分析を行なった結果、いくつかのスコアの高いEメールが最初の調査対象から外れた48,300通の中から検出されました。内容を確認したところ、S社の内部調査では名前が上がっていなかった別の共謀者や、名前は上がっていたが、Eメールアドレスが個人アドレスの為、当初のキーワードには含まれていなかったものなど、重要な情報を見付ける事ができました。もちろん、時間をかけ残りのEメールを調査していけば、これらのEメールを見付ける事はできたと思います。しかし、このような不正調査においてはいかに早く情報を収集できるかが、企業が取る次のアクションを検討するうえでも非常に重要になります。Predictive Codingはうまく使いこなせば非常に優秀で画期的なソリューションである事を実感した案件でした。

【著作権は野﨑氏に属します】