第753号コラム:野崎 周作 様(株式会社FRONTEO「IDF日本語処理解析性能評価」WG座長)
題:「ドキュメント調査における人工知能の活用」

2019年1月EDRM/デューク大学ロースクールのメンバーらが中心となりTAR(Technology Assisted Review)のガイドラインが発表されてから4年近く経過しました。eディスカバリや第三者調査委員会など大量のドキュメントレビューが必要なフォレンジック調査事案においてAIを活用することは当然ともいえる状況になってきていると感じています。本コラムではフォレンジック調査におけるAIの活用に関してポイントを解説します。

企業内不正が疑われる事案があり、社内の文書を調査・確認する作業を行うことになったとします。収集された調査対象文書の総数は100万ドキュメントとします。一般的な調査の流れとして、対象期間やキーワード検索を行い、調査対象文書の絞り込みを行い、全体の10%(10万ドキュメント)まで絞り込みを行ったと仮定します。AIが活用される以前はキーワードヒットしたドキュメントは全てレビューするしかありませんでしたが、AIを活用する事により人間がレビューするドキュメント数を更に絞り込むことが可能です。

まず、キーワードヒットした10万ドキュメントの中からAIに学習させるべきデータの候補をサンプル抽出します。無作為にサンプルとなるデータをしますが、どのくらいの数を抽出するかは、信頼度(Confidence Level)や許容誤差(Margin of Error)により統計的に母集団を反映できるサンプル数を計算します。目安としては、2000ドキュメント程度のサンプル数が必要となります。このサンプルを当該案件の内容を一番理解している人がレビューし、「関連あり」と「関連なし」に分類分けします。分類分けされたドキュメントを教師データとしてAIに学習させ、教師モデルを作成します。その後、残りの9万8000ドキュメントについて、学習した教師モデルによりスコアリングが可能となります。AIは「関連あり」の特徴が多いドキュメントほど高いスコアを付与するため、高いスコアのドキュメントから残りのドキュメントレビューを行っていくことになります。

一定のスコア以下のものはレビュー不要と判断し、対象文書のカットオフを行います。どのスコア以下をカットオフするかについて、その基準となるのが、教師データを分析することによって計算された再現率(Recall Rate)です。潜在的に存在する「関連あり」ドキュメントの80%以上を確認する場合、Recall Rateが80%となるスコアがカットオフのポイントとなります。カットオフをする予定の文書の中からいくつか無作為にサンプルをとってレビューを行い、その結果、「関連あり」の文書が確認された割合をElusion Rateといいます。Elusion Rateが一定の%以下であれば、スコアリングを信頼し、カットオフのスコアとします。Elusion Rateは母集団全体に占める「関連あり」の割合(Richness)によって変動し、eディスカバリの場合は原告被告双方の代理人弁護士同士の合意によって決まります。また、第三者調査委員会の場合には取り扱っている調査事案の性質や許容される調査期間によっても基準は変わってきます。

スコアリングを行い、スコアの高い順に並べ、カットオフしたものを除いたものについては、実際に人間がレビューする必要があります。多数の人間がレビューすると人によってドキュメントの解釈に差異が生じたり、1人の人間が長期にレビューを行う際にもプロジェクトが進むにつれて案件への理解が深まり判断軸がぶれたりすることが考えられます。そのため、レビューの品質を確認するためのQC(Quality Control)が必須となりますが、このQC工程にもAIを活用しています。ランダムにQCを行うのではなく、AIのスコアと人間の判断が大きくずれている箇所(例えば、スコアが高いが「関連なし」とされているドキュメント群)を中心にQCを行うことで効率的にプロジェクト全体のレビュー品質を担保します。

最後にこれまでに記載したAI活用のポイントをまとめます。

  • AIによりスコアリングする事で重要なドキュメントからレビューする事ができる
  • AIによるカットオフにより人間がレビューすべきドキュメントを削減できる
  • AIを活用したQCを行うことによりレビュー品質を上げることができる

結果としてAIを活用していないドキュメントレビューと比べ、早期に重要なドキュメントを確認でき、調査にかかる時間と費用の大幅な削減を実現し、かつ高品質の調査結果が得られます。

以上

【著作権は、野崎氏に属します】