コラム第911号:「デジタルフォレンジック調査のドキュメントレビュー関連技術の変化」
第911号コラム:白井 喜勝 幹事(株式会社FRONTEOリーガルテックAI事業本部テクニカルフェロー)
題:デジタルフォレンジック調査のドキュメントレビュー関連技術の変化
国内の不正調査や海外のディスカバリー対応において証拠文書を特定するドキュメントレビューは不可欠です。20~30年以上前までは関連すると想定される文書は全て紙で(電子データも紙に印刷して)目視で確認されていたことが多かったと聞いています。1990年くらいから通常業務でもコンピュータが徐々に利用されるようになり、証拠物の電子データの比率が高まりかつデータ量自体も増える中で、全文書を人が確認するのが困難になったため、電子データから特定の内容を抽出する技術が必要になりました。本コラムではこの20年くらいのドキュメントレビューのための主な関連文書の抽出技術に関してまとめてみます。
最初は、キーワード検索です。案件に関連あると思われるキーワードを考えて、それを用いて検索し、ヒットした文書を目視確認します。キーワード検索は、単純な単語1語のものから、複数の単語をAND、OR、NOTというようなブーリアン演算子を用いた検索式にしたもの、さらには類義語を複数ORで繋いで()でグループ化し、グループ同士をANDで繋いで特定の意味で絞り込むような、複雑なグループ化検索も頻繁に使われるようになりました。
また、2つ以上の単語をANDで繋いで絞り込む手法では、例えば1ページ目と5ページ目にそれぞれの単語が出現しても検索ヒットしてしまうため、本来のANDで絞りたい意図と関係ない文書がヒットすることが問題視されました。そこで、特定文字数距離間での近傍(Proximity)検索という手法が開発され、現在でも良く使われています。これも、類義語グループ間の近傍検索の複雑な表記ができるようになり、10年以上前から多くのレビューツールにその機能が実装されています。
さらに15年くらい前からは、検索で絞り込んでも膨大な文書が残るために、多くの案件で人によるドキュメントレビューにかかる時間とコストが大きくなり、問題視されるようになってきました。そのためキーワード検索に加えて機械学習(AIと呼ばれる)が用いられるようになり、その学習結果からある閾値を超えたものを全て提出対象(=関連あり)文書として提出する試みもなされるようになり、Predictive Coding(プレディクティブコーディング)と呼ばれました。これが初期のAIによるドキュメントレビューです。実際には、プレディクティブコーディングで関連あり文書と特定されたものの中には、無関係な書類も沢山存在することも多く、それらを除くために次第に機械学習した評価スコアの高いものから人が確認するという作業が殆どの案件で行われるようになりました。また、プレディクティブコーディングの精度が良くなければ、「関連なし」に分類された文書の中にも重要文書や関連あり文書が漏れ含まれることもあり、結局AIの精度が上がらなければ人による確認は避けられませんでした。そのため、統計学的な類推手法を用いて、重要・関連あり(ディスカバリーでは提出対象)文書の実際の文書数のうちの何%を取得できたか、すなわち再現率(Recall Rate)%にてAIを用いたドキュメントレビューは議論されるようになり、AIは人がレビューする際の優先順位付けに利用されるのが主流になりました。ここで、例えば「再現率90%を達成できたらドキュメントレビューを完了する。」というような再現率の目標設定を行い、関係者がその目標再現率に合意することで、関連文書が殆どないAIの低評価文書に対する無駄なドキュメントレビューを取りやめ(カットオフと呼ばれる)、AIを利用した効率化が実施されるようになりました。
2012年頃の時点では、主に米国のディスカバリーにおいてですが、再現率は「99%くらいなければ」「いや100%だ」等の無茶な要求が現場レベルでも飛び交っておりましたが、徐々に現実的になり2013年くらいには90%くらい、2015年くらいには案件によっては80%に満たなくても許容される例も出て来ました。日本国内でも、この頃から徐々にAIを使って、ドキュメントレビューを設定した再現率を超えたらカットオフすることが許容されるようになってきました。
余談ですが、以上のような検索やAIの分析技術は、いずれもそのレビューツールにおいて文書のテキスト(文字)が正しく認識され表記できていることが大前提になります。特に日本語の場合は、アルファベットではなく漢字、ひらがな、かたかな、全角、半角といった表記方法の他に、コンピュータ利用の歴史が長い故に、日本語文字表記のためのコード体系が多種あり、これが正しく認識されないと検索もAIも正しく動きません。IDFでは日本語処理解析性能評価委員会・分科会がレビューツールも対象に日本語の文書を正しく処理分析できるかの評価の活動を行っています。
ドキュメントレビューに用いられる機械学習AIは、当初は、TAR(Technology Assisted Review)と呼ばれたり、CAR(Computer Assisted Review)と呼ばれたりしていましたが、10年くらい前から前者の呼称で落ち着いた印象です。特に単純な当初の機械学習をTAR 1.0と呼び、レビュー結果を蓄積して頻繁に再学習する方法をTAR 2.0あるいはCAL(Continuous Active Learning)というように区別して呼び始めたのは2013年前後くらいだったと記憶しています。
今流行の生成AIも徐々にドキュメントレビューでは使われ始めています。安価で利用できる一般的なクラウド上の生成AIと違って、フォレンジック調査やディスカバリーでのドキュメントレビューでは企業や個人の機密データを扱う必要があるため、閉じた独立した環境で実施する必要があり、そのためのコストや処理速度、目視での結果確認方法では未だ課題も多いと思います。しかしながらその技術の精度自体は加速度的に良くなっている印象が強く、ドキュメントレビューの時間とコストの節約や品質の向上に将来的には大きく寄与すると期待しています。
【著作権は、白井氏に属します】

