第565号コラム:野﨑 周作 幹事(株式会社FRONTEO 執行役員 技師長 クライアントテクノロジー部 部長)
題:「フォレンジック調査における人工知能活用事例」
eディスカバリや不正会計等の第三者委員会調査の際に発生する膨大なドキュメントレビューの際にTAR(Technology Assisted Review)やPredictive Codingと呼ばれる人工知能技術(以下、AI)の活用がここ数年でかなり浸透してきてると感じています。第三者委員会の調査報告書にもドキュメントレビューにAIを活用したと明記される事案も出てきています。
AIの学習の流れを簡単に説明すると、調査を行うエキスパートが一部のデータ群を事案に「関連するもの(Responsive)」と「関連しないもの(Non Responsive)」に仕分けを行い、その仕分けた結果(教師データ)をAIに学習させ、モデルを構築します。この時AIに学習させる教師データというのは仕分けられたデータ全体であり、エキスパートがデータ内のどの部分に関連性があるのか指し示す事はしません。あくまでAIがデータ全体から事案に関連するデータに含まれる特徴を学習します。その後、新たに投入された未知のデータ群をAIによって分析する事により、1つ1つのデータにスコアが付与され、スコアが高いデータほど関連性のあるデータと同じ特徴をもっていると推測できます。
EメールやMicrosoft Officeファイルのような所謂一般的なドキュメントファイルの分析以外でこのAIを活用した事例を紹介します。
(1)台湾当局による機密情報漏えい事件の捜査
台湾国内のある会社員A氏はB社を退職し、C社に転職しました。その際にB社からプログラミングコードを含む機密情報を不正に持ち出した疑いが指摘され、台湾当局が捜査に乗り出しました。当局はB社に帰属する持ち出された可能性のあるオリジナルのコードデータを入手し、それを教師データとしてAIに学習させ、A氏が所有していたC社の膨大なデータセット に対してスコアリングを実施しました。AIのスコアリング結果を確認したところ、スコアリング上位にオリジナルのコードデータと内容が酷似する コードデータが含まれている事を確認しました。プログラミングコードという専門の知識がないと判別が困難なデータであり、かつ膨大なデータセットの中から短時間で証拠を見つけることができた事例となります。
(2)金融機関による音声データからのクレームチェック
現在多くの金融機関では、営業員が作成した金融商品販売時の応接記録や顧客から寄せられる様々な意見・申し出の記録が数多く作成・蓄積されており、それらの記録におけるコンプライアンス違反のチェック及び顧客からの苦情等の抽出に係る確認業務を行っています。
金融機関A社は営業員が顧客と通話した音声データを保存しており、また同時に音声のテキスト変換技術を用いてテキスト化したデータを合わせて保存していました。A社は通話中にお客様から営業員に向けられた苦情・不満といったクレーム情報をいち早く検知できないかという目的で音声テキスト情報の活用を検討しましたが、テキスト変換技術が進歩しているとはいえ、お客様が外で通話されている環境においてはクリアな音声にはならず、結果としてテキスト化された情報にも誤変換が多く、そのまま人間が読んでも理解が困難なものが多く含まれていました。そこでA社はAIを活用してのチェックを評価しました。実際にお客様からクレームが入った際に原因となった営業員との通話に該当する音声テキストを教師データとして学習させ、母集団となる音声テキスト群に対してスコアリングを実施しました。AIのスコアリング結果に従い、スコアリング上位の音声テキストに該当する音声通話を確認したところ、お客様が不満を持たれている可能性の高い通話を効果的に検出できていることが分かりました。分析するとAIはテキスト変換技術に固有の誤変換の傾向や人が会話しながら感情を元に発する言葉にならない声(例えば、「え~」「う~」「ん~」など)を拾った時のテキスト化傾向などを教師データとなる音声テキストから特徴として学習できている事が推察されました。
2つの事例の共通点として、AIが教師データ全体から学習を行う事により、人間では気付くのが困難な特徴を抽出しモデル化が出来ている事と、膨大なデータ群に対して短時間で調査を行えるという利点が挙げられます。フォレンジック調査においては日々蓄積されていくビッグデータの中でもダークデータと呼ばれる収集・蓄積されるだけで活用されていないデータ(動画データ、音声データ、非構造化データ全般)からどれだけ調査に有益な情報を得られるかが今後更に重要になると考えられ、その中心としてAIの活用が進んでいくと考えられます。
【著作権は、野﨑氏に属します】