第70号コラム:芝 啓真(株式会社フォーカスシステムズ フォレンジックセキュリティ室、IDF幹事)
題:「大容量化するデータの中から」
昨今、ハードディスク(HDD)の容量は増加の一途をたどっています。まだ私が学生だった頃は、“ギガバイト(GB)”と聞くと非常に大きなデータ量だと感じていました。しかし、最近では1テラバイト(TB)の容量を持つレコーダが発売されたり、小さなモバイルPCにも数百ギガバイトのHDDが搭載されていたりしています。TBの一つ上のペタバイト(PB)が当たり前になる時代もそう遠い将来でないと感じます。
このようなHDDの容量の増加に伴って、保存されているデータの数量も非常に増加してきています。しかしe-Discoveryにおいて、証拠として提出が必要なデータを効率よく絞り込むことは、非常に重要であり、訴訟コストを左右する重要なファクタとなり得ます。大量のデータの絞り込みの手法としては、de-Duplication(重複するファイルの削除)やキーワード検索による絞り込み、ファイル拡張子による絞り込みなどが挙げられます。
今回は大量のデータを絞り込む方法の一つであるde-Duplicationについて少しお話をさせて頂きたいと思います。de-Duplicationの方法としては、様々な方法があります。一つは、Hash値を使用する方法です。Hash値はフィンガープリントやメッセージダイジェストと呼ばれることもあり、Hash関数と呼ばれる一方向関数から求められる固定長のデータです。元のデータが少しでも異なれば、同じHash値が求められることはほとんどありません。その性質を利用し、お互いのファイルが同一かどうかを判断します。Hash値を求めるためにファイル名は必要ないので、ファイル名が異なっていても中身が同一かどうかの判断を行うことができます。
他の方法としてはメタデータを使用する方法があります。メタデータとは、“データについてのデータ”のことで、そのデータに関連する情報のことです。例えば文書ファイルであれば、作成日時や作成者、タイトルなどがメタデータです。デジタルカメラで撮った画像ファイルであれば、撮影に使用したデジタルカメラの型式、焦点距離、フラッシュの有無など、メールであれば、送信者、宛先、件名、送信日時などがメタデータに相当します。これらメタデータを適宜組み合わせて、ファイルが同一であるかを判断することも可能です。
これらの手法を使用して、どの範囲に対してde-Duplicationを行うかも重要です。例えば、同一人物のデータ内(デスクトップPCやモバイルPCなどを含む範囲)でde-Duplicationを行うと、その人物が持つデータ内で重複するデータが削除され、扱うデータが一つになります。また、複数の人物のデータ内でde-Duplicationを行うと、例えば複数の宛先に送信された同じメールを一つに絞り込むことができます。
また、完全に同一なファイルだけでなく、内容が似通った類似ファイルを見つけ出すNear de-Duplicationという手法も行われるようになっています。これによって、少し改変しただけの文書を一つの文書として扱い、更に効率の良いデータの絞り込みが可能になります。
以上のように、大量のデータの中から必要なデータを効率良く絞り込むde-Duplication手法は、大容量化するデータ量に伴って、e-Discoveryにおけるますます重要な技術の一つになってくると思います。
【著作権は、芝氏に属します。】