第314号コラム:絹川 博之 主査 (東京電機大学 未来科学部 情報メディア学科 教授)
題:「日本語処理の歴史的経緯と日本語処理解析性能評価分科会設置の趣旨」

日本語処理解析性能評価分科会の設置の趣旨の前に、日本語処理の歴史的経緯を述べる。日本において、漢字を含む日本語のコンピュータ処理は、1960年代の後半に始まり、官公庁文書、新聞組版、保険証券の氏名等の編集印刷を目的としていた。1970年代までは、コンピュータメーカーが独自の漢字コード体系を定めてコンピュータ処理を実現していた。1978年JISが世界で最初の情報交換用漢字符号系JIS C 6226(後にJIS X 0208 と改称)いわゆる2バイトコード系のJISコードを定め、当初は6349字の漢字コードを含んでいた。同じ1978年、東芝が日本語ワードプロセッサ(日本語WPと略す)を製品発表し、以後各社が専用機としての日本語WPを製品発表し、日本における電子文書作成の幕開けとなった。

その後、パーソナルコンピュータ(PC)の出現に伴い、1バイトコード系のASCIIコードと両立・互換を可能とするべく、シフトJISが定められ、PCで漢字が扱えるようになった。合わせて、PC上に日本語編集ソフトウェアが実装され、日本語電子文書が本格的に作成され始めた。UNIX用のEUCも定められた。JISコードを基に、中国のGBコード、
韓国のKSコードが定められた。シフトJISは、左端ビットが‘0’の時ASCIIコードを、‘1’の時2バイトコードとして漢字を最大8836字収容可能であり、EUCは、3バイト可変で最大14637字(=8836+5801)収容可能であるが、いずれも収容文字の拡張が不可能なコード系であった。漢字は20万字あるとも言われており、シフトJISやEUCでは、符号化不可能な漢字が残ってしまう。また、PCの世界的な普及により、キリル文字、アラビア文字を初めとして世界中の文字の情報交換用符号系の設定が必要となり、1986年代に、PCメーカーによるUnicode Consortium(Unicode)で検討が始まった。

当初はISOと歩調を取っていたが、製品実装に合わせるべく、Unicodeによるde facto Standard化が先行した。2バイトを単位として符号化し、一部をその2単位(=4バイト)で符号化するUTF-16 (Unicode Transformation Format 16)では、1,048,576字を割付け可能で、世界中のほとんどの文字の符号化を可能としている。Unicodeでは、中国語、日本語、韓国語における漢字を、文字の意味と抽象字形を基にしたCJK統合漢字20,902字として統合定義し、他にrare漢字49,315字を定義している。可変長の多バイトで符号化するUTF-8は、ASCIIコードを完全に包含し、互換性を有している。このため、UTF-8は、オペレーティングシステム(OS)の標準文字エンコード、データ交換方式、ファイル形式に使用されている。UTF-8の文字符号化の考え方はシフトJISのそれと同じで、2バイトを多バイトに拡張したものと言える。現在のPCは、Unicodeにより文字符号化されている。

日本における電子文書は、上記の歴史的な経緯からUnicodeによるものだけでなく、古いものは、シフトJIS により符号化された電子文書も存在する。場合によっては、メーカー独自コードで符号化されたものも存在し得る。したがって、日本におけるデジタル・フォレンジックやeディスカバリのためのツールは、Unicodeだけでなく、それ以前の文字符号化に対応できる必要がある。また、電子文書等のデジタルデータから証拠データの検出や特定のためには、キーワード検索だけでなく、類似検索、ファジー検索、クラスタリング、文書フィルタリング、Predictive Coding等のアドバンス検索により、精度、再現率の高いツールが求められている。以上のことを客観的に評価するためには、客観的かつ有効な評価指標の設定と評価に使用するデジタルデータを取り揃えることが必要である。また、これらのためには、デジタル・フォレンジックツールを提供している各企業の協力が不可欠である。客観的な評価の実施は、ツール提供企業の技術進歩を促し、日本におけるデジタル・フォレンジック技術のさらなる発展に寄与するものと考える。

以上のことが日本語処理解析性能評価分科会設置の趣旨であり、IDF会員及び関係企業の積極的な参加を期待している。

以上

【著作権は、絹川氏に属します】