DjVu 技術概要

DjVuの圧縮

DjVuでは、文書の読みやすさなどの品質を維持しながら高圧縮を実現するために、セグメンテーション、JB2、IW44という技術を組み合わせています。

セグメンテーション技術

セグメンテーション技術とは、たとえば、雑誌の一ページから、主にそのページの読みやすさに直接的に影響する文字や、線や曲線を主体とするイラストといった部分(DjVuでは前景と呼ぶ)と、写真やページに施された模様のような、必要ではあるけれども、読みやすさには直接的には影響しないような部分(DjVuでは背景と呼ぶ)を分けて抽出します。このとき、前景や背景のようなものをレイヤーと呼びます。 DjVuでは、高品質のセグメンテーション技術によって圧縮率、品質の両立を実現しましたが、このセグメンテーション技術は、ノウハウの固まりであり、また、適用する文化圏に対する最適化は不可欠なため、アジア地域でのDjVuの一層の普及のため、現在でもセグメンテーション技術の改善を続けています。

DjVuの主な機能

レイヤーごとの圧縮

セグメンテーションの後、前景(文字やイラストといった部分)は、セグメンテーションによって分離された後に、形の情報と色の情報に分解され、形の情報(DjVuではマスクと呼ぶ)は、JB2といわれる技術で圧縮され、色の情報は、IW44といウェーブレット技術によって圧縮されます。このとき、前景の色情報は比較的、人間の目には知覚されにくいため、DjVuでは通常、この色情報を縦横ともに12分の1まで縮小しています。 そのため、前景の情報は非常に小さくなります。 また、セグメンテーションによって分離された背景(写真やページに施された模様)は、前景の色の情報と同様に、IW44によって圧縮されます。このとき、背景は、通常、縦横ともに3分の1に縮小されます。 これらの処理によって、DjVuは、前景、マスク、背景の3つの部分(一般的にレイヤーと呼ぶ)で構成され、この状態のことを3レイヤー構造と呼んでいます。

img_docExpress_technology02

JB2

img_docExpress_technology03JB2は、モノクロ画像を圧縮する技術で、DjVuでは、マスクを圧縮するために利用されています。JB2は、従来のモノクロ画像圧縮技術である、G3やG4とは異なり、モノクロ画像をシェープという単位に分解して圧縮します。 シェープは、通常、文書中に含まれる一つ一つの文字(たとえば、ひらがなの「あ」など)や線、図形などに対応します。 JB2では、モノクロ画像から抽出した各々のシェープから、一致するシェープ、類似するシェープを探し出し、一致するシェープの場合には、同じシェープ情報を共有し、類似するシェープの場合には、類似性を利用して効率的にシェープを圧縮します。この類似性とはたとえば、ひらがなでいえば、「く」と「ぐ」のような濁点、半濁点がついただけのような単純な場合もありますが、そのほかにも、スキャナで読み込んだ画像などの場合には、スキャンによって微妙に変形した同じ文字であったり、あるいは、全く異なる文字や形が偶然に類似シェープとして処理されることもあります。 このような方法によって、JB2は、文書中に頻繁に現れる同じ文字を的確に検出し、非常に高い圧縮率で圧縮することができます。
また、DjVuでは、PowerPointなどのプレゼンテーションのように、原色やそれに近い、非常に彩度の高い色の多い画像のために、Color JB2という技術を使うこともできます。 この方式では、JB2のシェープに対して、パレットと呼ばれる方式で色を保持するため、JB2とIW44による組み合わせよりも高い彩度を維持することができます。 また、この場合、いわゆる前景といわれる部分が必要なくなり、マスクと背景の2つのレイヤーになるため、2レイヤー構造とも呼ばれます。

img_docExpress_technology03

 

IW44

IW44は、JPEG 2000と同じ、ウェーブレット技術を基礎とした圧縮技術です。ウェーブレット(Wavelet;小さい波の意味)とは、画像の輝度変化を波として波を周波数成分ごとに分離して圧縮する技術です。 ウェーブレットの周波数成分は、通常、マラット配列とよばれる形式で保持され、その配列において、低周波成分はそのまま縮小画像として用いることができます。 また、ある低周波成分で構成される画像に対して、その一つ上の高周波成分を適用することによって、縦横2倍の大きさの画像を得ることができるため、この作業を繰り返していくことによって、順々に2倍、4倍、8倍・・・というように大きな画像を取得していくことができます。この構造がピラミッドに似ていることから、通常、この構造をピラミッド構造と呼びます。 この高周波成分を徐々に追加していき大きな画像を取得することができるという特徴から、ウェーブレットは、非常に大きな画像の配信に便利で、Google Earthなどの航空写真の配信や高精細画像の配信などにも利用されています。 また、その特性から、画像の一部分を取り出したりすることは比較的容易で、その際にCPUパワーやメモリをあまり必要としないことから、携帯電話やPDAといった比較的ハードウェアに制限があるようなデバイスでも利用が容易です。 IW44は、同じウェーブレットの実装であるJPEG 2000などと比較しても仕組みが単純で、高速な処理を実現でき、DjVuの高速性にも一役買っています。

img_docExpress_technology

Secure DjVuによる強力な暗号化

Secure DjVuは、DjVuに対して暗号化を施し、認証されたユーザーに対してのみ、表示、印刷、保存などの処理を許可し、また、閲覧期限を設定することもできます。ユーザー認証には単純なパスワード認証の他、認証サーバによるネットワーク認証を利用することもできます。

テキスト検索機能

DjVuは、文書としての読みやすさを実現するために、様々な圧縮技術を駆使していますが、一方で、単に高圧縮の画像を束ねただけでは、文書フォーマット として利用するのは難しいでしょう。 これを補うための技術が、透明テキストと呼ばれるデータです。 このデータによって、DjVuファイル上で任意の文字列を検索したり、あるいは、他の文書へのコピーペーストができるだけでなく、Windows向けのIFilterやMac OS X向けのSpotlightプラグインを用いることによって、OSの機能を使った検索やウェブ上での検索を実現することができます。

既存文書からのテキストの自動引き継ぎ

Document Express Desktopに付属のDjVu Virtual Printerなどを使ってDjVuファイルをOffice文書やPDFファイル、その他の様々なファイル形式から生成した場合には、変換ソフトウェアによって自動的にテキストデータが引き継がれます。

OCRによるテキストの自動抽出

紙文書からのスキャニングによって文書を作成した場合にはOCR(Optical Character Reader; 光学文字認識)によって認識されたテキストが付加されます。 DjVuでは、このOCRの過程で、高品質なセグメンテーションによって出力されたマスク情報を利用するため、PDFなどのフォーマットよりも高精度のテ キスト認識が可能です。 また、OCRによるテキスト抽出は、通常、98%以上の高認識率を誇りますが、場合によってはDjVu OCR Editorあるいは、DjVuXMLを使ってOCR結果を手作業で修正することも可能です。

img_docExpress_technology05

しおり機能

DjVuでは、しおり(ブックマークとも呼ばれる)を使って、文書内の特定の章や節などのページを簡単に閲覧することができます。 このしおりの編集には、Document Express Desktopを使用します。

img_docExpress_detail_outline

 

アノテーション機能

DjVuでは、単に文書を読むだけでなく、文書のさらなる活用を支援するため、アノテーション機能が実装されています。 アノテーション機能とは、DjVuのページに対して、付箋をつけてコメントを書いたり、あるいは、文書の一部にマーカーで色をつけたり、線や円を使って、 自由に書き込みを行ったりする機能です。 この機能を活用すれば、DjVu文書を用いて、複数の人々の間での情報共有をより円滑に進めることが可能になります。

img_docExpress_detail_annotation

ハイパーリンク機能

DjVu文書中には、他のページへのリンクや、Web上で公開されているページへのリンクを埋め込むことができます。 PDFから変換した場合には、元のPDF文書中のリンクは当然、そのまま引き継がれますし、Document Express Desktopを使って、手作業でリンクを追加したりもできます。 また、SDKに含まれるdjvuhref.exeを使えば、正規表現を使って、自動的にDjVuファイルにリンクを追加することもできます。

サムネイル機能

DjVuファイルには、一覧表示を高速に行うためのサムネイルを格納することができます。このサムネイルは、通常ならば、10ページ毎にまとめられて保存 されています。サムネイルはオプショナルな機能のため、すべてのDjVuファイルにサムネイルが保存されているわけではありません。DjVuファイルにサ ムネイルを追加したり、逆にサムネイルを削除してファイルサイズを小さくしたりするには、Document Express Desktopを使います。 Windows XP以降では、DjVuブラウザプラグインをインストールすることによって、エクスプローラ上でサムネイルを表示することが可能になります。 Windows Vista以降では、Shell Extension Packをインストールすることによって同等の機能を実現できます。

WIC (Windows Imaging Component)に対応

DjVu Shell Extension Packにより、Windows Imaging Componentにも対応しています。これによって、Windows Vista標準搭載のWindows フォト ギャラリー(Windows XPでは、無料のWindows Live フォト ギャラリーで 同等機能を利用できます)でDjVuを閲覧・管理できるようになっただけでなく、Windowsの次世代APIであるWindows Presentation Foundation上でプログラミングなしでDjVuファイルを表示したり、高度なシステムに統合したりすることが可能になりました。

製品情報

リンク先ページにて、個々の製品についてご紹介しております。

製品情報

導入事例

アジア歴史資料センター様 – 歴史公文書のデジタル・アーカイブ

読売新聞社様 – 新聞紙面縮刷版DVD-ROM

※当社DjVu及びDjVu製品は日本国内のみならず世界各国の政府機関をはじめ、多くの大手企業様にご導入いただいております。その一部をご紹介しています。

お問い合わせ

お問い合わせはこちらのフォームよりお問い合わせください。

お問い合わせフォーム

いますぐダウンロード

DjVuブラウザプラグイン