ちょっとPDFのフォーマットについて調べてみる
Adobeから仕様書は出ているので、つらつらっと読んでみるが、文字のエンコードがさっぱりわからない。どうやらPDFでは、文字のエンコードは表示するフォントに依存し、フォントに指定されているエンコードに従うらしい。エンコードに”Identity-H”が指定されていると、文字列にはCIDと呼ばれるコードが入っている。これは文字の字形を識別する特殊なコードで、一般のエンコードとは異なるものらしい。で、CIDをUNICODEに変換するテーブルがPDFに含まれていたので、これを元に変換を行うと確かに意味のある文字列として変換出来た。
ややこしい、、、
2017/2/12 日曜日
PDF考察
コメントはまだありません »
No comments yet.
RSS feed for comments on this post. TrackBack URL