Oh!Super164 取り留めのない日記のような

2022/7/4 月曜日

PdfStreamReader

Filed under: c# — pecos @ 0:34:04

WriterがあってReaderが無いのは片手落ちだろう
と言う軽い気持ちで試験実装を始めてみたのだが、PDFの奥は深い、、、どころかマリアナ海溝が浅瀬に感じる程であった。そもそもが組版システムなので印刷技術やPostscript、フォントや文字コードに合字、結合文字等の知識、そして外国語の知識まで必要だ。多分、完璧なものは無理ゲーなので、どこで妥協点を見出すかを先に考えた方が賢明なくらい。手持ちのPDFが読めるようになって来たものの、想定外の作り方をされたPDFだとお手上げだろうw
好みの方法だけを使える出力側と異なり、仕様上許される全ての手段に対処しないといけない入力側はやっかいだ。それに加えて文字列に変換が出来ない作りになっているものも存在する。あくまでPDFは文字のグリフを扱うものでグリフさえ特定できるのであれば必ずしも可読な文字コード(UNICODEやShift-JIS等)に変換出来なくても良いのだ。そういった作りのものは光学的(OCR)にしか解読出来ない(滅多に無いだろうけど)。

コメントはまだありません »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Powered by WordPress