PDFからテキストを抽出

[6669]PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 11:04
この掲示板にはいつもお世話になっています。

早速質問なのですが、InDesign CSでPSデータを作成し、それをDistiller 6.0を使ってPDFにしたのですが、都合上そのPDFから任意のテキストを抽出したい事がありAcrobat 6.0で開いてテキストを選択、コピーしてテキストエディタに貼り付けたところ、文字が化けてしまって使えませんでした。

4.0でも試してみたのですが、結果はコピーすることは出来ても、ペーストを選ぶことすら出来ませんでした。

InDesignで書き出したPSから作成したPDFの文字を抽出したい場合、何か方法はあるのでしょうか?
イラレ等で作成したPDFは文字を選択してコピー、ペーストすれば文字は取れますよね。これと同じ事をしたいのですが。

InDesignでもPDF書き出しを使って作成したPDFからは文字がコピペで取れるのですが、都合上PS書出しからのPDFと言うのが作業工程になっているので、この場合別に抽出用のPDFを作成しなければなりません。
なるべくなら二つのファイルを用意したくは無いので(管理の都合上)何か方法があるならご教授願いたいのですが。

長文で失礼しました。
» 1
[6669へのレス]Re: PDFからテキストを抽出 投稿者:YUJI 投稿日:2005/07/19(Tue) 11:31
AcrobatでそのPDFを開き、「別名で保存」でフォーマットを「テキスト」にして保存してはどうですか。
» 2
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 14:05
YUJIさん、早速のお返事ありがとうございます。

InDesignで作成したPDFをテキストで保存してみたのですが、やはり文字が化けていて使えませんでした。

InDesignで直接書き出したPDFは抽出可能で、PS書き出しすると文字が化けると言うのは、ポストスクリプトに変換する際に直接書出しとPS書出しとでは文字のコード等が違うのでしょうか?

何分、そう言った事に疎いのでよく分からないのですが、コードが違うと抽出は出来ないんですよね?

私の周りでも文字抽出で悩んでいる方が多いので、解決できれば良いなと思うのですが・・・。
» 3
[6669へのレス]Re: PDFからテキストを抽出 投稿者:m_ogawa 投稿日:2005/07/19(Tue) 14:21
Acrobat6はMac版でしょうか?
Mac版では2バイト文字関連で制限があります。

http://support.adobe.co.jp/faq/faq/qadoc.sv?222745+002
» 4
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 16:31
m_ogawaさん、お返事ありがとうございます。Acrobat(その他のソフトも全て)はウィンドウズ版です。

添付していただいたページで確認したところ、マックでは直接PDFを作成する方法を推奨しているようですが、現在の私の環境ではPS書出しからPDFがメインですので、やはりファイルを二つ用意するのが無難なのかもしれませんね。

ウィンドウズでもマック同様の問題があるのでしょうかね?
» 5
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 16:35
追加ですが、AcrobatDistillerのバージョンも6.0、4.0両方試してみたのですが、結果は同じでした。

Distillerのバージョンによる違いかと思ったのですが、そうでは無いような感じです。
» 6
[6669へのレス]Re: PDFからテキストを抽出 投稿者:m_ogawa 投稿日:2005/07/19(Tue) 17:21
手元の環境(Acrobat7ですが)ではPSファイルから書き出したPDFでも
大丈夫なのですが…

PDFを開いた際に文書のプロパティでフォントはどうなっているでしょう?
(選択したPSプリンタのフォントの送信の設定も)
» 7
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 18:31
m_ogawaさんの環境ではPS書き出ししたPDFからでもテキストを抽出出来るんですね。環境はウィンドウズですか?

それと、色々と調べてみたのですが、私が現在メインで使用しているフォントがヒラギノ(True type)なのですが、どうやらTrue typeフォントが抽出出来ない感じなのです。

試しに小塚明朝を使用してみると、PS書出しからでも文字抽出できました。
helveticaも抽出できました。

もしかしてInDesignを使っている方にはこれは常識なのでしょうか?もしそうなら少し恥ずかしいです。

それと文書のプロパティですが、PS書き出しの設定で、フォントダウンロードに「サブセット」、PPDフォントをダウンロードにチェックを付けている状態でのPDFですと、全てのフォントに埋め込みサブセット、種類:TYPE 1(CID)、エンコーディング:Identity-Hとなっています。
» 8
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/19(Tue) 18:33
追加ですが、Distillerの設定で全てのフォントに埋め込むにチェックを入れています。
» 9
[6669へのレス]Re: PDFからテキストを抽出 投稿者:MM岩手 投稿日:2005/07/19(Tue) 20:11
>種類:TYPE 1(CID)、エンコーディング:Identity-Hとなっています

TrueTypeからTYPE 1に変換されてます。
#これがもとで化けるTTFもありますね。

ところが、InDesign CS2 (デモ版;)で試したら
LEVEL 3でPS化(プリントやEPS書き出し)した場合TrueType(CID)のままで埋め込まれて、Acrobatで文字も拾えました。

LEVEL 2でPS化した場合だとCS1と同じで、へのへのでした。

#無性にCS2欲しくなった。
» 10
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/20(Wed) 09:12
MM岩手さん、情報ありがとうございます。

確かに会社の人とも「TYPE 1になってるね~」って話はしていたのですが、そもそも「TYPE1ってなに?」ってレベルなんです。

CS2ではTrue Typeの状態でOS書出し出来るので、Acrobatで文字を抽出出来るって事なんですよね?

それなら私もCS2欲しいですね~。何だか色々便利そうだし。
» 11
[6669へのレス]Re: PDFからテキストを抽出 投稿者:川村 投稿日:2005/07/20(Wed) 11:47
以下のページをご参照下さい。
http://www.adobe.com/support/techdocs/329611.html

Background informationに以下のような記述があります。
InDesign CSはPDF作成の際に、OpenType (OT)、 Type 1、CID形式のTrueType (TT)フォント、またはdouble-byte文字のグリフを正しくエンコードしない。
InDesign CS2はPDF作成の際に、OpenType、 Type 1、 TrueTypeフォントのグリフを正しくエンコードする。
InDesign CS及びCS2は、CID形式のOpenTypeフォントのグリフを正しくエンコードする。

プリント処理(PS作成)にもこの影響があるようです。Mac OS XのPostScriptドライバーのせいだけではないようです。
» 12
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ゆっこ 投稿日:2005/07/20(Wed) 13:37
InDesign 2 や CS から書き出した PSDistillerRIP に通すと

MS-Mincho-90ms-RKSJ-H not found, using Courier.
%%[Using embedded font MS-Mincho-90ms-RKSJ-H to avoid the font substitution problem noted earlier.]%%

このようなメッセージ(log)が出てました。だからといって文字が化けてしまうことはありませんでした。
(化けてないようなのであまり気にしてなかったです。)
CS2 から書き出した PS では、このようなメッセージが出なくなりました。これも
InDesign CS2はPDF作成の際に、OpenType、 Type 1、 TrueTypeフォントのグリフを正しくエンコードする。
ようになったからでしょうか?
逆にちゃんと出力出来るのか心配になってきました。。。
» 13
[6669へのレス]Re: PDFからテキストを抽出 投稿者:川村 投稿日:2005/07/20(Wed) 16:09
WinでもMacでも共通して起こり、CS2やQuarkXPress 6で正しく書き出されることを考えると、CSのプリント処理(PS作成)の問題と思われます。PS RIPDistillerがその問題を吸収し、表示やプリント上は問題ありませんが、PDFから文字処理(コピーや検索等)が正しくできません。

CS1でTrueTypeフォントを使用するとこのような制約があるとの認識が必要です。PDFを直接書き出すと問題ないというのは、先のAdobeの文書の内容と矛盾する動きですが、日本語版は処理が違うのかもしれません。
» 14
[6669へのレス]Re: PDFからテキストを抽出 投稿者:MM岩手 投稿日:2005/07/20(Wed) 16:54
川村さん:
>PDFを直接書き出すと問題ないというのは、先のAdobeの文書の内容と矛盾する動きですが、日本語版は処理が違うのかもしれません。

# 英語は得意でないので、恐れながら。。
先のページにはCS2で1byteフォントの直接PDF書き出しが改善されたという話で書いてありませんか?
#参考にしました日本語ページ (CS2未対応)
http://support.adobe.co.jp/faq/faq/qadoc.sv?223569+002

ゆっこさん:
>逆にちゃんと出力出来るのか心配になってきました。。。

あくまでも、ちなみになんですが、
Acrobat 7を使うようになってから、ずっと、
TrueTypeが埋め込まれたPDFからPS化(プリントやEPS)するときは
あえてTrueTypeをそのまま書き出す設定を使うようにしてみてました。
#詳細設定/PostScriptオプション/CIDFontType2をCIDFontType2として出力(PSバージョン2015以上)にチェック。
(これまでのAdobeアプリ以外では)TrueTypeフォントはTrueTypeのままでPDFに埋め込まれるのが普通ですし。
実際特に問題なく流れてます(当方では;)。
むしろこれまでだと文字の形の化けまでみないといけなかったのが不要になり、便利になったと感じています。

心配があるとすれば、もし最終的にTrueType入りPDFからPSバージョン2015以上でないRIPで出力する場合は、
相変わらず「Type1変換がうまくいく書体だけ」で制作しておく必要がありそうですね。
#川村さんから教ていただいた情報によると、InDesign CS(1)にはCID形式のOpenTypeフォントがおすすめみたいですね(^^)。
» 15
[6669へのレス]Re: PDFからテキストを抽出 投稿者:あかつき 投稿日:2005/07/20(Wed) 17:52
Windows2000+ID(CS1)で出力業務を担当しています。
QI+で面付けをしているので、IDのデータをPostscriptに書き出し、DistillerPDFに変換しています。

TrueTypeフォントを使用しているファイルをPDFにする時に、ゆっこさんと同じように、

Using embedded font MS-Mincho-90ms-RKSJ-H ~

のメッセージが出ていました。

当方でも文字化けはしていなかったので、放置していたのですが、ちょうど今日出力しようとした物件(ダイナラブのTrueTypeフォントだけで作成)ではPDFRIPに投げたら「LimitCheck」エラーで出力できませんでした。
総計80ページのファイルで、全ページ一括でPDF化してRIPに投げるとNG。10ページずつPDF化したものはOKでしたが、そのファイルをバインドするとNG。直接PDFを生成してもやはりNG。TrueTypeフォントをすべてOpenType(小塚)に置換するとOKだったので、「LimitCheck」の原因はフォントにあると推測しています。

やはり、川村さんがおっしゃるように、CS1ではTrueTypeフォントからの出力には制限(&問題)があると考えたほうがよさそうですね。

以下は悪あがきですが、
「MS-Mincho-90ms-RKSJ-H」の後ろの「-H」って、文字の縦組み/横組みの符号でしたよね?
なので、Truetypeフォントも出力時にCS内部で文字の縦組み/横組みを判別、Postscriptフォントと同じようにフォント名に縦・横の符号を付加しているために正しくエンコードできないのではないかと考えました。
試しに、CSからPSを書き出す際にフォントをダウンロードさせずに書き出し、Distiller6に投げてみたのですが、「MS-Mincho-90ms-RKSJ-H」が見つからないと言われ、フォントは埋め込めませんでした。
ちなみに、MM岩手さんが挙げられた、アドビのサポートデータベース(http://support.adobe.co.jp/faq/faq/qadoc.sv?223569+002)に、「(CSからの出力時)フォントは出力機のプリンタフォント名で送信される」という記述がありました。

MM岩手さんがおっしゃるように、単純にAcrobat7を使えばいいかもしれませんが、InDesignPageMaker6.5+Win9x系の時みたいに、フォントの送信方法を出力時にコントロールできるといいのになあ、と思ってしまいました。
» 16
[6669へのレス]Re: PDFからテキストを抽出 投稿者:まるべた 投稿日:2005/07/20(Wed) 18:30
うちの場合(Mac、CS1)、RIP(Fuji CelebraNT)にインストールしてないフォントについて

Using embedded font MS-Mincho-90ms-RKSJ-H ~

のログがでます。
CIDでも出ますよ。
しかし、OpenTypeだとでません。不思議だぁ~。
» 17
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ゆっこ 投稿日:2005/07/20(Wed) 18:54
MM岩手さん
TrueTypeフォントはTrueTypeのままでPDFに埋め込まれるのが普通ですし。
実際特に問題なく流れてます(当方では;)。
むしろこれまでだと文字の形の化けまでみないといけなかったのが不要になり、便利になったと感じています。

えー!!
化けてないかチェックしないといけなかったのですか!!
いままでの ver.2 や ver.CS の PS は危険だったんですね。
TrueType を Type1 にしていたのですか(Type1がどういうものなかよくわかりませんが)知らなかった。。。
今、確認しましたが、確かにWordからDistillerで変換したPDFでは、TrueTypeで埋め込まれてます。
だから、Word→DistillerPDFacrobatからのPSでは
Using embedded font MS-Mincho-90ms-RKSJ-H ~
が出なかったんだ。これも不思議に思ってたんです。

ver.2 や ver.CS はもう使いたくないですね。こわーい
» 18
[6669へのレス]Re: PDFからテキストを抽出 投稿者:MM岩手 投稿日:2005/07/20(Wed) 19:31
> ver.2 や ver.CS はもう使いたくないですね。こわーい

# (・_・;) 怖がらせてしまった。。

変換出力と相性の悪い書体(というか文字)は限られてるようなので
DTPWiki「なんか変ダョこの書体」で
http://dtpwiki.jp/?%A4%CA%A4%F3%A4%AB%CA%D1%A5%C0%A5%E7%A4%B3%A4%CE%BD%F1%C2%CE
見つけたら情報共有しませんか?

p.s.
そういえば、以前こちらで話題になりました
HGGothicEが含まれたPDFを配置してると
プリントできない問題もCS2で直ってるみたいですね。
» 19
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ゆっこ 投稿日:2005/07/20(Wed) 20:34
今、思い出したことがあります。
半年ぐらい前まで EPSON LP-8000C(RIP PS-5500)のカラーレーザープリンターを使用していました。
このプリンターに InDesign 2、CS、Illustrator 10からプリントすると「invalid font」のpsエラーでプリントできなかったんです。
いちいちPDFにしてAcrobatからプリントしていました。不思議とAcrobatからはプリント出来たんです。AcrobatからのプリントがOKって気づくまで大変苦労しました。Illustratorアウトラインでいけたんですが、InDesignアウトライン取るとずれたりするので。。。
EPSONやAdobeに問い合わせてもはっきりとしたことはわからず、RIPが古いので対応していないのではというあいまいな回答でしたが、
原因は TrueType を Type1 にしていたからでしょ。RIPが古いからじゃないじゃん。

TrueType を Type1 に変換でもう一つ
うちの会社には、ELWIN(エルウィン)という知る人ぞ知る MOTOYA 製の組版機(Windowsソフト)もあります。
このソフトから書き出したPSからPDFを作ると文字検索が出来ないんです。それで MOTOYA に問い合わせるとTrueType を Type1 として PS を書き出しているからでした。Type1 に変換したほうが (TrueType に対応していない)古い RIP でも出力できるから と聞いたような気がします。
確かに ELWIN で TrueType 使用でトラぶったことはないですし、EPSON LP-8000Cでもプリントできていたし、Using embedded font MS-Mincho-90ms-RKSJ-H ~も出ないし。

InDesignとは、比べられないかもしれないけど、
InDesignは、TrueTypeを安全に出力できるType1にしているつもりが、危険なType1にしてたってことなんでしょうか?
PSを作ったAdobeさんのソフトなのに。。。

いろいろ勉強になりました。
» 20
[6669へのレス]Re: PDFからテキストを抽出 投稿者:ちび太 投稿日:2005/07/21(Thu) 10:37
皆さんのご意見、本当にためになりました。
何だか私もCSを使うのが怖くなってきましたね~。
とは言え、外部との関係もあり、簡単にCS2には出来ないし。

今現在のところ、テキスト抽出、検索はInDesignから直接書き出したPDFを使うのは無難なのでしょうね。

本当に皆さんには色々と教えていただいて、感謝です。
本当にありがとうございました。
この記事の書き込み元へのリンク (コメントや質問などはこちらへどうぞ)