テキスト抽出の方法

Question

テキスト抽出の方法

[4658]テキスト抽出の方法投稿者：greekman 投稿日：07/04/05-06:53

過日、先方からギリシャ語入力をされたPDFデータをいただきました。
使用されていたフォントはTTFのOlympia(埋め込み)というギリシャ語で、
このテキストデータを転用して、ちょっとした注意書きを
作成したい、とのことでした。
そこでpdfデータをワードやリッチテキストに書き出して
使用しようと試みたのですが、これが文字化けしてしまいます。
ウィンドゥズでも試してみました。
こちらにはArial unicode Greekをインストールしましたが、
テキストに書き出したギリシャ語はNGです。
pdfから直接テキストをコピーペーストしてもNGです。
ギリシャ語のカゲも形もありません。
聞くところによると、もともとはマックのQXP6で作成されたpdfで、
私のマックにも同じフォントが入っているのですが、
書き出した後のテキストはギリシャ語にはならないのです。
マックはos10.2.8、ウィンドゥズはXPです。
ちなみにマックのイラストレータcs2で直接、PDFを開くと、
テキストは変換されますが、文字列(文字の下線)が細切れになります。
ちょうどQXPでEPS書き出ししたファイルをイラストレータで開いた状態と同じです。
フォント環境が同じなのに、アプリで違う結果が出ることも問題ですが、
PDFファイルからギリシャ語のテキストを上手く抽出する方法、
どなたかご存知の方は教えていただけませんか。よろしくお願いします。

» 4659

[4659]Re: テキスト抽出の方法投稿者：たき投稿日：07/04/05-08:25

» 4667

[4667]Re^2: テキスト抽出の方法投稿者：カリン投稿日：07/04/06-15:19

» 4674

[4674]Re^3: テキスト抽出の方法投稿者：greekman 投稿日：07/04/07-10:04

Answer 1

http://support.adobe.co.jp/faq/faq/qadoc.sv?225444+002
これに近いヤツかも
結論からすると、抽出はむずかしいかも。
AIで開いて繋げて行くか、元のテキストをRTF等で貰うしかないでしょう

Answer 2

QXPでEPS書き出ししたファイルをイラストレータで開いた状態の
“細切れになったテキスト”を全選択後にコピーし、イラストレータの
テキストでペーストすると（ほぼ）順番通りに繋がりませんか？

Answer 3

たきさん、カリンさん。
アドバイスありがとうございます。
これといった対処法はないかもしれませんが、
カリンさんの意見は応用が利きそうです。
今後も色々と試してみます。

> QXPでEPS書き出ししたファイルをイラストレータで開いた状態の
> “細切れになったテキスト”を全選択後にコピーし、イラストレータの
> テキストでペーストすると（ほぼ）順番通りに繋がりませんか？

	DICの銀の種類は1種類だけ？？？	DIC653に近い銀色を探しているのですが、DIC621だけしか無いのでしょうか。。。もしそうであれば、DIC653の灰色にちかい銀を指定するにはどのようにす... 続きを読む
	Indesignのテキストだけ書き出す方法	茶道具のカタログ（A4縦判・4/4C・中綴・24頁）です。WinのInDesignCS2を使って制作していますが、カタログから品番・品名・仕様・価格のテキスト... 続きを読む
	NHK「プロフェッショナル」のフォント	NHK「プロフェッショナル」で使われてるフォントって分かりますか？ [jukebox]-2006/03/05 22:28:13 [Mozilla/4.0 (c... 続きを読む
	PDFでプリンタ設定を指定しておくことはできますか？	Mac10.4、InDesignCS2、Acrobat7.0pro、です。よろしくおねがいします。PDFを作成する時、「文書のプロパティ」でファイルを開いたと... 続きを読む
	イラレ　線と線を繋ぎ、中に色を付けたい	はじめましてこんにちは。WIN XPでイラストﾚｰター10を使用しています。本を手本に使い方の勉強をしているのですが、あればいいなと思った操作の方法が載ってな... 続きを読む
	イラレで矢印キーが効かない	イラレ8.0を使用しています。オブジェクトを変形したり移動したりする時に矢印キーをよく使っているのですが、2～3日前から矢印キーを押しても何も反応しなくなりま... 続きを読む
	インデザインで面付けする方法	Ａ4の原稿２枚をＡ３の用紙両面に印字して40ページくらいの小冊子を作っています。ＤＴＰソフトはインデザインＣＳで、ＰＣはマックＧ５のＸです。　見開き印刷すると... 続きを読む
	フォントをコピーしろと言われたら	アホ営業から「フォントを持っていない外注に、コピーして渡したいので用意してくれ」と言われました。自分の上司と相談したうえで、「違法行為なのでお断りします」とつ... 続きを読む
	マンセル指定値からCMYK（+新彩色辞典）	はじめまして現在DIYショップ向けにPOPを作ってる新参者ですが、先方からマンセル数値での色指定で来たんです。先方はCMYK,PANTONEの数値は分からない... 続きを読む
	作成されたOfficeのバージョンを確認する方法は？	はじめて投稿させていただきます。Windows系Officeのデータ出力の仕事をしていますが、最近、作成されたOfficeのバージョンと出力するOfficeの... 続きを読む

テキスト抽出の方法

このページをシェア

アクセスの多い記事