テキスト抽出の方法

» 4658
[4658]テキスト抽出の方法 投稿者:greekman 投稿日:07/04/05-06:53
過日、先方からギリシャ語入力をされたPDFデータをいただきました。
使用されていたフォントはTTFのOlympia(埋め込み)というギリシャ語で、
このテキストデータを転用して、ちょっとした注意書きを
作成したい、とのことでした。
そこでpdfデータをワードやリッチテキストに書き出して
使用しようと試みたのですが、これが文字化けしてしまいます。
ウィンドゥズでも試してみました。
こちらにはArial unicode Greekをインストールしましたが、
テキストに書き出したギリシャ語はNGです。
pdfから直接テキストをコピーペーストしてもNGです。
ギリシャ語のカゲも形もありません。
聞くところによると、もともとはマックのQXP6で作成されたpdfで、
私のマックにも同じフォントが入っているのですが、
書き出した後のテキストはギリシャ語にはならないのです。
マックはos10.2.8、ウィンドゥズはXPです。
ちなみにマックのイラストレータcs2で直接、PDFを開くと、
テキストは変換されますが、文字列(文字の下線)が細切れになります。
ちょうどQXPでEPS書き出ししたファイルをイラストレータで開いた状態と同じです。
フォント環境が同じなのに、アプリで違う結果が出ることも問題ですが、
PDFファイルからギリシャ語のテキストを上手く抽出する方法、
どなたかご存知の方は教えていただけませんか。よろしくお願いします。
» 4659
[4659]Re: テキスト抽出の方法 投稿者:たき 投稿日:07/04/05-08:25
*http://support.adobe.co.jp/faq/faq/qadoc.sv?225444+002
これに近いヤツかも
結論からすると、抽出はむずかしいかも。
AIで開いて繋げて行くか、元のテキストをRTF等で貰うしかないでしょう
» 4667
[4667]Re^2: テキスト抽出の方法 投稿者:カリン 投稿日:07/04/06-15:19
QXPでEPS書き出ししたファイルをイラストレータで開いた状態の
“細切れになったテキスト”を全選択後にコピーし、イラストレータの
テキストでペーストすると(ほぼ)順番通りに繋がりませんか?
» 4674
[4674]Re^3: テキスト抽出の方法 投稿者:greekman 投稿日:07/04/07-10:04
たきさん、カリンさん。
アドバイスありがとうございます。
これといった対処法はないかもしれませんが、
カリンさんの意見は応用が利きそうです。
今後も色々と試してみます。

> QXPでEPS書き出ししたファイルをイラストレータで開いた状態の
> “細切れになったテキスト”を全選択後にコピーし、イラストレータの
> テキストでペーストすると(ほぼ)順番通りに繋がりませんか?