テキスト抽出の方法
投稿日時:
[4658]テキスト抽出の方法 投稿者:greekman 投稿日:07/04/05-06:53
過日、先方からギリシャ語入力をされたPDFデータをいただきました。
使用されていたフォントはTTFのOlympia(埋め込み)というギリシャ語で、
このテキストデータを転用して、ちょっとした注意書きを
作成したい、とのことでした。
そこでpdfデータをワードやリッチテキストに書き出して
使用しようと試みたのですが、これが文字化けしてしまいます。
ウィンドゥズでも試してみました。
こちらにはArial unicode Greekをインストールしましたが、
テキストに書き出したギリシャ語はNGです。
pdfから直接テキストをコピーペーストしてもNGです。
ギリシャ語のカゲも形もありません。
聞くところによると、もともとはマックのQXP6で作成されたpdfで、
私のマックにも同じフォントが入っているのですが、
書き出した後のテキストはギリシャ語にはならないのです。
マックはos10.2.8、ウィンドゥズはXPです。
ちなみにマックのイラストレータcs2で直接、PDFを開くと、
テキストは変換されますが、文字列(文字の下線)が細切れになります。
ちょうどQXPでEPS書き出ししたファイルをイラストレータで開いた状態と同じです。
フォント環境が同じなのに、アプリで違う結果が出ることも問題ですが、
PDFファイルからギリシャ語のテキストを上手く抽出する方法、
どなたかご存知の方は教えていただけませんか。よろしくお願いします。
使用されていたフォントはTTFのOlympia(埋め込み)というギリシャ語で、
このテキストデータを転用して、ちょっとした注意書きを
作成したい、とのことでした。
そこでpdfデータをワードやリッチテキストに書き出して
使用しようと試みたのですが、これが文字化けしてしまいます。
ウィンドゥズでも試してみました。
こちらにはArial unicode Greekをインストールしましたが、
テキストに書き出したギリシャ語はNGです。
pdfから直接テキストをコピーペーストしてもNGです。
ギリシャ語のカゲも形もありません。
聞くところによると、もともとはマックのQXP6で作成されたpdfで、
私のマックにも同じフォントが入っているのですが、
書き出した後のテキストはギリシャ語にはならないのです。
マックはos10.2.8、ウィンドゥズはXPです。
ちなみにマックのイラストレータcs2で直接、PDFを開くと、
テキストは変換されますが、文字列(文字の下線)が細切れになります。
ちょうどQXPでEPS書き出ししたファイルをイラストレータで開いた状態と同じです。
フォント環境が同じなのに、アプリで違う結果が出ることも問題ですが、
PDFファイルからギリシャ語のテキストを上手く抽出する方法、
どなたかご存知の方は教えていただけませんか。よろしくお願いします。
» 4659
» 4667
[4659]Re: テキスト抽出の方法 投稿者:たき 投稿日:07/04/05-08:25
http://support.adobe.co.jp/faq/faq/qadoc.sv?225444+002
これに近いヤツかも
結論からすると、抽出はむずかしいかも。
AIで開いて繋げて行くか、元のテキストをRTF等で貰うしかないでしょう
これに近いヤツかも
結論からすると、抽出はむずかしいかも。
AIで開いて繋げて行くか、元のテキストをRTF等で貰うしかないでしょう
[4667]Re^2: テキスト抽出の方法 投稿者:カリン 投稿日:07/04/06-15:19
» 4674
[4674]Re^3: テキスト抽出の方法 投稿者:greekman 投稿日:07/04/07-10:04