テキスト抽出の方法
使用されていたフォントはTTFのOlympia(埋め込み)というギリシャ語で、
このテキストデータを転用して、ちょっとした注意書きを
作成したい、とのことでした。
そこでpdfデータをワードやリッチテキストに書き出して
使用しようと試みたのですが、これが文字化けしてしまいます。
ウィンドゥズでも試してみました。
こちらにはArial unicode Greekをインストールしましたが、
テキストに書き出したギリシャ語はNGです。
pdfから直接テキストをコピーペーストしてもNGです。
ギリシャ語のカゲも形もありません。
聞くところによると、もともとはマックのQXP6で作成されたpdfで、
私のマックにも同じフォントが入っているのですが、
書き出した後のテキストはギリシャ語にはならないのです。
マックはos10.2.8、ウィンドゥズはXPです。
ちなみにマックのイラストレータcs2で直接、PDFを開くと、
テキストは変換されますが、文字列(文字の下線)が細切れになります。
ちょうどQXPでEPS書き出ししたファイルをイラストレータで開いた状態と同じです。
フォント環境が同じなのに、アプリで違う結果が出ることも問題ですが、
PDFファイルからギリシャ語のテキストを上手く抽出する方法、
どなたかご存知の方は教えていただけませんか。よろしくお願いします。
これに近いヤツかも
結論からすると、抽出はむずかしいかも。
AIで開いて繋げて行くか、元のテキストをRTF等で貰うしかないでしょう