Indesinのドキュメントからテキストデータの抽出

[3174]Indesinのドキュメントからテキストデータの抽出 | 投稿者:ももぶち | 投稿日:2009/06/05(Fri) 19:05:33
初めまして。
今年の1月からWinXP版InDesign CS3を使っています。

 クライアントからの依頼で、現在作成している書籍のテキストデータを作成することになりました。
 縦書きA5サイズで300ページほどで、章ごとに20程のドキュメントに分かれていますが、ブックにまとめてはいません。
ドキュメントのなかでも、扉、図や写真、脚注を別フレームで作成しています。

 ソフトのプルダウンメニューを見ると、XMLでの書き出しと、pdfの作成ができるのはわかりました。

 けれども、クライアントの要望としては、文字と見出しや段落がわかる程度の改行を含む、実にシンプルなテキストデータなので、わざわざXMLに書き出して、不要なタグを取るのも手間かなと思います。
 また、以前別のソフトで作成されたものですが、PDFからテキストを書き出したとき、縦横やセルをまたぐ形式の表が、行の順番が狂った状態でテキストデータができたことがあって、結局手作業で順番を直すという経験をしたことがあり、 InDesignでもそのようなことが起こらないか、少し不安です。

 今後このような依頼が増えてくると思いますので、できるだけシンプルに手間のかからない方法を探しています。

 よろしくお願いします。


当方所持の使えそうなソフト
・word2003
・アクロバットエレメンツ6.0
・MIFES(テキストエディタ)
・読んで!ココ(OCRソフト)
» 1
[3175]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:tek | 投稿日:2009/06/06(Sat) 00:03:06
*http://www15.ocn.ne.jp/~preopen/vb/idtxtoutd.html

CS3でつかえるかどうかわかりませんが。
» 2
[3179]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:ももぶち | 投稿日:2009/06/10(Wed) 11:00:37
tek 様
 お返事がおそくなって申し訳ありません。
 ご紹介いただいたプログラムを使ってみましたが、CS3では途中でエラーを起こして使用できませんでした。

 ちなみに、各フレームごとに全選択して、メモ帳に張りなおしてみましたが、丸付き数字等が化けてしまいました。あとは化けた文字を1つ1つ原稿を追って直すしかないということでしょうか。

 他に良い方法がありましたら、お知らせください。
» 3
tekさん、ご紹介有り難うございます。

idtxtoutdCS2_U.vbsをエディタ等で開いて、14行目の

Set app = CreateObject("InDesign.Application.CS2_J")



Set app = CreateObject("InDesign.Application.CS3_J")

に変更すれば使用できます。
» 4
[3191]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:なかとじ | 投稿日:2009/06/11(Thu) 20:36:51
ケース・バイ・ケースですが、PDF 1.7(Acrobat 8以降)ではき出すと、一応、ストーリーが維持されます。それをAcrobatでプレーンテキストに書き出せば、完全ではありませんが「これでよし」という場合もあります(多少の整形は必要かもしれませんが)。

また、目的によっては「このPDFはストーリーでコピーできるから」といって渡してしまうのも手です。

今回のケースはともかく、関連情報としてこのスレにアップしておきます。
» 5
[3192]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:mijanpona | 投稿日:2009/06/13(Sat) 02:09:10
> ちなみに、各フレームごとに全選択して、メモ帳に張りなおしてみましたが、丸付き数字等が化けてしまいました。

うまくいくかどうかわかりませんが、ストーリーエディターで表示させたのを全文選択(Ctrl+A)して、メモ帳に貼り付けてみてください。どうでしょうか。
» 6
[3193]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:ももぶち | 投稿日:2009/06/15(Mon) 17:29:48
 自己解決したので、お返事を兼ねてご報告いたします。
 作成した担当者に確認したところ、丸付き数字だけ、グリフを使って作字したものと

判明しました。それでは化けてしまうのは当たり前だと納得しました。念のため、

Indesignで普通の丸付数字を入れた文書を作成して、テキストを書き出したら、うまく

いきました。


お~まち様
 追記ありがとうございます。
 ご紹介いただいた方法でファイルの構文を変更してやってみました。
 テキストデータは出ましたが、別フレームで作成した注釈文(脚注機能は使用してい

ません)の一部と、ページ外によけておいたキャプションを拾いましたが、本文は全く

はいっていませんでした。
 他にも、修正する箇所はあるでしょうか?

 一応他の文書(丸付き数字なし)もかけてみると、脚注付きのフレームグリッド文書

(A)は本文と柱、細かいテキストフレームでのみ構成されたもの(B)は、テキストフレー

ム内の全文(順序は大まかに違う程度)を抜くことができました。


 なかとじ様
 ご回答ありがとうございます。
 pdfからのテキスト書き出しをしてみました。
 やはり、テキストデータの入れ替わりが激しく、原稿を見ながらの修正が必要なよう

です。
 ただし、(B)の文書は、あまりデータの入れ替わりがなく、きれいなテキストを抽出す

ることができました。

 目的の文書は、本文と注釈文のそれぞれのフレームにカーソルを置いて、別ファイル

として書き出す必要がありますが、Indesignの書き出しでテキストデータを抽出するの

が、シンプルでわかりやすいようです。
 ただ、文字化けの問題は解決しません。丸付き数字がすべて違うコードになるならば

、テキストエディタでの置換機能やテーブルで対応ができるのですが、同じ文字に化け

てしまいます。

 XML・Dreamweaverよるhtmlへの書き出しもしてみましたが、脚注も含めて全文を取り

出すことはできましたが、文字化けした文字が完全に削除されてしまい、どの文字が消

えたのか確認することができないので、これも文書を確認しながら修正の作業が必要な

ようです。

mijanpona様
 ご回答ありがとうございます。
 ストーリーエディタですと、別フレームで置いている脚注が選択されませんでした。

なので、別々にストーリーエディタをひらくことになります。


 結局、こういう形でやってみました。
1.Indesignの本文に、テキストカーソルを置いて、ファイル→書き出し→テキストを

選択し、適宜名前を付けて保存
2.MS-Wordで保存した文書を開く
3.①が入っていた場所から、段落番号機能の①をつけ、以降、丸付数字が入っていた

場所で改行し、丸付数字を発生させる
4.テキストで保存
5.メモ帳などで開いて、不要な改行をとり、保存

 これは丸付数字だから使用可だと思いますが、漢字の異体字には使用できません。
 あらかじめIndesign上でその文字だけ別の文字に置換しておくしかなさそうです。

 ご回答くださいました皆様、色々な方法を教えて下さいまして、ありがとうございました。
» 7
[3232]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:rosan | 投稿日:2009/06/24(Wed) 12:37:57
横レスですが、質問させて下さい。

お~まちさんのスクリプトをCS3用に修正し、使用してみたのですが、
サイズ30バイトの白紙のテキストが出力されます。
他にどこか修正する箇所があるのでしょうか。

修正はメモ帳で行い、文字コードをUnicode及びANSIで保存しています。
どちらも結果は変わりません。
» 8
CS3用のテスト版をアップしました。こちらでテストしてみてください。
*http://www15.ocn.ne.jp/~preopen/vb/idtxtoutd.html

問題がなければこのまま正式版となります。
» 9
[3237]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:rosan | 投稿日:2009/06/24(Wed) 16:33:05
お~まちさん、対応ありがとうございます。
早速試させて頂きましたが、Unicode版、Shift-JIS版どちらも
以前と同様の結果です。
» 10
テストさせていただきましたが、両方とも問題なく出力されました。
WindowsXP SP3 InDesignCS3 5.0.4
>rosan さん
他のドキュメントでも同様の結果になりますでしょうか?
また、問題のドキュメントを他のマシンでテストすることは可能でしょうか?
» 11
[3247]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:rosan | 投稿日:2009/06/25(Thu) 09:31:55
たけうちとおるさん、確認ありがとうございます。
こちらの情報も十分なものではなかったようで反省しています。

・他のファイルではどうか
同じくうまくいきません。ただし、他のファイルでは“ファイルが見つかりません”と
いうエラーが出ます。
VBSはドライブ直下に置いてあります。VBSと同じ場所にファイルをコピーし、
英数8文字以内のファイル名に変更して試しましたが、駄目でした。

・他のマシンではどうか
WinのCS3は、現在私のマシンのみで稼働しているため、確認できません。
CS2及びCS4が同じマシンに併存していますが、何か関係あるでしょうか。
» 12
[3250]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:rosan | 投稿日:2009/06/25(Thu) 12:15:04
原因が分かりました。

試しにInDesign CS3からテキスト書き出しをしてみると、
通常出てくるはずのテキスト形式の選択が何も出ず、
そのまま終了します。
エラーメッセージも出ませんが、テキストは書き出されていません。
rtfテキスト書き出しも同様です。
書き出しの他のオプション(PDF、タグ付きテキスト、InDesign互換等)
は正常に機能します。

ということで、VBSに原因はないと思われます。
InDesignからのテキスト書き出しは普段使用していない機能であるため、
障害が発生していることに気づきませんでした。
この障害の解決方法はこれから探っていこうと考えていますが、本題とは
ずれるため、この話題はここで閉めようと思います。

お~まちさん、たけうちとおるさん、ありがとうございました。
お手を煩わせてしまい申し訳ありませんでした。
» 13
[3257]Re: Indesinのドキュメントからテキストデータの抽出 | 投稿者:老婆心 | 投稿日:2009/06/26(Fri) 10:31:24
もう閉め切ったとのことですが、投稿します。

>試しにInDesign CS3からテキスト書き出しをしてみると、
通常出てくるはずのテキスト形式の選択が何も出ず、
そのまま終了します。

の文から察するに、「書き出すストーリー内にテキスト挿入点が置かれていない」だけなのではないでしょうか。その状態では、「テキスト」は選択されないようです。
的外れでしたらご容赦下さい。

  おすすめ投票