括弧でくくられた平仮名のルビを削除する方法

» 6042
[6042]括弧でくくられた平仮名のルビを削除する方法 投稿者:imoG 投稿日:08/10/23-19:09
ワードデータを元に書籍のレイアウトをする前処理について教えてくだ
さい。
1)データには漢字の直後に( )(括弧)でくくっ
たルビがはいっています。このルビを括弧ごと削除したいのです。ただ
し、括弧でくくられた、削除してはいけないデータもあります。<br
>2)半角の算用数字を縦書き用の漢数字に変換したいのです。ただ
し、西暦は2008なら二〇〇八ですが、人数などは四百八十人と書き分け
なくてはなりません。
スクリプトという手法は以前から関心
はもっていますが、まったくがたちません。つぎのような環境で作業
したいのですが、ひとつひとつ修正を加えるより効率のよい方法があり
ましたらお教え願いたくご相談にあがりました。


環境1:MACOS9.2.、JEdit、Quark4.1、FEP:ATOK13
環境2:M
ACOS10.4、JEdit、Quark6.5および8、AdobeCS3、FEP:ATOK?<br>
;できましたら、使いなれているMACOS9.2で作業したいのですが。
» 6043
[6043]Re: 括弧でくくられた平仮名のルビを削除する方法 投稿者:せうぞー 投稿日:08/10/23-20:56
>このルビを括弧ごと削除
この処理は正規表現を使います。実際の正規表現はお使いのエディタがUnicodeネイティブかどうかによって、書き方(漢字の範囲)が異なります。

>漢数字に変換
rubyなりperlなりでテキスト処理をする必要があります。もしかしたら、ライブラリがあるかもしれません。
» 6045
せうぞー 様
ご助言ありがとうございます。
>この処理は正規表現を使います。
正規表現が使いたいなあとは思っていますが、使えません。
> もしかしたら、ライブラリがあるかもしれません。
多分、ライブラリがあっても使いこなせそうにありません。以前より関心があり、とっかかりはするのですが、最初の一歩で挫折してしまいます。唯一動作してくれたのは、せうぞー 様がおつくりになられた「平凡な学歴」だけです。5-6年以上前のことです。おもしろいなあと感じ、これをきっかけにスクリプトを意識しはじめました。ただ不勉強でした。
» 6046
[6046]Re^3: 括弧でくくられた平仮名のルビを削除する方法 投稿者:せうぞー 投稿日:08/10/24-12:01
> 正規表現が使いたいなあとは思っていますが、使えません。

Mac OS X上で動作するmi(エディタ)ならばこんな風に書けます。
検索文字:
([一-龠])([ぁ-&#12436;ァ-ー]+)

置換文字;
$1

実行前:
1)データにはには漢字(かんじ)の直後(ちょくご)に( )(括弧)でくくったルビがはいっています。このルビを括弧(カッコ)ごと削除(サクジョ)したいのです。ただし、括弧(削除しない)でくくられた、削除(hogehoge)してはいけないデータもあります。

実行後:
1)データにはには漢字の直後に( )(括弧)でくくったルビがはいっています。このルビを括弧ごと削除したいのです。ただし、括弧(削除しない)でくくられた、削除(hogehoge)してはいけないデータもあります。

InDesign CS3上でも正規表現は使えますが、カタカナを含むことができない不具合があります。
くわしくはこちら:
*http://d.hatena.ne.jp/seuzo/20080604/1212578415


> 多分、ライブラリがあっても使いこなせそうにありません。
もしかしたら、既成のスクリプトやアプリケーションがあるかもしれませんが、不勉強なため詳しくありません。すいません。紺屋の白袴。
アラビア数字から漢数字は、単純な文字置換でなことはご承知のとおりです。位取りの表記の仕方や、「、」を入れるか入れないか、「壱」「拾」などを使用するかしないか、など。
以前、perlで書かれたライブラリを使ったことがありますが、参照場所を失念してしまいました。
» 6047
[6047]Re^4: 括弧でくくられた平仮名のルビを削除する方法 投稿者:せうぞー 投稿日:08/10/24-12:05
>([一-龠])([ぁ-&#12436;ァ-ー]+)

あー、文字化けった。
「&#12436;」はひらがなの「う」に濁点がついている文字です。ヴのひらがな。unicode:3094
実用には「ん」まででもいいかもしれませんね。
» 6048
[6048]Re^5: 括弧でくくられた平仮名のルビを削除する方法 投稿者:せうぞー 投稿日:08/10/24-12:09
>InDesign CS3上でも正規表現は使えますが、カタカナを含むことができない不具合があります。

手前味噌で恐縮ですが、このスクリプトを使うと、この不具合を回避できます。
*http://www.seuzo.jp/st/scripts_InDesignCS3/index.html#regex_katakana2hex
» 6049
せうぞー様
度々、ご丁寧なご教示まことにありがとうございます。
いままで、せうぞー様関連の記事はだいたい読ませていただいております。それでチンプンカンプンなんですから、面目ありません。
この際ですから、QXPからINDESIGNに替えるのを視野にいれ、もういちど挑戦してみます。
とりあえず、ご教示いただいた上記のことを順番にやってみます。
ありがとうございます。