Rubyでテキスト処理について教えてください

Question

Rubyでテキスト処理について教えてください

[5606]Rubyでテキスト処理について教えてください投稿者：△ 投稿日：08/05/05-12:46

はじめまして。いろいろあってRubyを勉強することになりました。

やりたいことは、お客様からいただいたテキストデータ
（コードはライターさん次第）をユニコードにしたうえで、
数字を半角にしたり、パーレンを全角に整えたり…といった単純作業です。
（この二つなら別にJeditとかでも事足りるのですが、
仕事によっては、一桁のみ全角とか、二桁のみ半角にといったこともあるので…）

で、クロネコさんの記事（5546）とか
せうぞーさんの記事（ttp://www.seuzo.jp/rubbs/search_html/msg01621.html）とか
InDesiegn勉強部屋BBS保管庫の記事（9507）とかを参考に
hankaku.rbというものを作ってみました（内容は下記の通りで、
とりあえず全角半角の処理のみ記述してあります）が、
できあがりのテキストを開いてみると、処理前同様全角数字のままなのです。

---------------------------------------------
#! /usr/bin/ruby -Ku

require "jcode"
require "nkf"

# 読込ファイルと書込ファイルを開く
readFile = File.open(ARGV[0])
writeFile = File.open(ARGV[0] + "_new", "w")

# 文字列取得
readString = readFile.read

#文字コードと改行コード変換
readString = NKF.nkf("-w -Lu -m0", readString)

# 処理
readString.each { |line|
#全角数字>半角
line.tr!("０-９", "0-9")
writeFile.print(line)
}

# ファイルを閉じる
readFile.close
writeFile.close
---------------------------------------------

作業環境は、Mac OS X 10.5.2、Rubyのバージョンは1.8.6です。
それから、関係あるのかどうか、また参考になるかどうかもわかりませんが、
hankaku.rbはshift JISで改行はLF、
文字列のサンプルテキストはshift JISで改行はCRで作られていて、
処理後に出来た新しいテキストファイルはUTF-8で改行はLFになっています。

またこの話題かと自分でも思うのですが、ご指導よろしくお願いいたします。

» 5607

[5607]Re: Rubyでテキスト処理について教えてください投稿者：せうぞー投稿日：08/05/05-15:28

» 5608

[5608]Re^2: Rubyでテキスト処理について教えてください投稿者：△ 投稿日：08/05/06-12:17

» 5610

[5610]Re^3: Rubyでテキスト処理について教えてください投稿者：せうぞー投稿日：08/05/06-22:47

» 5613

[5613]Re^4: Rubyでテキスト処理について教えてください投稿者：△ 投稿日：08/05/08-09:03

» 5614

[5614]Re^5: Rubyでテキスト処理について教えてください投稿者：△ 投稿日：08/05/08-13:00

» 5615

[5615]Re^6: Rubyでテキスト処理について教えてください投稿者：せうぞー投稿日：08/05/08-19:30

» 5616

[5616]Re^7: Rubyでテキスト処理について教えてください投稿者：△ 投稿日：08/05/10-13:07

» 5709

[5709]Re: Rubyでテキスト処理について教えてください投稿者：ball 投稿日：08/06/05-16:46

Answer 1

このスクリプトのままでも、全角→半角の動作はしました。
（たぶん）喰わせるテキストの量が少なくて（あるいはちゃんと読めなくて）自動判定に失敗してるとかなんじゃないでしょうか？
自動判定など、信用してはいけません。痛い目を見ます^^

自分で書いておいて言うのもなんですが、最初にメモリに読み込む必ませて自動判定なんていうのは、まったく馬鹿げています。こういうやり方が、広がるのは好ましいことだと思いません。わたしの場合は、（コンピュータの知識のない）ほんとうに素人さん相手だったので、仕方なかったのです。
それくらいは、自分のエディタで変換して、自分の目で確かめておくべきだと思います。普通の人はそれくらいはできるはずです。
miならば、２アクションで文字コードと改行コードまで変えることができます。あとは保存するだけ。

スクリプト中で気になったのは、イテレータの中で１行づつ書き込み処理をしているところです。
標準出力ではなく１行づつファイルアクセスをしているので、オーバーヘッドが大きいかと。

自動判定をやめてしまえば、正確だし、スクリプトも短くなります。
require "jcode"
while line = ARGF.gets
line.tr!("０-９Ａ-Ｚａ-ｚ", "0-9A-Za-z")#全角数字を半角に
print line
end

これだけになります。なんならワンライナーにもなります。あとはターミナルでリダイレクトするだけ。

Answer 2

早速のレスありがとうございます。しかも有名なせうぞーさんから！

結局テキスト量増やしても、全角半角の動作は確認できず、
原因不明のままご指導いただいたソースを使わせていただきました。（汗
もう少し早くお礼のレスを書けるかと思っていたのですが、
何故か変換がうまくいかず、今に至っています。

具体的には、sampletext1というファイルに

「個々の引数ファイル毎の行番号を得るには ARGF.file.lineno とします。
たとえば１0,０００円の中古ＤＳこれが５,０００円に」

という二行の文字列が入っていて、miでUTF-8、LFにしてあります。
これを、hankaku2.rb （ソースは下の通りです）にかけて、
sampletext1_newというファイルに書き出しているのですが、
sampletext1_newの中身はUTF-8、LFで、

「個々の引数ファイル毎の行番号を得るには A4GF.zzzy.zzzyzz とします。
たとえば１0,０００円の中古ＤＳこれが５,０００円に」

というようになっています。

====hankaku2.rb=======================
#! /usr/bin/ruby -Ku
require "jcode"
while line = ARGF.gets
line.tr!("０-９Ａ-Ｚａ-ｚ", "0-9A-Za-z")#全角数字を半角に
print line
end
===================================

sampletext1をmiでshift JISにして、rubyの-Kuを-Ksにすると
全然問題なく変換してくれるので、迷宮入りの状態です。
私が根本的なところで大きな誤解をしている気がするのですが、
再度ご指導願えないでしょうか？

Answer 3

遅くなってしまってすいません。

わたしのところでは、この２行だけでも正しく変換しています。
ターミナルでカレントディレクトリに入って、
$ruby hankaku2.rb sampletext1.txt > sampletext1_new.txt
ってな感じで、sampletext1_new.txtの中身は

個々の引数ファイル毎の行番号を得るには ARGF.file.lineno とします。
たとえば10,000円の中古DSこれが5,000円に

になっています。ロケールが違うかもしれない。
ちなみに、
$ ruby -Ku hankaku2.rb sampletext1.txt > sampletext1_new.txt
ではどうですか？
必要なら、環境変数RUBYOPTを書いて（追加して）おくといいかもしれません。
http://doruby.kbmj.com/saronpasu_on_rails/20080326/Ruby_1
http://www.ruby-lang.org/ja/man/html/_B4C4B6ADCAD1BFF4.html

P.S.
人違いなら申し訳ないのですが、△さんって、わたしの知り合いの△さんですか？

Answer 4

> 遅くなってしまってすいません。
>
> わたしのところでは、この２行だけでも正しく変換しています。
> ターミナルでカレントディレクトリに入って、
> $ruby hankaku2.rb sampletext1.txt > sampletext1_new.txt
> ってな感じで、sampletext1_new.txtの中身は
>
> 個々の引数ファイル毎の行番号を得るには ARGF.file.lineno とします。
> たとえば10,000円の中古DSこれが5,000円に
>
> になっています。ロケールが違うかもしれない。
> ちなみに、
> $ ruby -Ku hankaku2.rb sampletext1.txt > sampletext1_new.txt
> ではどうですか？
> 必要なら、環境変数RUBYOPTを書いて（追加して）おくといいかもしれません。
> http://doruby.kbmj.com/saronpasu_on_rails/20080326/Ruby_1
> http://www.ruby-lang.org/ja/man/html/_B4C4B6ADCAD1BFF4.html
>
> P.S.
> 人違いなら申し訳ないのですが、△さんって、わたしの知り合いの△さんですか？

Answer 5

遅レスもうしわけありません。
それから5613は操作ミスです（泣

レス遅さから予想されてるかもしれませんが、やはり結果は変わらずでした。
しかし、せうぞーさんの方で動作してるということなので、
私のマシンの環境まわりが原因かもしれません。
rubyのパス通した以外は特にいじってないのですが、
こっちのほうを少し見てみようと思います。

ご指導ありがとうございました^^

Ｐ.Ｓ．やっぱりバレました？（笑

Answer 6

> レス遅さから予想されてるかもしれませんが、やはり結果は変わらずでした。

うーん、なんだろう？
miのモードの設定で、「リソースフォークを保存しない」にチェックしてみてください（スクリプトもテキストも）。ゴミが付いているのかもしれません。

> Ｐ.Ｓ．やっぱりバレました？（笑

やっぱり。
△くんは頑張っているなあ、と思いました。
っていうか、直接電話しないさいよ。他人のフリしてんじゃなくてさ^^

Answer 7

またまた遅レス、すみませんです。

相変わらずでした。
その後、いろいろやってみたのですが、rubyのソースをUTF-8、LFにしてみたら、
UTF-8、LFのサンプルは思った通りの結果になりました。
が、UTF-8、LFのソースを使って、shift JISのサンプルテキストを使うと化けます。
まぁ、なんとか動作するというところにまではきましたが、
これだと文字コードごとに、rubyのソースが必要になってしまうので微妙でよね・・・。

> っていうか、直接電話しないさいよ。他人のフリしてんじゃなくてさ^^

長い間ご無沙汰していたので、かなり心の中で葛藤が・・・（汗
結局、お手数かけてしまい、申し訳ないやら恥ずかしいやらです。
ともあれ、なんとか動くところまできたのは、ご指導してもらったおかげです。
いろいろとありがとうございました^^

Answer 8

> （この二つなら別にJeditとかでも事足りるのですが、
> 仕事によっては、一桁のみ全角とか、二桁のみ半角にといったこともあるので…）

今更だろうけど、これもJeditの公式ライブラリで普通に可能だよね。

	DICの銀の種類は1種類だけ？？？	DIC653に近い銀色を探しているのですが、DIC621だけしか無いのでしょうか。。。もしそうであれば、DIC653の灰色にちかい銀を指定するにはどのようにす... 続きを読む
	Indesignのテキストだけ書き出す方法	茶道具のカタログ（A4縦判・4/4C・中綴・24頁）です。WinのInDesignCS2を使って制作していますが、カタログから品番・品名・仕様・価格のテキスト... 続きを読む
	NHK「プロフェッショナル」のフォント	NHK「プロフェッショナル」で使われてるフォントって分かりますか？ [jukebox]-2006/03/05 22:28:13 [Mozilla/4.0 (c... 続きを読む
	PDFでプリンタ設定を指定しておくことはできますか？	Mac10.4、InDesignCS2、Acrobat7.0pro、です。よろしくおねがいします。PDFを作成する時、「文書のプロパティ」でファイルを開いたと... 続きを読む
	イラレ　線と線を繋ぎ、中に色を付けたい	はじめましてこんにちは。WIN XPでイラストﾚｰター10を使用しています。本を手本に使い方の勉強をしているのですが、あればいいなと思った操作の方法が載ってな... 続きを読む
	イラレで矢印キーが効かない	イラレ8.0を使用しています。オブジェクトを変形したり移動したりする時に矢印キーをよく使っているのですが、2～3日前から矢印キーを押しても何も反応しなくなりま... 続きを読む
	インデザインで面付けする方法	Ａ4の原稿２枚をＡ３の用紙両面に印字して40ページくらいの小冊子を作っています。ＤＴＰソフトはインデザインＣＳで、ＰＣはマックＧ５のＸです。　見開き印刷すると... 続きを読む
	フォントをコピーしろと言われたら	アホ営業から「フォントを持っていない外注に、コピーして渡したいので用意してくれ」と言われました。自分の上司と相談したうえで、「違法行為なのでお断りします」とつ... 続きを読む
	マンセル指定値からCMYK（+新彩色辞典）	はじめまして現在DIYショップ向けにPOPを作ってる新参者ですが、先方からマンセル数値での色指定で来たんです。先方はCMYK,PANTONEの数値は分からない... 続きを読む
	作成されたOfficeのバージョンを確認する方法は？	はじめて投稿させていただきます。Windows系Officeのデータ出力の仕事をしていますが、最近、作成されたOfficeのバージョンと出力するOfficeの... 続きを読む

Rubyでテキスト処理について教えてください

このページをシェア

アクセスの多い記事