« 続・メール中の広告テキストバナーを自動削除 | トップページ | ニューテックの内蔵SCSIハードディスク »

2004年5月21日 (金曜日)

ウィークリーまぐまぐの広告をカット

ウィークリーまぐまぐの広告カットに成功しました。
まぐまぐの広告タグは、この2種類。

─[PR]─────────────────
【ここに広告】
─────────────────[PR]─

━[PR]━━━━━━━━━━━━━━━━━
【ここに広告】
━━━━━━━━━━━━━━━━━[PR]━
(本当は横72バイトのものを短縮しています)

この2バイト文字の罫線記号がくせ者でした。
サーバー上ではこれがJISエンコードで扱われて、例えば
.$B(!.(B[PR]
こんなふうに見えます。ここでピリオドで示したところはエスケープ文字0x1bです。
sedの検索条件に文字コード表現は使えないようなので、ここはワイルドカードでごまかすことにしました。結果、


.procmailrc 内の記述
:0 fw
* ^Errors-To: (mag2@rabbit\.tegami\.com|M0000001@e\.mini\.mag2\.com)
| sed -f $HOME/mag2_ad.sed

スクリプトファイル mag2_ad.sed
# Delete Banner from Mag2
#
/^.\$B([\!,].(B\[PR\]/i\
[AD Deleted]
/^.\$B([\!,].(B\[PR\]/,/\[PR\].\$B([\!,].(B.$/d

こんなスクリプトになりました。

|

« 続・メール中の広告テキストバナーを自動削除 | トップページ | ニューテックの内蔵SCSIハードディスク »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/23831/631139

この記事へのトラックバック一覧です: ウィークリーまぐまぐの広告をカット:

« 続・メール中の広告テキストバナーを自動削除 | トップページ | ニューテックの内蔵SCSIハードディスク »