-->

2010-03-30

UTF-8の正規表現

array.patterns.Blocks.UTF-8.php part2 が新しい記事です。

この記事は array.patterns.Blocks.UTF-8.php の紹介です。
wagahaiwa_nekodearu.2010-03-30.tar.gz をダウンロードします。
青空文庫 から 789_ruby_5639.zip をダウンロードして wagahaiwa_nekodearu.txt を同じディレクトリにコピーします。
$ tar xvzf wagahaiwa_nekodearu.2010-03-30.tar.gz
$ cd wagahaiwa_nekodearu
$ cp -i /tmp/wagahaiwa_nekodearu.txt .
$ php wagahaiwa_nekodearu.txt.php > wagahaiwa_nekodearu.txt.php.txt
$ head -n20 wagahaiwa_nekodearu.txt.php.txt
112: CJK Unif: 吾輩
100: Hiragana: は
112: CJK Unif: 猫
100: Hiragana: である
  1: Basic La: \r\n
112: CJK Unif: 夏目漱石
  1: Basic La: \r\n\r\n-------------------------------------------------------\r\n
 99: CJK Symb: 【
101: Katakana: テキスト
112: CJK Unif: 中
100: Hiragana: に
112: CJK Unif: 現
100: Hiragana: れる
112: CJK Unif: 記号
100: Hiragana: について
 99: CJK Symb: 】
  1: Basic La: \r\n\r\n
 99: CJK Symb: 《》
149: Halfwidt: :
101: Katakana: ルビ
これは使い方のサンプルなので、文字を分割したい場合は chasen, kakasi, mecab がお勧めです。
array.patterns.Blocks.UTF-8.php の元となるデータはhttp://unicode.org/Public/UNIDATA/Blocks.txtです。

0 件のコメント: