この記事は array.patterns.Blocks.UTF-8.php の紹介です。
wagahaiwa_nekodearu.2010-03-30.tar.gz をダウンロードします。
青空文庫 から 789_ruby_5639.zip をダウンロードして wagahaiwa_nekodearu.txt を同じディレクトリにコピーします。
$ tar xvzf wagahaiwa_nekodearu.2010-03-30.tar.gz $ cd wagahaiwa_nekodearu $ cp -i /tmp/wagahaiwa_nekodearu.txt . $ php wagahaiwa_nekodearu.txt.php > wagahaiwa_nekodearu.txt.php.txt $ head -n20 wagahaiwa_nekodearu.txt.php.txt 112: CJK Unif: 吾輩 100: Hiragana: は 112: CJK Unif: 猫 100: Hiragana: である 1: Basic La: \r\n 112: CJK Unif: 夏目漱石 1: Basic La: \r\n\r\n-------------------------------------------------------\r\n 99: CJK Symb: 【 101: Katakana: テキスト 112: CJK Unif: 中 100: Hiragana: に 112: CJK Unif: 現 100: Hiragana: れる 112: CJK Unif: 記号 100: Hiragana: について 99: CJK Symb: 】 1: Basic La: \r\n\r\n 99: CJK Symb: 《》 149: Halfwidt: : 101: Katakana: ルビこれは使い方のサンプルなので、文字を分割したい場合は chasen, kakasi, mecab がお勧めです。
array.patterns.Blocks.UTF-8.php の元となるデータはhttp://unicode.org/Public/UNIDATA/Blocks.txtです。
0 件のコメント:
コメントを投稿