utf-8とhtml

January 24, 2009

utf-8の番号
htmlで多国語を扱うときには、utf-8が便利である。しかし、utf-8の文字を入力するのはそれほど簡単ではない。バイナリをいじったりする必要もある。htmlでは、অなどという書き方をすることができ、これだと普通のエディタで編集できるので、扱いやすい。このバイナリと番号の対応が分からなかったのだが、

man utf-8

としたら、変換の仕方が説明してあった。原理が分かったので、変換スクリプトをrubyで書こうと思ったら、

p "\xe0\xa6\xbe".unpack("U*")

で変換できてしまった。簡単に書けてうれしいような、アルゴリズムを考える必要が無くなって悲しいような。この数字に&#につければ、バイナリの代わりに文字を表すことができる。これで、ベンガル語のhtmlを楽に書けるようになった。