Unicodeの取り扱い
ちょっと古いですが、本日はUnicodeに関する
記事を紹介します。
【J2SE 5.0の新機能(文字操作の変革)】
http://www.itarchitect.jp/technology_and_programming/-/51289.html
Unicodeで表現できる文字数も限られてくるわけで、
結局のところ、文字のバイト数を増やして対応せざるを
えないわけですね。
UTF-32は問題ないのですが、UTF-16とUTF-8は注意が必要です。
特にUTF-8に関しては、文字の種類によって1~4バイトまで変化するので、
プログラムでの文字列操作時、ちょっと厄介になります。
まぁでもサロゲート・ペア文字は、
日本ではそうそう使われることはないと思うので、
チェックで、はじいちゃっても良いかもしれません。
記事を紹介します。
【J2SE 5.0の新機能(文字操作の変革)】
http://www.itarchitect.jp/technology_and_programming/-/51289.html
Unicodeで表現できる文字数も限られてくるわけで、
結局のところ、文字のバイト数を増やして対応せざるを
えないわけですね。
UTF-32は問題ないのですが、UTF-16とUTF-8は注意が必要です。
特にUTF-8に関しては、文字の種類によって1~4バイトまで変化するので、
プログラムでの文字列操作時、ちょっと厄介になります。
まぁでもサロゲート・ペア文字は、
日本ではそうそう使われることはないと思うので、
チェックで、はじいちゃっても良いかもしれません。
タグ:文字コード
コメント 0