2009年8月10日月曜日

それぞれのこだわり

DICOM規格についての勉強として、ネットで論文を乱読(もちろん日本語の)。半可知識をまとめると、緩やかな規格であり、それゆえ現場の混乱を招いている節がある…みたいな。この「ゆるやか」というのは厄介で、フレキシブルとも言えるし、パワーユーザーであれば嬉しくなる仕様…つまり遊びがあると言えるし、逆に情弱は他人(もっぱらベンダ)ルールに振り回される事となる。

ただ、このDICOM規格にUNICODEの面から文句ゆーてる人が居た。正確にはUNICODEでなくUTF-8という変換テーブルがよろしくない、と怒ってる。つまりアルファベットは1バイトで表現できるのに、漢字は3バイト必要なのは不合理だ、と怒ってるのだ。

なるほど色んな人が居るんだなぁ。

というのも情報量で言えばアルファベットは漢字の1/3程度しか持たず(正確には英字=log227=3.322bit、当用漢字=log21850=まぁだいたい10と11の間bit)、これに漢字と同じバイト数を割り振るのはむしろフェアじゃないと思うのですよ。世界での利用率からゆーても日本語ってニッチ言語だしね。あと、1bit・1byteで鎬を削っていたのは10年ぐらい前までの話。

0 件のコメント:

コメントを投稿