Letter Code

文字コード

大ざっぱな文字コードと、相互変換についての説明。ウソも混じっているかも‥‥。
主目的は EUC → SJIS 変換を調べた際の覚え書きです。間違いがあっても気にしない。お互いに存在しない文字や記号がある場合も考えられますが、そういうことを気にする方はさらに詳しく調べてください。

ANK コード(JIS X 0201)
文字制御（改行など）、数字、アルファベット（大文字、小文字）、記号、カタカナ。俗に言う「半角文字」「１バイト文字」。
0x00 - 0x7F の範囲を「ASCII コード」と呼ぶ。
JIS コード
JIS規格により定められた日本語文字コード。ANKを拡張した物。
7bits。日本語を表現するためにはその前後にエスケープコードを入れる。
例) 0x1B 0x24 0x42 漢字 0x1B 0x28 0x4A
１バイト目： 0x21 - 0x7E
２バイト目： 0x21 - 0x7E

半角カタカナを使う場合はエスケープコード( 0x1B 0x28 0x49 )か SI/SO ( 0x0E/0x0F )を使う。半角カタカナ自体のコードは ANK の半角カタカナを 0x21 - 0x5F にずらした物。
SJIS(Shift JIS) コード
MS-DOS の頃？から扱われてきたコード。JISコードでの運用に不便があったので、JISコードをずらした(Shift)物。一般的に Windows などで使われる。「全角文字」「２バイト文字」と呼ばれる。１バイト目を 0x80 以降にずらされたのでエスケープコードを必要としない。半角カタカナは使わない方が望ましいが、全角に変換するかどうかは採用者次第。
１バイト目： 0x81 - 0x9E　0xE0 - 0xEE
２バイト目： 0x40 - 0x7E　0x80 - 0xFC ( 0x7F は未使用)
EUC コード
UNIX系で主に使われる。JISコードの第１、第２バイト双方に 0x80 を加算したもの。半角仮名は　0x8E をSJISの仮名コードの前に置いて２バイトで表現する。
１バイト目： 0xA1 - 0xFE (半角カタカナは 0x8E)
２バイト目： 0xA1 - 0xFE (半角カタカナは SJIS コード)

NUL(\0)

DLE

ｰ

ﾀ

ﾐ

SOH

DC1

｡

ｱ

ﾁ

ﾑ

STX

DC2

｢

ｲ

ﾂ

ﾒ

ETX

DC3

｣

ｳ

ﾃ

ﾓ

EOT

DC4

､

ｴ

ﾄ

ﾔ

ENQ

NAK

･

ｵ

ﾅ

ﾕ

ACK

SYN

ｦ

ｶ

ﾆ

ﾖ

BEL(\a)

ETB

ｧ

ｷ

ﾇ

ﾗ

BS(\b)

CAN

(

ｨ

ｸ

ﾈ

ﾘ

HT(\t)

)

ｩ

ｹ

ﾉ

ﾙ

LF(\n)

SUB

ｪ

ｺ

ﾊ

ﾚ

VT(\v)

ESC

;

[

{

ｫ

ｻ

ﾋ

ﾛ

FF(\f)

ｬ

ｼ

ﾌ

ﾜ

CR(\r)

]

}

ｭ

ｽ

ﾍ

ﾝ

ｮ

ｾ

ﾎ

ﾞ

DEL

ｯ

ｿ

ﾏ

ﾟ

文字コード変換

JIS-EUC の変換

JIS から EUC に変換する場合、１バイト目、２バイト目に 0x80 を加算するか、論理和。半角カタカナは１バイト目に 0x8E 、２バイト目に JIS の半角コードがそのままはいる。
EUC から JIS であれば、逆になる。
JISのエスケープコード、半角カタカナの扱いに注意。

JIS から EUC の変換アルゴリズムとしては

１バイト目と２バイト目それぞれに 0x80 を加算または論理和。

漢字				半角カタカナ
１バイト目		２バイト目		１バイト目		２バイト目
JIS	EUC	JIS	EUC	JIS	EUC	JIS	EUC
0x21 0x22 ・ 0x7D 0x7E	0xA1 0xA2 ・ 0xFD 0xFE	0x21 0x22 ・ 0x7D 0x7E	0xA1 0xA2 ・ 0xFD 0xFE	0xA1 0xA2 ・ 0xDD 0xDE	0x8E 0x8E ・ 0x8E 0x8E	--- --- ・ --- ---	0xA1 0xA2 ・ 0xDD 0xDE

JIS-SJIS の変換

JIS から SJIS に変換する場合
１バイト目が 0x21～0x5E は 0x81～0x9F に、 0x5F～0x7E は 0xE0～0xEF に。
２バイト目は１バイト目が

奇数の場合、 0x21～0x5F は 0x40～0x7E に、0x60～0x7E は 0x80～0x9E に。SJISの２バイト目に 0x7F は無い。
偶数の場合、 0x21～0x7E は 0x9F～0xFC に。

JISのエスケープコードの扱いに注意。

JIS から SJIS の変換アルゴリズムとしては

１バイト目が奇数なら、２バイト目に 0x1F 加算。偶数なら 0x7D 加算。
加算した結果が 0x7F 以上なら１加算。
１バイト目に１加算して、２で割る。0x30未満なら 0x70 加算。そうでなければ 0xB0 加算。

SJIS から JIS の変換アルゴリズムとしては

１バイト目が 0x9F 以下なら 0x70 減算。そうでなければ 0xB0 減算。それを２倍する。
２バイト目が 0x7F 以上なら１減算。それが 0x9E 以上なら 0x7D 減算。
そうでなければ 0x1F 減算して、１バイト目を１減算。

１バイト目が奇数				１バイト目が偶数
１バイト目		２バイト目		１バイト目		２バイト目
JIS	SJIS	JIS	SJIS	JIS	SJIS	JIS	SJIS
0x21 0x23 ・ 0x5B 0x5D	0x81 0x82 ・ 0x9E 0x9F	0x21 0x22 ・ 0x5E 0x5F	0x40 0x41 ・ 0x7D 0x7E	0x22 0x24 ・ 0x5C 0x5E	0x81 0x82 ・ 0x9E 0x9F	0x21 0x22 ・ 0x7D 0x7E	0x9F 0xA0 ・ 0xFB 0xFC
0x5F 0x61 ・ 0x7B 0x7D	0xE0 0xE1 ・ 0xEE 0xEF	0x60 0x61 ・ 0x7D 0x7E	0x80 0x81 ・ 0x9D 0x9E	0x60 0x62 ・ 0x7C 0x7E	0xE0 0xE1 ・ 0xEE 0xEF	0x21 0x22 ・ 0x7D 0x7E	0x9F 0xA0 ・ 0xFB 0xFC

EUC-SJIS の変換

EUC とJISの差は 0x80 しかないのでEUC-JIS JIS-SJIS の二段構えで操作した方が簡単（苦笑。
だが、せっかくなので直接変換を考える。変換式自体はこれ以外にも当然あり得る。

EUC から SJIS に変換する場合
１バイト目が 0xA1～0xDE は 0x81～0x9F に、 0xDF～0xFE は 0xE0～0xEF に。
２バイト目は１バイト目が

奇数の場合、 0xA1～0xDF は 0x40～0x7E に、0xE0～0xFE は 0x80～0x9E に。SJISの２バイト目に 0x7F は無い。
偶数の場合、 0xA1～0xFE は 0x9F～0xFC に。

EUC から SJIS の変換アルゴリズムとしては

１バイト目が 0x8E なら、半角カタカナで処理終わり。
１バイト目が奇数なら、２バイト目に 0x61 減算。偶数なら 0x03 減算。
減算した結果が 0x7F 以上なら１加算。
１バイト目に１加算して、２で割る。0x70未満なら 0x30 加算。そうでなければ 0x70 加算。

サンプルソース
返り値：SJISコード。上位が１バイト目、下位が２バイト目。
0x100以下は半角文字。

int EUC2SJIS(unsinged char *euc){
  int code, hi;

    if(*euc == 0x8E)       /* 半角カタカナの処理 */
      code = *(euc+1);
    else if(*euc >= 0xA1){ /* ２バイト文字の処理 */
                           /* ２バイト目を先に処理 */
      code = *(euc+1);
      code -= (*euc & 1) ? 0x61 : 0x03;
      if( *(euc+1) >= 0x7F)  code++;
                           /* １バイト目 */
      hi = ( *euc + 1 ) / 2;
      hi += (hi < 0x70 ) ? 0x30 : 0x70;
      code += hi * 0x100;
    }else
      code = *euc;         /* １バイト文字の処理 */

  return code;
}

SJIS から EUC の変換アルゴリズムとしては

半角カタカナなら 0x8E を前に付加で処理終わり。
１バイト目が 0x9F 以下なら 0x30 減算。そうでなければ 0x70 減算。それを２倍する。
２バイト目が 0x7F 以上なら１減算。それが 0x9E 以上なら 0x03 加算。
そうでなければ 0x61 加算して、１バイト目を１減算。

EUC １バイト目が奇数				EUC １バイト目が偶数
１バイト目		２バイト目		１バイト目		２バイト目
EUC	SJIS	EUC	SJIS	EUC	SJIS	EUC	SJIS
0xA1 0xA3 ・ 0xDB 0xDD	0x81 0x82 ・ 0x9E 0x9F	0xA1 0xA2 ・ 0xDE 0xDF	0x40 0x41 ・ 0x7D 0x7E	0xA2 0xA4 ・ 0xDC 0xDE	0x81 0x82 ・ 0x9E 0x9F	0xA1 0xA2 ・ 0xFD 0xFE	0x9F 0xA0 ・ 0xFB 0xFC
0xDF 0xE1 ・ 0xFB 0xFD	0xE0 0xE1 ・ 0xEE 0xEF	0xE0 0xE1 ・ 0xFD 0xFE	0x80 0x81 ・ 0x9D 0x9E	0xE0 0xE2 ・ 0xFC 0xFE	0xE0 0xE1 ・ 0xEE 0xEF	0xA1 0xA2 ・ 0xFD 0xFE	0x9F 0xA0 ・ 0xFB 0xFC