[轉貼] 各種語系的unicode對應以及local編碼方式

2019082910:18
[出處] http://www.programmer-club.com.tw/ShowSameTitleN/general/4309.html

一.英文

Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)
locale編碼: ANSI

1. ANSI

HTML charset: us-ascii
RTF charset: 0
編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)


二.中文

Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表

locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB

1.BIG5

HTML charset: big5
RTF charset: 136
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE
備註:big5+目前幾乎無人使用,故省略不提

2.CNS

HTML charset: 無 (應為euc-tw或iso-2022-cn, 但IE並不支援)
RTF charset: 無
編碼方式: 多byte語系
byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE
byte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE

備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同 (即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了

3.GB

HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE


三.日文

Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)
備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理

locale編碼: Shift-JIS, EUC-JP

1.Shift-JIS

HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
編碼方式: 單/雙byte語系
byte 1範圍為A1-DF時為1 byte編碼
byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP

HTML charset: euc-jp, x-euc-jp
RTF charset: 無
編碼方式: 多byte語系
byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DF
byte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FE
byte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE

備註: IE不支援3 byte編碼部份


四.韓文

Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)
備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理

locale編碼: Johab, EUC-KR

1.Johab

HTML charset: johab
RTF charset: 130
編碼方式: 雙byte語系
byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FE
byte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE

2.EUC-KR

HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE


五.阿拉伯文

Unicode範圍: 0600-06FF, 0750-077F

locale編碼: Windows

1.Windows

HTML charset: windows-1256
RTF charset: 178
編碼方式: 1 byte語系

六.泰文

Unicode範圍: 0E00-0E7F

locale編碼: Windows

1.Windows

HTML charset: windows-874
RTF charset: 222
編碼方式: 1 byte語系


七.俄文

Unicode範圍: 0400-052F (西里爾文)

locale編碼: Windows, ISO, KOI8-U, KOI8-R

1.Windows

HTML charset: windows-1251
RTF charset: 204
編碼方式: 1 byte語系

2.ISO

HTML charset: iso-8859-5
RTF charset: 無
編碼方式: 1 byte語系

3.KOI8-U

HTML charset: koi8-u
RTF charset: 無
編碼方式: 1 byte語系

4.KOI8-R

HTML charset: koi8-r
RTF charset: 無
編碼方式: 1 byte語系


八.德文/法文

Unicode範圍: 00C0-00FF(混用英文字母)
備註:字母上面有2點者為德文, 字母上面有重音符號者為法文

locale編碼: ANSI

1.ANSI

HTML charset: iso-8859-1, windows-1252
RTF charset: 0
編碼方式: 1 byte語系


九.印尼文/馬來西亞文

Unicode範圍: 同英文, 為拼音語系
locale編碼: 同英文


十.中歐語系

Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)

locale編碼: Windows, ISO

1.Windows

HTML charset: windows-1250
RTF charset: 238
編碼方式: 1 byte語系

2.ISO

HTML charset: iso-8859-2
RTF charset: 無
編碼方式: 1 byte語系

十一.希臘文

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF

locale編碼: Windows

1.Windows

HTML charset: windows-1253, iso8859-7 (後者IE不支援)
RTF charset: 161
編碼方式: 1 byte語系

十二.希伯來文

Unicode範圍: 0590-05FF

locale編碼: Windows

1.Windows

HTML charset: windows-1255, iso8859-8 (後者IE不支援)
RTF charset: 177
編碼方式: 1 byte語系

十三.土耳其文

Unicode範圍: 同拉丁語文(混用英文)

locale編碼: Windows

1.Windows

HTML charset: windows-1254, iso8859-9 (後者IE不支援)
RTF charset: 162
編碼方式: 1 byte語系



*** Unicode語系字碼分佈表

英文 0041-005A, 0061-007A
中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF
日文 3040-30FF, 31F0-31FF
韓文 1100-11FF, 3130-318F, AC00-D7AF
泰文 0E00-0E7F
寮文 0E80-0EFF
藏文 0F00-0FFF
彝文 A000-A4CF
蒙古文 1800-18AF
緬甸文 1000-109F
高棉文 1780-17FF
拉丁文(Latin) 00C0-02AF, 1E00-1EFF
希臘文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF
希伯來文 (Hebrew) 0590-05FF
阿拉伯文(Arabic) 0600-06FF, 0750-077F
敘利亞文(Syriac) 0700-074F
西里爾文(Cyrillic), 0400-052F
亞美尼亞文(Armenian) 0530-058F
孟加拉文(Bengali) 0980-09FF
僧伽羅文(Sinhala,斯里蘭卡文) 0D80-0DFF
喬治亞文(Georgian,英國古文) 10A0-10FF, 2D00-2D2F
歐甘文(Ogham,愛爾蘭文) 1680-169F
如尼文(Runic,北歐古文) 16A0-16FF
塔納文(Thaana,一種印度文) 0780-07BF
比哈文(Syloti Nagri,一種印度文) A800-A82F
林布文(Limbu,一種印度文) 1900-194F
布吉文(Buginese,一種印度文) 1A00-1A1F
奧里雅文(Oriya,一種印度文) 0B00-0B7F
泰米爾文(Tamil,一種印度文) 0B80-0BFF
泰盧固文(Telugu,一種印度文) 0C00-0C7F
卡納達文(Kannada,一種印度文) 0C80-0CFF
天城體梵文(Devanagari,一種印度文) 0900-097F 
古爾穆基文(Gurmukhi,一種印度文) 0A00-0A7F
古吉拉特文(Gujarati,一種印度文) 0A80-0AFF
馬拉雅拉姆文(Malayalam,一種印度文) 0D00-0D7F
他加祿文(Tagalog,一種菲律賓文) 1700-171F
漢奴勞文(Hanunoo,一種菲律賓文) 1720-173F
Buhid(一種菲律賓文) 1740-175F
Tagbanwa(一種菲律賓文) 1760-177F
徹羅基文(Cherokee,美國印弟安文) 13A0-13FF
Tai Le(中緬邊境民族文) 1950-197F
新傣文(中國少數民族文) 1980-19DF
格拉哥里文(Glagolitic,一種斯拉夫文) 2C00-2C5F
衣索比亞文(Ethiopic) 1200-139F, 2D80-2DDF
提非納文(Tifinagh,一種衣索匹亞文) 2D30-2D7F
0000-007F C0 Control and Basic Latin, 標準ANSI字元
0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文
0100-024F Latin Extended, 拉丁文
0250-02AF IPA Extensions, 拉丁文
02B0-02FF Spacing Modifier Letters, 符號
0300-036F Combining Diacritical Marks, 組合記號
0370-03FF Greek and Coptic, 希臘文與科普特文
0400-052F Cyrillic, 西里爾文
0530-058F Armenian, 亞美尼亞文
0590-05FF Hebrew, 希伯來文
0600-06FF Arabic, 阿拉伯文
0700-074F Syriac, 敘利亞文
0750-077F Arabic Supplement, 阿拉伯文
0780-07BF Thaana, 塔納文 (一種印度文)
07C0-07FF 保留
0900-097F Devanagari, 天城體梵文 (一種印度文)
0980-09FF Bengali, 孟加拉文
0A00-0A7F Gurmukhi, 古爾穆基文 (一種印度文)
0A80-0AFF Gujarati, 古吉拉特文 (一種印度文)
0B00-0B7F Oriya, 奧里雅文 (一種印度文)
0B80-0BFF Tamil, 泰米爾文 (一種印度文)
0C00-0C7F Telugu, 泰盧固文 (一種印度文)
0C80-0CFF Kannada, 卡納達文 (一種印度文)
0D00-0D7F Malayalam, 馬拉雅拉姆文 (一種印度文)
0D80-0DFF Sinhala, 僧伽羅文 (斯里蘭卡文)
0E00-0E7F Thai, 泰文
0E80-0EFF Lao, 寮文
0F00-0FFF Tibetan, 藏文
1000-109F Myanmar, 緬甸文
10A0-10FF Georgian, 喬治亞文 (英國古文)
1100-11FF Hangul Jamo, 韓文
1200-139F Ethiopic, 衣索比亞文
13A0-13FF Cherokee, 徹羅基文 (美國印弟安文)
1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土語音節符號
1680-169F Ogham, 歐甘文 (愛爾蘭文)
16A0-16FF Runic, 如尼文 (北歐古文)
1700-171F Tagalog, 他加祿文 (一種菲律賓文)
1720-173F Hanunoo, 漢奴勞文 (一種菲律賓文)
1740-175F Buhid, (一種菲律賓文)
1760-177F Tagbanwa, (一種菲律賓文)
1780-17FF Khmer, 高棉文 
1800-18AF Mongolian, 蒙古文 
18B0-18FF 保留
1900-194F Limbu, 林布文 (一種印度文)
1950-197F Tai Le, (中緬邊境民族文)
1980-19DF New Tai Lue, 新傣文 (中國少數民族文)
19E0-19FF Khmer Symbols, 高棉文符號
1A00-1A1F Buginese, 布吉文 (一種印度文)
1A20-1CFF 保留
1D00-1DBF Phonetic Extensions, 音標符號
1DC0-1DFF Combining Diacritical Marks Supplement, 組合記號
1E00-1EFF Latin Extended Additional, 拉丁文
1F00-1FFF Greek Extended, 希臘文
2000-206F General Punctuation, 標點符號
2070-209F Superscripts and Subscripts, 上下標符號
20A0-20CF Currency Symbols, 貨幣符號
20D0-20FF Combining Diacritical Marks for Symbols, 符號用組合記號
2100-214F Letterlike Symbols, 似字母符號
2150-218F Number Forms, 數字符號
2190-21FF Arrows, 箭頭符號
2200-22FF Mathematical Operators, 數學運算符號
2300-23FF Miscellaneous Technical, 特殊符號
2400-243F Control Pictures, 控制記號
2440-245F Optical Character Recognition, 光學字元識別符號
2460-24FF Enclosed Alphanumerics, 括號字母數字符號
2500-257F Box Drawing, 表格符號
2580-259F Block Elements, 區塊符號
25A0-25FF Geometric Shapes, 幾何圖形符號 
2600-26FF Miscellaneous Symbols, 其他符號 
2700-27BF Dingbats, 前導符號
27C0-27EF Miscellaneous Mathematical Symbols-A, 數學符號
27F0-27FF Supplemental Arrows-A, 箭頭符號
2800-28FF Braille Patterns, 盲文 (點字符號)
2900-297F Supplemental Arrows-B, 箭頭符號
2980-29FF Miscellaneous Mathematical Symbols-B, 數學符號
2A00-2AFF Supplemental Mathematical Operators, 數學運算符號
2B00-2BFF Miscellaneous Symbols and Arrows, 箭頭符號
2C00-2C5F Glagolitic, 格拉哥里文 (一種斯拉夫文)
2C80-2CFF Coptic, 科普特文 (一種埃及文)
2D00-2D2F Georgian Supplement, 喬治亞文 (英國古文)
2D30-2D7F Tifinagh, 提非納文 (一種衣索匹亞文)
2D80-2DDF Ethiopic Extended, 衣索匹亞文
2DE0-2DFF 保留
2E00-2E7F Supplemental Punctuation, 標點符號
2E80-2EFF CJK Radicals Supplement, 中文部首
2F00-2FDF Kangxi Radicals, 中文部首
2FF0-2FFF Ideographic Description Characters, 漢字結構描述符號
3000-303F CJK Symbols and Punctuation, 中日韓符號
3040-309F Hiragana, 日文平假名
30A0-30FF Katakana, 日文片假名
3100-312F Bopomofo, 中文注音符號
3130-318F Hangul Compatibility Jamo, 韓文
3190-319F Kanbun, 中文上下標
31A0-31BF Bopomofo Extended, 中文注音符號
31C0-31EF CJK Strokes, 中文筆劃符號
31F0-31FF Katakana Phonetic Extensions, 日文片假名
3200-33FF Enclosed CJK Letters and Months, 中日韓組合符號字
3400-4DBF CJK Unified Ideographs Extension A, 中文
4DC0-4DFF Yijing Hexagram Symbols, 易經符號
4E00-9FFF CJK Unified Ideographs, 中文
A000-A4CF Yi, 彝文
A4D0-A6FF 保留
A700-A71F Modifier Tone Letters, 音標符號
A720-A7FF 保留
A800-A82F Syloti Nagri, 比哈文 (一種印度文)
A830-A8FF 保留
AC00-D7AF Hangul Syllables, 韓文
D780-D7FF 保留
D800-DFFF Surrogates, UTF-16相容保留區
E000-F8FF Private Use Area, 自造字專用區 
F900-FAFF CJK Compatibility Ideographs, 中文
FB00-FB4F Alphabetic Presentation Forms, 字母變體顯現形式
FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文變體顯現形式
FE00-FE0F Variation Selectors, 字型變換選取器符號
FE10-FE1F Vertical Forms, 中文直排符號
FE20-FE2F Combining Half Marks, 組合記號
FE30-FE4F CJK Compatibility Forms, 中文直排符號
FE50-FE6F Small Form Variants, 標點符號
FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文變體顯現形式
FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符 
FFF0-FFFF Specials, 特殊保留區



*** code page編號一覽表

37: US-Canada (IBM EBCDIC)
367: 西歐語系/英文 (ibm)
437: 英文OEM/西歐語系-Euro (dos)
500: 波羅的海文 (dos)
708: 阿拉伯文ASMO 708
720: 阿拉伯文dos
737: 希臘文windows (dos)
775: 波羅的海文 (dos)
819: 西歐語系 (ibm)
850: 西歐語系 (dos)
852: 中歐語系dos
855: 斯拉夫語系
857: 土耳其文 (dos)
858: 西歐語系+Euro (dos)
860: 葡萄牙文 (dos)
861: 冰島文 (dos)
862: 希伯來文dos
863: French/Canada (dos)
864: 阿拉伯文dos
865: 日耳曼語系/挪威文 (dos)
866: 俄文dos
869: 希臘文 (modern) (dos)
870: Multilingual Latin-2 (IBM EBCDIC)
874: 泰文 (dos/windows)
875: 希臘文 (modern) (IBM EBCDIC)
932: 日文shift-jis
936: 簡體中文gb
949: 韓文euc-kr
950: 繁體中文big5

1026: 土耳其文+Latin5 (IBM EBCDIC)
1140: US-Canada (Euro) (IBM EBCDIC)
1141: 德文 (Euro) (IBM EBCDIC)
1142: 丹麥/挪威 (Euro) (IBM EBCDIC)
1143: 芬蘭/瑞典 (Euro) (IBM EBCDIC)
1144: 義大利文 (Euro) (IBM EBCDIC)
1145: 西班牙文 (Euro) (IBM EBCDIC)
1146: UK (Euro) (IBM EBCDIC)
1147: 法文 (Euro) (IBM EBCDIC)
1148: International-Euro (IBM EBCDIC)
1149: 冰島文 (Euro) (IBM EBCDIC)

1200: unicode (小印第安格式)
1201: unicode (大印第安格式)

1250: 中歐語系windows
1251: 斯拉夫語系/俄文windows
1252: 西歐語系 (windows)
1253: 希臘文windows (windows)
1254: 土耳其文 (windows)
1255: 希伯來文windows (windows)
1256: 阿拉伯文windows
1257: 波羅的海文windows
1258: 越南文 (windows)
1361: 韓文johab

10000: 西歐語系 (mac)
10001: 日文 (mac)
10002: 繁體中文big5 (mac)
10003: 韓文 (mac)
10004: 阿拉伯文 (mac)
10005: 希伯來文 (mac)
10006: 希臘文 (mac)
10007: 斯拉夫語系/俄文 (mac)
10008: 簡體中文gb (mac)
10029: 中歐語系 (mac)
10079: 冰島文 (mac)
10081: 土耳其文 (mac)

20000: 繁體中文CNS
20002: 繁體中文big5 (倚天)
20105: 西歐語系 (IA5)
20106: 德文 (IA5)
20107: 瑞典文 (IA5)
20108: 挪威文 (IA5)

20127: US-ASCII
20273: 德文 (IBM EBCDIC)
20277: 丹麥/挪威 (IBM EBCDIC)
20278: 芬蘭/瑞典 (IBM EBCDIC)
20280: 義大利文 (IBM EBCDIC)
20284: 西班牙文 (IBM EBCDIC)
20285: UK (IBM EBCDIC)
20290: 日文shift-jis (IBM EBCDIC)
20420: 阿拉伯文 (IBM EBCDIC)
20423: 希臘文 (IBM EBCDIC)
20424: 希伯來文 (IBM EBCDIC)
20833: 韓文擴充 (IBM EBCDIC)
20838: 泰文 (IBM EBCDIC)
20866: 俄文koi8-r
20871: 冰島文 (IBM EBCDIC)
20880: 俄文 (IBM EBCDIC)
20905: 土耳其文 (IBM EBCDIC)
21025: Serbian-Bulgarian (IBM EBCDIC)
21866: 俄文koi8-u

28591: (iso-8859-1) 西歐語系 (Latin 1)
28592: (iso-8859-2) 中歐語系iso (Latin 2)
28593: (iso-8859-3) 南歐語系 (Latin 3)
28594: (iso-8859-4) 北歐語系/波羅的海文iso (Latin 4)
28595: (iso-8859-5) 斯拉夫語系/俄文iso
28596: (iso-8859-6) 阿拉伯文iso
28597: (iso-8859-7) 希臘文iso
28598: (iso-8859-8) 希伯來文iso (visual)
28599: (iso-8859-9) 土耳其文 (Latin 5)
28600: (iso-8859-10) 北歐語系 (Latin 6)
28601: (iso-8859-11) 泰文
28602: (iso-8859-12) 保留 (原預定為印度天城體梵文)
28603: (iso-8859-13) 波羅的海文 (Latin 7)
28604: (iso-8859-14) Celtic (Latin 8)
28605: (iso-8859-15) Latin 9
28606: (iso-8859-16) 東南歐語系 (Latin 10)

29001: Europa

38598: 希伯來文iso (logical)

50000: 使用者定義

50220: 日文jis
50221: 日文jis+1 byte Kana
50222: 日文jis+esc序列
50225: 韓文euc-kr (iso)
50930: 日文 (IBM EBCDIC)
50931: 日文+加拿大文 (IBM EBCDIC)
50932: 日文自動選擇
50933: 韓文 (IBM EBCDIC)
50935: 簡體中文 (IBM EBCDIC)
50937: 繁體中文 (IBM EBCDIC)
50939: 日文+拉丁文 (IBM EBCDIC)
50949: 韓文自動選擇
51932: 日文euc-jp
51936: 簡體中文gb
51949: 韓文euc-kr (euc)
52936: 簡體中文hz

57002: Devanagari (ISCII)
57003: Bengali (ISCII)
57004: Tamil (ISCII)
57005: Telugu (ISCII)
57006: Assamese (ISCII)
57007: Oriya (ISCII)
57008: Kannada (ISCII)
57009: Malayalam (ISCII)
57010: Gujarathi (ISCII)
57011: Panjabi (ISCII)

65000: utf-7
65001: utf-8

註:標示Euro表示有Euro符號

參考資料:

http://www.destructor.de/firebird/charsets.htm
http://www.linuxforum.net/chinese/topic/lcr-3.html
http://www.microsoft.com/globaldev/reference/cphome.mspx
MSDN/HTML Character Sets/Character Set Recognition