蒙古文国际标准编码诸规则
- 格式:doc
- 大小:10.59 KB
- 文档页数:2
[心得] 各種語系的unicode對應以及local編碼方式更改我的閱讀文章字型大小大小作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/7/4 下午03:06:14一.英文Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)locale編碼: ANSI1. ANSIHTML charset: us-asciiRTF charset: 0編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)二.中文Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB1.BIG5HTML charset: big5RTF charset: 136編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE備註:big5+目前幾乎無人使用,故省略不提SHTML charset: 無(應為euc-tw或iso-2022-cn, 但IE並不支援)RTF charset: 無編碼方式: 多byte語系byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FEbyte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同(即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了3.GBHTML charset: gb2312, gbk, euc-cnRTF charset: 134編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE三.日文Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理locale編碼: Shift-JIS, EUC-JP1.Shift-JISHTML charset: shift_jis, x-sjis, iso-2022-jpRTF charset: 128編碼方式: 單/雙byte語系byte 1範圍為A1-DF時為1 byte編碼byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC2.EUC-JPHTML charset: euc-jp, x-euc-jpRTF charset: 無編碼方式: 多byte語系byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DFbyte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FEbyte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE備註: IE不支援3 byte編碼部份四.韓文Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理locale編碼: Johab, EUC-KR1.JohabHTML charset: johabRTF charset: 130編碼方式: 雙byte語系byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FEbyte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE2.EUC-KRHTML charset: euc-kr, iso-2022-krRTF charset: 129編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE五.阿拉伯文Unicode範圍: 0600-06FF, 0750-077Flocale編碼: Windows1.WindowsHTML charset: windows-1256RTF charset: 178編碼方式: 1 byte語系作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/7/4 下午03:07:01六.泰文Unicode範圍: 0E00-0E7Flocale編碼: Windows1.WindowsHTML charset: windows-874RTF charset: 222編碼方式: 1 byte語系七.俄文Unicode範圍: 0400-052F (西里爾文)locale編碼: Windows, ISO, KOI8-U, KOI8-R1.WindowsHTML charset: windows-1251RTF charset: 204編碼方式: 1 byte語系2.ISOHTML charset: iso-8859-5RTF charset: 無編碼方式: 1 byte語系3.KOI8-UHTML charset: koi8-uRTF charset: 無編碼方式: 1 byte語系4.KOI8-RHTML charset: koi8-rRTF charset: 無編碼方式: 1 byte語系八.德文/法文Unicode範圍: 00C0-00FF(混用英文字母)備註:字母上面有2點者為德文, 字母上面有重音符號者為法文locale編碼: ANSI1.ANSIHTML charset: iso-8859-1, windows-1252RTF charset: 0編碼方式: 1 byte語系九.印尼文/馬來西亞文Unicode範圍: 同英文, 為拼音語系locale編碼: 同英文十.其他希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:49:11十.中歐語系Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)locale編碼: Windows, ISO1.WindowsHTML charset: windows-1250RTF charset: 238編碼方式: 1 byte語系2.ISOHTML charset: iso-8859-2RTF charset: 無編碼方式: 1 byte語系十一.希臘文Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFFlocale編碼: Windows1.WindowsHTML charset: windows-1253, iso8859-7 (後者IE不支援)RTF charset: 161編碼方式: 1 byte語系十二.希伯來文Unicode範圍: 0590-05FFlocale編碼: Windows1.WindowsHTML charset: windows-1255, iso8859-8 (後者IE不支援)RTF charset: 177編碼方式: 1 byte語系十三.土耳其文Unicode範圍: 同拉丁語文(混用英文)locale編碼: Windows1.WindowsHTML charset: windows-1254, iso8859-9 (後者IE不支援)RTF charset: 162編碼方式: 1 byte語系作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:49:59*** Unicode語系字碼分佈表英文0041-005A, 0061-007A中文2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF日文3040-30FF, 31F0-31FF韓文1100-11FF, 3130-318F, AC00-D7AF泰文0E00-0E7F寮文0E80-0EFF藏文0F00-0FFF彝文A000-A4CF蒙古文1800-18AF緬甸文1000-109F高棉文1780-17FF拉丁文(Latin) 00C0-02AF, 1E00-1EFF希臘文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF希伯來文(Hebrew) 0590-05FF阿拉伯文(Arabic) 0600-06FF, 0750-077F敘利亞文(Syriac) 0700-074F西里爾文(Cyrillic), 0400-052F亞美尼亞文(Armenian) 0530-058F孟加拉文(Bengali) 0980-09FF僧伽羅文(Sinhala,斯里蘭卡文) 0D80-0DFF喬治亞文(Georgian,英國古文) 10A0-10FF, 2D00-2D2F歐甘文(Ogham,愛爾蘭文) 1680-169F如尼文(Runic,北歐古文) 16A0-16FF塔納文(Thaana,一種印度文) 0780-07BF比哈文(Syloti Nagri,一種印度文) A800-A82F林布文(Limbu,一種印度文) 1900-194F布吉文(Buginese,一種印度文) 1A00-1A1F奧里雅文(Oriya,一種印度文) 0B00-0B7F泰米爾文(Tamil,一種印度文) 0B80-0BFF泰盧固文(Telugu,一種印度文) 0C00-0C7F卡納達文(Kannada,一種印度文) 0C80-0CFF天城體梵文(Devanagari,一種印度文) 0900-097F古爾穆基文(Gurmukhi,一種印度文) 0A00-0A7F古吉拉特文(Gujarati,一種印度文) 0A80-0AFF馬拉雅拉姆文(Malayalam,一種印度文) 0D00-0D7F他加祿文(Tagalog,一種菲律賓文) 1700-171F漢奴勞文(Hanunoo,一種菲律賓文) 1720-173FBuhid(一種菲律賓文) 1740-175FTagbanwa(一種菲律賓文) 1760-177F徹羅基文(Cherokee,美國印弟安文) 13A0-13FFTai Le(中緬邊境民族文) 1950-197F新傣文(中國少數民族文) 1980-19DF格拉哥里文(Glagolitic,一種斯拉夫文) 2C00-2C5F衣索比亞文(Ethiopic) 1200-139F, 2D80-2DDF提非納文(Tifinagh,一種衣索匹亞文) 2D30-2D7F作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:51:54*** Unicode字碼分佈表0000-007F C0 Control and Basic Latin, 標準ANSI字元0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文0100-024F Latin Extended, 拉丁文0250-02AF IPA Extensions, 拉丁文02B0-02FF Spacing Modifier Letters, 符號0300-036F Combining Diacritical Marks, 組合記號0370-03FF Greek and Coptic, 希臘文與科普特文0400-052F Cyrillic, 西里爾文0530-058F Armenian, 亞美尼亞文0590-05FF Hebrew, 希伯來文0600-06FF Arabic, 阿拉伯文0700-074F Syriac, 敘利亞文0750-077F Arabic Supplement, 阿拉伯文0780-07BF Thaana, 塔納文(一種印度文)07C0-07FF 保留0900-097F Devanagari, 天城體梵文(一種印度文)0980-09FF Bengali, 孟加拉文0A00-0A7F Gurmukhi, 古爾穆基文(一種印度文)0A80-0AFF Gujarati, 古吉拉特文(一種印度文)0B00-0B7F Oriya, 奧里雅文(一種印度文)0B80-0BFF Tamil, 泰米爾文(一種印度文)0C00-0C7F Telugu, 泰盧固文(一種印度文)0C80-0CFF Kannada, 卡納達文(一種印度文)0D00-0D7F Malayalam, 馬拉雅拉姆文(一種印度文)0D80-0DFF Sinhala, 僧伽羅文(斯里蘭卡文)0E00-0E7F Thai, 泰文0E80-0EFF Lao, 寮文0F00-0FFF Tibetan, 藏文1000-109F Myanmar, 緬甸文10A0-10FF Georgian, 喬治亞文(英國古文)1100-11FF Hangul Jamo, 韓文1200-139F Ethiopic, 衣索比亞文13A0-13FF Cherokee, 徹羅基文(美國印弟安文)1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土語音節符號1680-169F Ogham, 歐甘文(愛爾蘭文)16A0-16FF Runic, 如尼文(北歐古文)1700-171F Tagalog, 他加祿文(一種菲律賓文)1720-173F Hanunoo, 漢奴勞文(一種菲律賓文)1740-175F Buhid, (一種菲律賓文)1760-177F Tagbanwa, (一種菲律賓文)1780-17FF Khmer, 高棉文1800-18AF Mongolian, 蒙古文18B0-18FF 保留1900-194F Limbu, 林布文(一種印度文)1950-197F Tai Le, (中緬邊境民族文)1980-19DF New Tai Lue, 新傣文(中國少數民族文)19E0-19FF Khmer Symbols, 高棉文符號1A00-1A1F Buginese, 布吉文(一種印度文)1A20-1CFF 保留1D00-1DBF Phonetic Extensions, 音標符號1DC0-1DFF Combining Diacritical Marks Supplement, 組合記號1E00-1EFF Latin Extended Additional, 拉丁文1F00-1FFF Greek Extended, 希臘文2000-206F General Punctuation, 標點符號2070-209F Superscripts and Subscripts, 上下標符號20A0-20CF Currency Symbols, 貨幣符號20D0-20FF Combining Diacritical Marks for Symbols, 符號用組合記號2100-214F Letterlike Symbols, 似字母符號2150-218F Number Forms, 數字符號2190-21FF Arrows, 箭頭符號作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:52:262200-22FF Mathematical Operators, 數學運算符號2300-23FF Miscellaneous Technical, 特殊符號2400-243F Control Pictures, 控制記號2440-245F Optical Character Recognition, 光學字元識別符號2460-24FF Enclosed Alphanumerics, 括號字母數字符號2500-257F Box Drawing, 表格符號2580-259F Block Elements, 區塊符號25A0-25FF Geometric Shapes, 幾何圖形符號2600-26FF Miscellaneous Symbols, 其他符號2700-27BF Dingbats, 前導符號27C0-27EF Miscellaneous Mathematical Symbols-A, 數學符號27F0-27FF Supplemental Arrows-A, 箭頭符號2800-28FF Braille Patterns, 盲文(點字符號)2900-297F Supplemental Arrows-B, 箭頭符號2980-29FF Miscellaneous Mathematical Symbols-B, 數學符號2A00-2AFF Supplemental Mathematical Operators, 數學運算符號2B00-2BFF Miscellaneous Symbols and Arrows, 箭頭符號2C00-2C5F Glagolitic, 格拉哥里文(一種斯拉夫文)2C80-2CFF Coptic, 科普特文(一種埃及文)2D00-2D2F Georgian Supplement, 喬治亞文(英國古文)2D30-2D7F Tifinagh, 提非納文(一種衣索匹亞文)2D80-2DDF Ethiopic Extended, 衣索匹亞文2DE0-2DFF 保留2E00-2E7F Supplemental Punctuation, 標點符號2E80-2EFF CJK Radicals Supplement, 中文部首2F00-2FDF Kangxi Radicals, 中文部首2FF0-2FFF Ideographic Description Characters, 漢字結構描述符號3000-303F CJK Symbols and Punctuation, 中日韓符號3040-309F Hiragana, 日文平假名30A0-30FF Katakana, 日文片假名3100-312F Bopomofo, 中文注音符號3130-318F Hangul Compatibility Jamo, 韓文3190-319F Kanbun, 中文上下標31A0-31BF Bopomofo Extended, 中文注音符號31C0-31EF CJK Strokes, 中文筆劃符號31F0-31FF Katakana Phonetic Extensions, 日文片假名3200-33FF Enclosed CJK Letters and Months, 中日韓組合符號字3400-4DBF CJK Unified Ideographs Extension A, 中文4DC0-4DFF Yijing Hexagram Symbols, 易經符號4E00-9FFF CJK Unified Ideographs, 中文A000-A4CF Yi, 彝文A4D0-A6FF 保留A700-A71F Modifier Tone Letters, 音標符號A720-A7FF 保留A800-A82F Syloti Nagri, 比哈文(一種印度文)A830-A8FF 保留AC00-D7AF Hangul Syllables, 韓文D780-D7FF 保留D800-DFFF Surrogates, UTF-16相容保留區E000-F8FF Private Use Area, 自造字專用區F900-FAFF CJK Compatibility Ideographs, 中文作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/11 下午08:52:45FB00-FB4F Alphabetic Presentation Forms, 字母變體顯現形式FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文變體顯現形式FE00-FE0F Variation Selectors, 字型變換選取器符號FE10-FE1F Vertical Forms, 中文直排符號FE20-FE2F Combining Half Marks, 組合記號FE30-FE4F CJK Compatibility Forms, 中文直排符號FE50-FE6F Small Form Variants, 標點符號FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文變體顯現形式FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符FFF0-FFFF Specials, 特殊保留區作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/12 下午07:19:55*** code page編號一覽表37: US-Canada (IBM EBCDIC)367: 西歐語系/英文(ibm)437: 英文OEM/西歐語系-Euro (dos)500: 波羅的海文(dos)708: 阿拉伯文ASMO 708720: 阿拉伯文dos737: 希臘文windows (dos)775: 波羅的海文(dos)819: 西歐語系(ibm)850: 西歐語系(dos)852: 中歐語系dos855: 斯拉夫語系857: 土耳其文(dos)858: 西歐語系+Euro (dos)860: 葡萄牙文(dos)861: 冰島文(dos)862: 希伯來文dos863: French/Canada (dos)864: 阿拉伯文dos865: 日耳曼語系/挪威文(dos)866: 俄文dos869: 希臘文(modern) (dos)870: Multilingual Latin-2 (IBM EBCDIC) 874: 泰文(dos/windows)875: 希臘文(modern) (IBM EBCDIC) 932: 日文shift-jis936: 簡體中文gb949: 韓文euc-kr950: 繁體中文big51026: 土耳其文+Latin5 (IBM EBCDIC) 1140: US-Canada (Euro) (IBM EBCDIC) 1141: 德文(Euro) (IBM EBCDIC) 1142: 丹麥/挪威(Euro) (IBM EBCDIC) 1143: 芬蘭/瑞典(Euro) (IBM EBCDIC) 1144: 義大利文(Euro) (IBM EBCDIC) 1145: 西班牙文(Euro) (IBM EBCDIC) 1146: UK (Euro) (IBM EBCDIC)1147: 法文(Euro) (IBM EBCDIC) 1148: International-Euro (IBM EBCDIC) 1149: 冰島文(Euro) (IBM EBCDIC)1200: unicode (小印第安格式)1201: unicode (大印第安格式)1250: 中歐語系windows1251: 斯拉夫語系/俄文windows 1252: 西歐語系(windows)1253: 希臘文windows (windows) 1254: 土耳其文(windows)1255: 希伯來文windows (windows)1256: 阿拉伯文windows1257: 波羅的海文windows1258: 越南文(windows)1361: 韓文johab10000: 西歐語系(mac)10001: 日文(mac)10002: 繁體中文big5 (mac)10003: 韓文(mac)10004: 阿拉伯文(mac)10005: 希伯來文(mac)10006: 希臘文(mac)10007: 斯拉夫語系/俄文(mac)10008: 簡體中文gb (mac)10029: 中歐語系(mac)10079: 冰島文(mac)10081: 土耳其文(mac)20000: 繁體中文CNS20002: 繁體中文big5 (倚天)20105: 西歐語系(IA5)20106: 德文(IA5)20107: 瑞典文(IA5)20108: 挪威文(IA5)20127: US-ASCII作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/12 下午07:20:3220273: 德文(IBM EBCDIC)20277: 丹麥/挪威(IBM EBCDIC)20278: 芬蘭/瑞典(IBM EBCDIC)20280: 義大利文(IBM EBCDIC)20284: 西班牙文(IBM EBCDIC)20285: UK (IBM EBCDIC)20290: 日文shift-jis (IBM EBCDIC)20423: 希臘文(IBM EBCDIC)20424: 希伯來文(IBM EBCDIC)20833: 韓文擴充(IBM EBCDIC)20838: 泰文(IBM EBCDIC)20866: 俄文koi8-r20871: 冰島文(IBM EBCDIC)20880: 俄文(IBM EBCDIC)20905: 土耳其文(IBM EBCDIC)21025: Serbian-Bulgarian (IBM EBCDIC)21866: 俄文koi8-u28591: (iso-8859-1) 西歐語系(Latin 1)28592: (iso-8859-2) 中歐語系iso (Latin 2)28593: (iso-8859-3) 南歐語系(Latin 3)28594: (iso-8859-4) 北歐語系/波羅的海文iso (Latin 4) 28595: (iso-8859-5) 斯拉夫語系/俄文iso28596: (iso-8859-6) 阿拉伯文iso28597: (iso-8859-7) 希臘文iso28598: (iso-8859-8) 希伯來文iso (visual)28599: (iso-8859-9) 土耳其文(Latin 5)28600: (iso-8859-10) 北歐語系(Latin 6)28601: (iso-8859-11) 泰文28602: (iso-8859-12) 保留(原預定為印度天城體梵文) 28603: (iso-8859-13) 波羅的海文(Latin 7)28604: (iso-8859-14) Celtic (Latin 8)28605: (iso-8859-15) Latin 928606: (iso-8859-16) 東南歐語系(Latin 10)29001: Europa38598: 希伯來文iso (logical)50000: 使用者定義50220: 日文jis50221: 日文jis+1 byte Kana50222: 日文jis+esc序列50225: 韓文euc-kr (iso)50930: 日文(IBM EBCDIC)50931: 日文+加拿大文(IBM EBCDIC)50932: 日文自動選擇50933: 韓文(IBM EBCDIC)50935: 簡體中文(IBM EBCDIC)50939: 日文+拉丁文(IBM EBCDIC)50949: 韓文自動選擇51932: 日文euc-jp51936: 簡體中文gb51949: 韓文euc-kr (euc)52936: 簡體中文hz57002: Devanagari (ISCII)57003: Bengali (ISCII)57004: Tamil (ISCII)57005: Telugu (ISCII)57006: Assamese (ISCII)57007: Oriya (ISCII)57008: Kannada (ISCII)57009: Malayalam (ISCII)57010: Gujarathi (ISCII)57011: Panjabi (ISCII)65000: utf-765001: utf-8註:標示Euro表示有Euro符號參考資料:http://www.destructor.de/firebird/charsets.htm/chinese/topic/lcr-3.html/globaldev/reference/cphome.mspxMSDN/HTML Character Sets/Character Set Recognition作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:20:05*** Oracle OCI Database Charset ID一覽表1 US7ASCII (ASCII 7-bit American)2 WE8DEC (DEC 8-bit West European)3 WE8HP (HP LaserJet 8-bit West European)4 US8PC437 (IBM-PC Code Page 437 8-bit American)5 WE8EBCDIC37 (EBCDIC Code Page 37 8-bit West European)6 WE8EBCDIC500 (EBCDIC Code Page 500 8-bit West European)7 WE8EBCDIC1140 (EBCDIC Code Page 1140 8-bit West European)8 WE8EBCDIC285 (EBCDIC Code Page 285 8-bit West European)9 WE8EBCDIC1146 (EBCDIC Code Page 1146 8-bit West European)10 WE8PC850 (IBM-PC Code Page 850 8-bit West European)11 D7DEC (DEC VT100 7-bit German)12 F7DEC (DEC VT100 7-bit French)13 S7DEC (DEC VT100 7-bit Swedish)14 E7DEC (DEC VT100 7-bit Spanish)15 SF7ASCII (ASCII 7-bit Finnish)16 NDK7DEC (DEC VT100 7-bit Norwegian/Danish)17 I7DEC (DEC VT100 7-bit Italian)18 NL7DEC (DEC VT100 7-bit Dutch)19 CH7DEC (DEC VT100 7-bit Swiss (German/French))20 YUG7ASCII (ASCII 7-bit Yugoslavian)21 SF7DEC (DEC VT100 7-bit Finnish)22 TR7DEC (DEC VT100 7-bit Turkish)23 IW7IS960 (Israeli Standard 960 7-bit Latin/Hebrew)25 IN8ISCII (Multiple-Script Indian Standard 8-bit Latin/Indian)27 WE8EBCDIC1148 (EBCDIC Code Page 1148 8-bit West European)28 WE8PC858 (IBM-PC Code Page 858 8-bit West European)31 WE8ISO8859P1 (ISO 8859-1 West European)32 EE8ISO8859P2 (ISO 8859-2 East European)33 SE8ISO8859P3 (ISO 8859-3 South European)34 NEE8ISO8859P4 (ISO 8859-4 North and North-East European)35 CL8ISO8859P5 (ISO 8859-5 Latin/Cyrillic)36 AR8ISO8859P6 (ISO 8859-6 Latin/Arabic)37 EL8ISO8859P7 (ISO 8859-7 Latin/Greek)38 IW8ISO8859P8 (ISO 8859-8 Latin/Hebrew)39 WE8ISO8859P9 (ISO 8859-9 West European & Turkish)40 NE8ISO8859P10 (ISO 8859-10 North European)41 TH8TISASCII (Thai Industrial Standard 620-2533 - ASCII 8-bit)42 TH8TISEBCDIC (Thai Industrial Standard 620-2533 - EBCDIC 8-bit)43 BN8BSCII (Bangladesh National Code 8-bit BSCII)44 VN8VN3 (8-bit Vietnamese)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:20:4445 VN8MSWIN1258 (MS Windows Code Page 1258 8-bit Vietnamese)46 WE8ISO8859P15 (ISO 8859-15 West European)47 BLT8ISO8859P13 (ISO 8859-13 Baltic)48 CEL8ISO8859P14 (ISO 8859-13 Celtic)49 CL8ISOIR111 (ISOIR111 Cyrillic)50 WE8NEXTSTEP (NeXTSTEP PostScript 8-bit West European)51 CL8KOI8U (KOI8 Ukrainian Cyrillic)61 AR8ASMO708PLUS (ASMO 708 Plus 8-bit Latin/Arabic)70 AR8EBCDICX (EBCDIC XBASIC Server 8-bit Latin/Arabic)72 AR8XBASIC (XBASIC 8-bit Latin/Arabic)81 EL8DEC (DEC 8-bit Latin/Greek)82 TR8DEC (DEC 8-bit Turkish)90 WE8EBCDIC37C (EBCDIC Code Page 37 8-bit Oracle/c)91 WE8EBCDIC500C (EBCDIC Code Page 500 8-bit Oracle/c)92 IW8EBCDIC424 (EBCDIC Code Page 424 8-bit Latin/Hebrew)93 TR8EBCDIC1026 (EBCDIC Code Page 1026 8-bit Turkish)94 WE8EBCDIC871 (EBCDIC Code Page 871 8-bit Icelandic)95 WE8EBCDIC284 (EBCDIC Code Page 284 8-bit Latin American/Spanish)96 WE8EBCDIC1047 (EBCDIC Code Page 1047 8-bit West European)97 WE8EBCDIC1140C (EBCDIC Code Page 1140 Client 8-bit West European)98 WE8EBCDIC1145 (EBCDIC Code Page 1145 8-bit West European)99 WE8EBCDIC1148C (EBCDIC Code Page 1148 Client 8-bit West European) 100 WE8EBCDIC1047E (Latin 1/Open Systems 1047)101 WE8EBCDIC924 (Latin 9 EBCDIC 924)110 EEC8EUROASCI (EEC Targon 35 ASCI West European/Greek)113 EEC8EUROPA3 (EEC EUROPA3 8-bit West European/Greek)114 LA8PASSPORT (German Government Printer 8-bit All-European Latin) 140 BG8PC437S (IBM-PC Code Page 437 8-bit (Bulgarian Modification))150 EE8PC852 (IBM-PC Code Page 852 8-bit East European)152 RU8PC866 (IBM-PC Code Page 866 8-bit Latin/Cyrillic)153 RU8BESTA (BESTA 8-bit Latin/Cyrillic)154 IW8PC1507 (IBM-PC Code Page 1507/862 8-bit Latin/Hebrew)155 RU8PC855 (IBM-PC Code Page 855 8-bit Latin/Cyrillic)156 TR8PC857 (IBM-PC Code Page 857 8-bit Turkish)158 CL8MACCYRILLIC (Mac Client 8-bit Latin/Cyrillic)159 CL8MACCYRILLICS (Mac Server 8-bit Latin/Cyrillic)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:12160 WE8PC860 (IBM-PC Code Page 860 8-bit West European)161 IS8PC861 (IBM-PC Code Page 861 8-bit Icelandic)162 EE8MACCES (Mac Server 8-bit Central European)163 EE8MACCROA TIANS (Mac Server 8-bit Croatian)164 TR8MACTURKISHS (MAC Server 8-bit Turkish)165 IS8MACICELANDICS (Mac Server 8-bit Icelandic)166 EL8MACGREEKS (Mac Server 8-bit Greek)167 IW8MACHEBREWS (Mac Server 8-bit Hebrew)170 EE8MSWIN1250 (MS Windows Code Page 1250 8-bit East European)171 CL8MSWIN1251 (MS Windows Code Page 1251 8-bit Latin/Cyrillic)172 ET8MSWIN923 (MS Windows Code Page 923 8-bit Estonian)173 BG8MSWIN (MS Windows 8-bit Bulgarian Cyrillic)174 EL8MSWIN1253 (MS Windows Code Page 1253 8-bit Latin/Greek)175 IW8MSWIN1255 (MS Windows Code Page 1255 8-bit Latin/Hebrew)177 TR8MSWIN1254 (MS Windows Code Page 1254 8-bit Turkish)178 WE8MSWIN1252 (MS Windows Code Page 1252 8-bit West European)179 BLT8MSWIN1257 (MS Windows Code Page 1257 8-bit Baltic)180 D8EBCDIC273 (EBCDIC Code Page 273/1 8-bit Austrian German)181 I8EBCDIC280 (EBCDIC Code Page 280/1 8-bit Italian)182 DK8EBCDIC277 (EBCDIC Code Page 277/1 8-bit Danish)183 S8EBCDIC278 (EBCDIC Code Page 278/1 8-bit Swedish)184 EE8EBCDIC870 (EBCDIC Code Page 870 8-bit East European)185 CL8EBCDIC1025 (EBCDIC Code Page 1025 8-bit Cyrillic)186 F8EBCDIC297 (EBCDIC Code Page 297 8-bit French)187 IW8EBCDIC1086 (EBCDIC Code Page 1086 8-bit Hebrew)188 CL8EBCDIC1025X (EBCDIC Code Page 1025 (Modified) 8-bit Cyrillic)189 D8EBCDIC1141 (EBCDIC Code Page 1141 8-bit Austrian German)190 N8PC865 (IBM-PC Code Page 865 8-bit Norwegian)191 BLT8CP921 (Latvian Standard LVS8-92(1) Windows/Unix 8-bit Baltic)192 LV8PC1117 (IBM-PC Code Page 1117 8-bit Latvian)193 LV8PC8LR (Latvian Version IBM-PC Code Page 866 8-bit Latin/Cyrillic)194 BLT8EBCDIC1112 (EBCDIC Code Page 1112 8-bit Baltic Multilingual)195 LV8RST104090 (IBM-PC Alternative Code Page 8-bit Latvian (Latin/Cyrillic))作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:31196 CL8KOI8R (RELCOM Internet Standard 8-bit Latin/Cyrillic)197 BLT8PC775 (IBM-PC Code Page 775 8-bit Baltic)198 DK8EBCDIC1142 (EBCDIC Code Page 1142 8-bit Danish)199 S8EBCDIC1143 (EBCDIC Code Page 1143 8-bit Swedish)200 I8EBCDIC1144 (EBCDIC Code Page 1144 8-bit Italian)201 F7SIEMENS9780X (Siemens 97801/97808 7-bit French)202 E7SIEMENS9780X (Siemens 97801/97808 7-bit Spanish)203 S7SIEMENS9780X (Siemens 97801/97808 7-bit Swedish)204 DK7SIEMENS9780X (Siemens 97801/97808 7-bit Danish)205 N7SIEMENS9780X (Siemens 97801/97808 7-bit Norwegian)206 I7SIEMENS9780X (Siemens 97801/97808 7-bit Italian)207 D7SIEMENS9780X (Siemens 97801/97808 7-bit German)208 F8EBCDIC1147 (EBCDIC Code Page 1147 8-bit French)210 WE8GCOS7 (Bull EBCDIC GCOS7 8-bit West European)211 EL8GCOS7 (Bull EBCDIC GCOS7 8-bit Greek)221 US8BS2000 (Siemens 9750-62 EBCDIC 8-bit American)222 D8BS2000 (Siemens 9750-62 EBCDIC 8-bit German)223 F8BS2000 (Siemens 9750-62 EBCDIC 8-bit French)224 E8BS2000 (Siemens 9750-62 EBCDIC 8-bit Spanish)225 DK8BS2000 (Siemens 9750-62 EBCDIC 8-bit Danish)226 S8BS2000 (Siemens 9750-62 EBCDIC 8-bit Swedish)230 WE8BS2000E (Siemens EBCDIC.DF.04 8-bit West European)231 WE8BS2000 (Siemens EBCDIC.DF.04 8-bit West European)232 EE8BS2000 (Siemens EBCDIC.DF.04 8-bit East European)233 CE8BS2000 (Siemens ???)235 CL8BS2000 (Siemens EBCDIC.EHC.LC 8-bit Cyrillic)239 WE8BS2000L5 (Siemens EBCDIC.DF.L5 8-bit West European/Turkish) 241 WE8DG (DG 8-bit West European)251 WE8NCR4970 (NCR 4970 8-bit West European)261 WE8ROMAN8 (HP Roman8 8-bit West European)262 EE8MACCE (Mac Client 8-bit Central European)263 EE8MACCROA TIAN (Mac Client 8-bit Croatian)264 TR8MACTURKISH (MAC Client 8-bit Turkish)265 IS8MACICELANDIC (Mac Client 8-bit Icelandic)266 EL8MACGREEK (Mac Client 8-bit Greek)267 IW8MACHEBREW (Mac Client 8-bit Hebrew)277 US8ICL (ICL EBCDIC 8-bit American)278 WE8ICL (ICL EBCDIC 8-bit West European)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:21:51279 WE8ISOICLUK (ICL special version ISO8859-1)301 EE8EBCDIC870C (EBCDIC Code Page 870 Client 8-bit East European)311 EL8EBCDIC875S (EBCDIC Code Page 875 Server 8-bit Greek)312 TR8EBCDIC1026S (EBCDIC Code Page 1026 Server 8-bit Turkish)314 BLT8EBCDIC1112S (EBCDIC Code Page 1112 8-bit Server Baltic Multilingual)315 IW8EBCDIC424S (EBCDIC Code Page 424 Server 8-bit Latin/Hebrew)316 EE8EBCDIC870S (EBCDIC Code Page 870 Server 8-bit East European)317 CL8EBCDIC1025S (EBCDIC Code Page 1025 Server 8-bit Cyrillic)319 TH8TISEBCDICS (Thai Industrial Standard 620-2533-EBCDIC Server 8-bit)320 AR8EBCDIC420S (EBCDIC Code Page 420 Server 8-bit Latin/Arabic)322 CL8EBCDIC1025C (EBCDIC Code Page 1025 Client 8-bit Cyrillic)323 CL8EBCDIC1025R (EBCDIC Code Page 1025 Server 8-bit Cyrillic)324 EL8EBCDIC875R (EBCDIC Code Page 875 Client 8-bit Greek)351 WE8MACROMAN8 (Mac Client 8-bit Extended Roman8 West European)352 WE8MACROMAN8S (Mac Server 8-bit Extended Roman8 West European)353 TH8MACTHAI (Mac Client 8-bit Latin/Thai)354 TH8MACTHAIS (Mac Server 8-bit Latin/Thai)368 HU8CWI2 (Hungarian 8-bit CWI-2)380 EL8PC437S (IBM-PC Code Page 437 8-bit (Greek modification))381 EL8EBCDIC875 (EBCDIC Code Page 875 8-bit Greek)382 EL8PC737 (IBM-PC Code Page 737 8-bit Greek/Latin)383 LT8PC772 (IBM-PC Code Page 772 8-bit Lithuanian (Latin/Cyrillic))384 LT8PC774 (IBM-PC Code Page 774 8-bit Lithuanian (Latin))385 EL8PC869 (IBM-PC Code Page 869 8-bit Greek/Latin)386 EL8PC851 (IBM-PC Code Page 851 8-bit Greek/Latin)390 CDN8PC863 (IBM-PC Code Page 863 8-bit Canadian French)401 HU8ABMOD (Hungarian 8-bit Special AB Mod)500 AR8ASMO8X (ASMO Extended 708 8-bit Latin/Arabic)504 AR8NAFITHA711T (Nafitha Enhanced 711 8-bit Latin/Arabic)505 AR8SAKHR707T (SAKHR 707 8-bit Latin/Arabic)506 AR8MUSSAD768T (Mussa'd Alarabi/2 768 8-bit Latin/Arabic)507 AR8ADOS710T (Arabic MS-DOS 710 8-bit Latin/Arabic)508 AR8ADOS720T (Arabic MS-DOS 720 8-bit Latin/Arabic)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/17 下午07:22:09509 AR8APTEC715T (APTEC 715 8-bit Latin/Arabic)511 AR8NAFITHA721T (Nafitha International 721 8-bit Latin/Arabic)514 AR8HPARABIC8T (HP 8-bit Latin/Arabic)554 AR8NAFITHA711 (Nafitha Enhanced 711 Server 8-bit Latin/Arabic)555 AR8SAKHR707 (SAKHR 707 Server 8-bit Latin/Arabic)556 AR8MUSSAD768 (Mussa'd Alarabi/2 768 Server 8-bit Latin/Arabic)557 AR8ADOS710 (Arabic MS-DOS 710 Server 8-bit Latin/Arabic)558 AR8ADOS720 (Arabic MS-DOS 720 Server 8-bit Latin/Arabic)559 AR8APTEC715 (APTEC 715 Server 8-bit Latin/Arabic)560 AR8MSWIN1256 (MS Windows Code Page 1256 8-Bit Latin/Arabic)561 AR8NAFITHA721 (Nafitha International 721 Server 8-bit Latin/Arabic)563 AR8SAKHR706 (SAKHR 706 Server 8-bit Latin/Arabic)565 AR8ARABICMAC (Mac Client 8-bit Latin/Arabic)566 AR8ARABICMACS (Mac Server 8-bit Latin/Arabic)567 AR8ARABICMACT (Mac 8-bit Latin/Arabic)590 LA8ISO6937 (ISO 6937 8-bit Coded Character Set for Text Communication)798 WE8DECTST (DEC 8-bit West European)829 JA16VMS (JVMS 16-bit Japanese)830 JA16EUC (EUC 24-bit Japanese)831 JA16EUCYEN (EUC 24-bit Japanese with '\' mapped to the Japanese yen character)832 JA16SJIS (Shift-JIS 16-bit Japanese)833 JA16DBCS (IBM EBCDIC 16-bit Japanese)834 JA16SJISYEN (Shift-JIS 16-bit Japanese with '\' mapped to the Japanese yen character)835 JA16EBCDIC930 (IBM DBCS Code Page 290 16-bit Japanese)836 JA16MACSJIS (Mac client Shift-JIS 16-bit Japanese)837 JA16EUCTILDE (The same as JA16EUC except for the way that the wave dash and the tilde are mapped to and from Unicode)838 JA16SJISTILDE (The same as JA16SJIS except for the way that the wave dash and the tilde are mapped to and from Unicode)840 KO16KSC5601 (KSC5601 16-bit Korean)842 KO16DBCS (IBM EBCDIC 16-bit Korean)845 KO16KSCCS (KSCCS 16-bit Korean)846 KO16MSWIN949 (MS Windows Code Page 949 Korean)850 ZHS16CGB231280 (CGB2312-80 16-bit Simplified Chinese)851 ZHS16MACCGB231280 (Mac client CGB2312-80 16-bit Simplified Chinese)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表][ 回知識入口]2005/8/17 下午07:22:25852 ZHS16GBK (GBK 16-bit Simplified Chinese)853 ZHS16DBCS (IBM EBCDIC 16-bit Simplified Chinese)854 ZHS32GB18030 (GB18030-2000)860 ZHT32EUC (EUC 32-bit Traditional Chinese)861 ZHT32SOPS (SOPS 32-bit Traditional Chinese)862 ZHT16DBT (Taiwan Taxation 16-bit Traditional Chinese)863 ZHT32TRIS (TRIS 32-bit Traditional Chinese)864 ZHT16DBCS (IBM EBCDIC 16-bit Traditional Chinese)865 ZHT16BIG5 (BIG5 16-bit Traditional Chinese)866 ZHT16CCDC (HP CCDC 16-bit Traditional Chinese)867 ZHT16MSWIN950 (MS Windows Code Page 950 Traditional Chinese)868 ZHT16HKSCS (MS Windows Code Page 950 with Hong Kong Supplementary Character Set) 870 AL24UTFFSS (UTF)871 UTF8 (UTF)872 UTFE (UTF)873 AL32UTF8 (UTF)??? LT8MSWIN921 (MS Windows Code Page 921 8-bit Lithuanian)作者: chiuinan2(青衫)[ 貼文3434 | 人氣170106 | 評價31580 | 送出評價102 次][ 回應本文] [ 發表新文] [ 給予評價] [ 給予評價] [ 回上頁] [ 回討論區列表] [ 回知識入口]2005/8/22 下午09:24:27*** unix系統的locale語系定義字串格式: language[_territory][.codeset][@modifier]language: ISO 639 language codeterritory: ISO 3166 country codecodeset: 編碼標記以下為語系列表(language_territory), 括號中的為已知的codeset. 系統現行支援語系可由locale -a命令得知.a3 同a3_aza3_az ??? (KOI8C,KOI8-C)af 同af_za。
蒙古文编码向拉丁转写转换和分音节算法实现孟和吉雅;山丹【摘要】在蒙古文单词拼写中有很多型同音异词,从字面上难以辨别和区分型同字符的差异,这对蒙古文信息处理方面都带来了一定的困难.但在蒙古文的文字信息处理过程中,解决型同音异词,确定其编码是一项重要研究内容.该文重点讨论如何实现蒙古文的拉丁转写和切分音节,来确定那些型同音异词中的型同字符的问题.%The Mongolian has, lots of words with the same type but different pronunciation. Which challenges the Mongolian information processing. Therefore, it is essential in Mongolian information processing to solve these kind of words and determine the codes. This paper mainly discusses how to realize Latin transformation and syllable segmentation for such words in Mongolian.【期刊名称】《中文信息学报》【年(卷),期】2011(025)004【总页数】4页(P101-104)【关键词】蒙古文;音节;拉丁转写【作者】孟和吉雅;山丹【作者单位】内蒙古大学计算机学院,内蒙古呼和浩特010020;内蒙古社会科学院,内蒙古呼和浩特010020【正文语种】中文【中图分类】TP3911 前言蒙古语是中国蒙古族自治地方的通用语言之一。
在上世纪70、80年代开始研究蒙古文信息处理时,主要是从文字处理开始的,而且制定的蒙古文编码也是表现“字型”为主。
经过几十年的发展,蒙古文信息处理研究已经不仅仅局限于文字处理方面,在语音合成、语音识别、文字识别等也有了一定成果。
第35 卷第4 期2006 年12 月内蒙古师范大学学报(自然科学汉文版)J o u r n al of Inner Mo n g o lia No r m al U n iver s it y( N at u ral S cience Editio n)Vo l . 35 No . 4Dec . 2006支持国际标准码的蒙古文拼音输入法研究红梅(内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022)摘要: 介绍了蒙古文的几种编码和蒙古文国际标准码的制定,结合开发实际论述了支持国际标准码的蒙古文拼音输入法的设计和开发过程.关键词: 蒙古文; 拼音输入法; 国际标准码中图分类号: T P 391 . 2 文献标识码: A 文章编号: 1001228735 (2006) 042204392203随着Int e r n et 事业的蓬勃发展,我国网上中文信息处理技术已取得了较好的成绩.蒙古语是内蒙古自治区广泛使用的一种语言交流工具,所以研究和发展网上蒙古文信息处理是非常必要的.为此,本文设计了支持国际标准码的蒙古文拼音输入法,旨在为蒙古文信息处理工作奠定基础.1 蒙古文国际标准码[ 1 ,2 ]1 . 1 蒙古文的几种编码蒙古文编码是蒙古文输入法中不可缺少的一部分. 蒙古文编码的研制始于20 世纪80 年代初,二十多年来,我国和蒙古国、德国、日本、匈牙利、美国以及我国台湾省等国家和地区的学者研究和制定了不同的蒙古文编码. 这些编码虽然在一定的范围内起到了积极的作用,但编码的不统一使得不同蒙古文信息处理系统之间无法交换和共享信息,造成资源浪费和网上交流不方便等问题. 目前,国内外有代表性的蒙古文编码主要有6 种.(1) “N EC”编码. 这是一种“音节编码”,编码中包含了字母顺序、区分“形同音不同字母”等信息,编码码位达700 多个,十分臃肿.(2) “SU DA R”编码. 蒙古国的“SUDA R”编码是以“一个字母一个编码”的原则编制的“字母编码”,区分了“形同音不同字母”,能按字母顺序排列. 这种编码包含信息较多,而用的字符相对较少,共有136 个字符.这种编码虽然有很多优点,但因码位太多,根据《U CS》的规则,不能被接受.(3) “ML S”编码. 这种编码是以转写的拉丁字母作“名义字符”,以蒙古文字字符为“变形显现字符”的“字素编码”,是完全依赖拉丁字母的一种“混合编码”. 它的优点是只有47 个码位,依靠拉丁转写可以进行排序和检索.(4) “G B”编码. 这是一种“混合编码”,它不能区分“形同音不同字母”,并限制字符长度为3 ,给字和词的处理带来很多不便.(5) “ZN”编码.“ZN”编码也是一种“混合编码”,不能区分“形同音不同字母”. 这种编码的缺点是不能排序、不能以读音检索.(6) “FN”编码. 和其他编码一样“, FN”编码能够满足印刷需要,但不能满足教学及信息处理等要求.1 .2 蒙古文国际标准码的制定[ 2 ,3 ]蒙古文国际标准编码的制定是一项系统工程,它关系到蒙古文等5 种文字的规律、特征及国家标准化组织ISO/ W G 2的各种原则和规定,涉及语言文字学领域和计算机技术领域. 2000 年国际标准化组织( ISO) 通收稿日期: 2006 - 04 - 10基金项目: 国家自然科学基金资助项目(60163003) ; 内蒙古师范大学青年科学基金资助项目(Q N005019)作者简介: 红梅( 1976 - ) ,女(蒙古族) ,内蒙古呼和浩特市人,内蒙古师范大学讲师,主要从事蒙古文信息处理研究.过了国际标准码ISO - 10646 ( G B - 13000) 的蒙古文编码并规定了《蒙古文字符集》,从而为蒙古文字符集和编码的统一制定了标准. 蒙古文字符由“名义字符”和“显现字符”两部分组成,其中“名义字符”是指每一个蒙古文字母的多个变体中最具代表性的一个形式,每一个名义字符有唯一的国际标准编码.“显现字符”是指蒙古文的每一个字母的多个变体,是用于显现、输出的字符.蒙古文国际标准码定义的名义字符表有179 个码位,但对1 000 多个显现字符表未给出编码位置. 根据国家民委的精神,该标准包括蒙古文、满文、托忒蒙古文、锡伯文等,都包括在蒙古文系列文字内.2 支持国际标准码的蒙古文拼音输入法的处理拼音输入法是根据拼音字母与蒙古文字母读音接近的特点,建立蒙古文字母与键盘的对应关系.当击蒙古文字母对应的键时,屏幕上显示与该字母读音相关的各种书写形式,通过数字键可以选择所需要的蒙古文字母.2 . 1 蒙古文字符[ 4 ]蒙古文的名义字符有35 个,其中8 个元音字符,27 个辅音字符.表1 为蒙古文的名义字符表( 其中的英文字母为蒙古文拼音输入法中蒙古文字符所对应的键) .表1 蒙古文名义字符表根据使用过的编码特征和蒙古文的特点对每种名义字符制定了对应的显现字符. 例如“, a”的显现字符为等( 显现字符对应的键与它所对应的名义字符键一致) .2 . 2 阿里嘎里字符拼音输入法中包含了以往的蒙古文输入法中没有考虑的阿里嘎里字母. 阿里嘎里字母虽然不经常使用, 但它是蒙古族和满族人民在广泛的文化交往中,为翻译梵文和藏文佛经而创制的一种很科学的转写字母,是宝贵的民族文化遗产.所以,我们在蒙古文拼音输入法中加入了阿里嘎里字符.2 .3 蒙古文数字和标点符号根据蒙古文字竖写的特点,为了与蒙古文字符的大小比例匹配,我们定义了若干个常用数字和蒙古文数字,考虑到输入法的通用性还加入了多种蒙古文标点符号,并把常用的蒙古文标点符号对应在键盘的符号键上,如“”等蒙古文符号.表2 为蒙古文常用标点符号与键盘对应表.表2 蒙古文常用标点符号第 4 期 红 梅 : 支持国际标准码的蒙古文拼音输入法研究·441 ·表 3 蒙古文数字 、蒙古文符号和阿里嘎里字符 (3) (4) 查码表得到蒙古文输入代码串所对应的蒙古文字母 . (2) 和 (3) 的操作过程如图 1 所示 .根据提示行缓冲区的特性 ,对重码蒙古文字母重新整理显示分页.(5) 处理重码显示的向前 、向后翻页和重码选择 .(6) 处理从编码窗口和选择窗口的显示 、移动和隐藏 .(7) 处理蒙古文标点符号 、蒙古文数字和阿里嘎里字符的显示 .2 . 5 重码的显示及选择蒙古文拼音输入法与汉字拼音输入法相似 ,输入 时 首先 击蒙 古 文字 符 所 对应的键 ,然后 从 选择 窗口 中 选择 所 需 的蒙古文字形 , 其重码个数为表 1 中对 应此键的蒙 古 文字 母的 变 体个 数. 蒙 古 文选择窗口中将显示这些重码 ,例如击“u ”键时选择窗口中的重码如图 2 所示 .图 1 蒙古文拼音输入法输入信息处理过程流程图 图 2 编码窗口和蒙古文选择窗口3 结论根据蒙古文信息处理技术的发展和需要 ,开发以国际标准码为编码体系的一整套蒙古文输入法是非常 必要的 ,其中拼音输入法是最容易被用户掌握和接受的一种输入法. ISO - 10646 ( G B - 13000) 只制定了蒙古 文的名义字符的编码 ,而对其显现字符未给出码位 ,这给蒙古文信息处理带来一些不便. 由于在保存和网上传输时需要用名义字符 ,而显示和打印时需要用显现字符 ,所以需要制定显现字符的编码 . 针对这些问题 ,我们在输入法中编写了名义字符串到显现字符串的转换程序和显现字符串到名义字符串的转换程序.(下转第 446 页)De s i g n of Co nce n t r at e d Sup e r vi s io n Ma na ge me ntSyst e m to t he Co m m u nicatio n Net wo r kP EI Y i n g 2mei 1 , 2 , XU Wei 2s he n g 1 ( 1 . S c h ool o f Elect roni c a n d I n f o rm at i o n En g i n ee r i n g , T o n g j i U n i ve r s i t y , S h a n g h a i 200092 , Chi n a ;2 . De p a r t m e nt o f I n f o r m a t i o n En g i nee r i n g , W ei h ai V o c a t i o n a l Col l e g e , W e i h a i , S h a n d on g 264200 , Chi n a )Abstract : Si n gle li n e 2bro k e n ala r m a n n u nciato r s ca n be co n nect e d i n to a net w o r k a n d co n ce n t r at e d su 2 p e r vi s io n ma na ge me nt ca n be ca r ried o n u nde r t h e s uppo r t of t h e geo grap h y i nfo r matio n syst e m by net w o r k t ec h n ique ,co mmunicatio n t ech nique a nd dat a ba s e t ech n ique . U si ng t he p ro gra mmi ng la ngua g e of Vi s ual Ba sic a nd a co mpo ne n t of GIS 2Map X 5 . 0 ,i n t h i s a r ticle ,t h e co nce nt rat e d sup er vi sio n syst e m of t h e co m mu 2nicatio n net w o r k wa s de s i g ned .K ey w ords : co mmunicatio n net w o r k ; co n ce n t r at e d s up e r v i s io n ; Map X ; co m po n e n t GIS 【责任编辑 陈汉忠】(上接第 441 页)参考文献 :[ 1 ] 敖其尔 . 几种蒙文信息处理系统的设计与实现 [ C ] / / 第三次蒙古学国际学术讨论会论文集 . 呼和浩特 : 内蒙古大学 ,1998 :125 - 127 .那顺乌日图 ,确精扎布 . 蒙古文国际标准码的构成原则 [J ] . 内蒙古大学学报 :人文社会科学版 ,1997 (6) :1 - 7 .红梅 ,乌仁图亚 . 蒙古文处理系统中有关编码问题 [J ] . 内蒙古师范大学学报 :自然科学 (蒙古文) 版 ,2005 (4) :30 - 32 . 那森柏 ,哈斯额尔敦 . 现代蒙古语 [ M ] . 呼和浩特 :内蒙古教育出版社 ,1991 :100 - 200 . 红梅 . 对托忒蒙古文拼音输入法的研究 [J ] . 内蒙古师范大学学报 :自然科学 (蒙古文) 版 ,2004 (2) :41 - 43 .[ 2 ] [ 3 ] [ 4 ] [ 5 ]A n Inve s ti g atio n of t he Mo ngolia n Pho neticize Inp utMet ho d Ba s e d o n Int e r natio nal St a nda r d Co deHo n gmei ( Col l e ge o f Com p ute r a n d I n f orm at i o n En g i n ee r i n g , I n n e r M o n g o l i a N o r m a l U n i ve r si t y , H u h h ot 010022 , Chi n a ) Abstract : Thi s p a p e r i n t ro d uce d several co d e of Mo n golia n cha r act e r a n d t h e e s t a b li s h m e n t of i n t e r n a 2 tio n al st a n da r d Mo n golia n co d e . Wit h t h e p r act ical e xpie n ce ,p roce s s of de s i g n a n d i mp l e me n t a tio n of t h e Mo n golia n p h o n et icize Inp u t met h o d wa s al s o de s cri b ed .K ey w ords : Mo n golia n ; p h o n eticize Inp u t met h o d ; i n t e r n atio n al st a n da r d co d e。
蒙古文国际标准编码诸规则一、背景介绍蒙古文是蒙古族人民使用的一种书写文字系统,广泛应用于蒙古国和中国的内蒙古自治区等地。
为了促进蒙古文的国际化推广和标准化应用,蒙古文国际标准编码诸规则被制定。
本文将全面、详细、完整地探讨这些规则。
二、国际标准编码的意义国际标准编码的制定对于蒙古文的推广和传承意义重大。
它有助于促进蒙古文与其他文字系统的互通性,使得使用蒙古文的国家和地区能够更加便捷地进行信息交流。
同时,国际标准编码也为蒙古文在计算机和互联网领域的应用提供了基础和支持。
三、蒙古文国际标准编码的制定3.1 蒙古文字符的编码规则蒙古文国际标准编码的核心是对蒙古文字符的统一编码规则。
根据Unicode字符编码标准,蒙古文字符采用了专门的编码范围,并按照特定的规则进行排列。
具体而言,蒙古文字符在Unicode标准中的编码范围是0x1800至0x18AF,其中包括了蒙古文基本字符、附加字符以及其他扩展字符。
3.2 蒙古文语音特点的考虑编码规则的制定还需考虑到蒙古文语音特点。
蒙古文具有丰富的声调和发音变化,这对于编码规则的设计提出了一定的挑战。
因此,蒙古文国际标准编码需要充分考虑到语音特点,采用合理的编码方案,确保每个蒙古文字符都能够准确表示其对应的语音。
3.3 兼容性和扩展性的考虑蒙古文国际标准编码的制定还需兼顾到编码的兼容性和扩展性。
兼容性指的是与现有的计算机系统和软件的编码标准兼容,使得蒙古文能够无障碍地与其他文字系统进行交互。
扩展性指的是能够容纳未来蒙古文语言发展中可能出现的新字符和标点符号,保障编码标准的长期可用性。
四、蒙古文国际标准编码的应用蒙古文国际标准编码的应用具有广泛的领域和范围。
首先,蒙古文国际标准编码能够促进蒙古文在计算机和互联网领域的应用,包括蒙古文网站、电子邮件、社交媒体等。
其次,蒙古文国际标准编码也对于蒙古文的教育和研究具有重要意义,为学术交流和知识传播提供了方便。
此外,蒙古文国际标准编码还有助于蒙古文的出版、印刷和数字化处理等领域的发展。
《蒙古语术语标准编写规定》编制说明一、工作简况(一)包括任务来源根据原内蒙古自治区质量技术监督局《关于下达2017年第2批内蒙古自治区地方标准制修订项目计划的通知》(内质监标准字[2017]2 号)精神,由内蒙古自治区民族事务委员会对DB 15/T 294-1998《蒙古语术语标准编写规定》进行修订。
(二)起草单位内蒙古自治区质量和标准化研究院、内蒙古自治区民族事务委员会(三)协作单位蒙古语名词术语委员会二、制定标准的必要性和意义随着时代的发展,各民族之间在经济、教育和文化等领域的交往日益密切。
近年来,我国经济社会发展较快,科学技术更是突飞猛进,新生事物和概念也是层出不穷,新词术语也随之大量涌入各类媒介载体,而术语作为传播知识、技能,进行社会文化,经济交流中不可缺少的重要工具,如不统一规范,必定会出现理解和使用上的差异,影响相互之间的沟通交流。
术语工作是语言工作的一部分,也是标准化工作的重要组成部分。
我国的民族语言政策是实行各民族语言平等并强调“分类指导”原则。
我国宪法规定:各民族都有使用和发展自己的语言文字的自由。
《民族区域自治法》还规定了:民族自治地方的自治机关在执行职务的时候,依照本民族自治地方自治条例的规定,使用当地通用的一种或者几种语言文字;同时使用几种通用的语言文字执行职务的,可以以实行区域自治的民族的语言文字为主。
我国是一个多民族、多语言的国家,少数民族中回族和满族使用汉语外,其他民族都有自己的语言。
改革开放以后,经济社会发展,各民族之间的交往越来越频繁,使用汉语的少数民族越来越多,但是由于我国少数民族的历史、文化背景、语言文字发展状况和语言环境不相同,还有相当一部分的少数民族是以自己本民族语言作为主要的交流沟通工具,所以加强民族语言与术语工作就显得尤为重要了。
2017年国家民委印发的《国家民委“十三五”少数民族语言文字工作规划》提出:配合加强少数民族语言文字规范化标准化工作。
进一步完善少数民族语言文字规范标准体系,支持研究制订社会应用和信息化急需的少数民族语言文字基础规范标准。
蒙古文国际标准编码诸规则
那顺乌日图;确精扎布
【期刊名称】《内蒙古大学学报:哲学社会科学版》
【年(卷),期】1998(0)4
【摘要】蒙古文国际标准编码的制定工作是一项系统工程,它一方面关系到ISO/IEC10646这样的国际标准所必须遵循的各种规定,另一方面也要体现蒙古文等五种文字的各种特点与规律,制定适合这些文字规律特点的各种规则。
本文从理论与实践两个方面探讨了蒙古文国际标准编码的显现规则、“控制符”使用规则和几个标点符号的使用规则。
【总页数】8页(P77-84)
【关键词】蒙古文;国际标准;编码;规则
【作者】那顺乌日图;确精扎布
【作者单位】内蒙古大学蒙古语文研究所
【正文语种】中文
【中图分类】H212
【相关文献】
1.从ASCII码到蒙古文国际标准编码转写软件的设计与实现 [J], 图格木勒;包艳花
2.基于国际标准编码系统的维吾尔文拉丁文转写规则研究 [J], 亚森·伊明
3.关于传统蒙古文网页的国际标准编码及字体处理技术 [J], 陈晓宇;赵久军;郗风江
4.蒙古文、托忒文、锡伯文(含满文)编码方案──我国提出的这一方案已被国际
标准化组织接受 [J],
5.蒙古文国际标准编码的构成原则 [J], 那顺乌日图;确精扎布
因版权原因,仅展示原文概要,查看原文内容请购买。
非标准蒙古文字符编码转换为国际编码的一种方法
巩政;郝莉;杨旭华
【期刊名称】《内蒙古大学学报:自然科学版》
【年(卷),期】2008(39)2
【摘要】蒙古文信息处理由于诸多原因,造成多种编码共存,现有的大量信息资源无法共享.大多数系统的蒙古文编码以蒙古文显现字符为基本编码单位,属于字形编码.本文讨论的问题是首先将不同种类的蒙古文字形编码转换为蒙古文最小字素编码,再根据蒙古文正字法对照词典及有关规则,转换为蒙古文国际编码.
【总页数】4页(P216-219)
【关键词】蒙古文;最小字素;蒙古文国际编码
【作者】巩政;郝莉;杨旭华
【作者单位】内蒙古大学计算机学院,呼和浩特010021;内蒙古邮政信息技术局,呼和浩特010020
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.一种基于点阵式字符编码的文本信息隐藏算法 [J], 杨夷梅;杨玉军
2.一种基于中文字符编码的文本水印算法研究 [J], 陈翔
3.一种将北大方正排版文件PS2,S2转换为PDF文件的简便方法 [J], 李东海
4.拟定中的通用字符编码国际新标准 [J], 钱培德;朱巧明
5.蒙古文字符编码标准制定中的有关问题 [J], 嘎日迪;吉日木图
因版权原因,仅展示原文概要,查看原文内容请购买。
从ASCII码到蒙古文国际标准编码转写软件的设计与实现
图格木勒;包艳花
【期刊名称】《呼伦贝尔学院学报》
【年(卷),期】2016(24)2
【摘要】蒙古文编码相互不统一、不兼容现象已存在很长时间。
这对蒙古文的全
球性交流、通信、资源共享等带来了很大的不便。
随着蒙古文国际标准编码的发布和Microsoft Office 2007开始实现了传统蒙古文的显示、排版,蒙古文编码逐步向国际标准编码统一是必然趋势。
蒙古文信息处理工作已建设成熟的一些数据资源、知识资源都是以ASCII码拉丁字符转写形式记录的。
为了这些资源的可持续利用
研制了从 ASCII 码到蒙古文国际标准编码转写软件。
本文简述了从ASCII码到蒙
古文国际标准编码转写软件研制的目的和意义、转写软件的结构、转写过程、实验结果及存在的问题等。
【总页数】4页(P5-8)
【作者】图格木勒;包艳花
【作者单位】内蒙古教育出版社内蒙古呼和浩特 010010;呼伦贝尔学院蒙古学学院内蒙古海拉尔 021008
【正文语种】中文
【中图分类】TP311.52
【相关文献】
1.基于国际标准编码系统的维吾尔文拉丁文转写规则研究 [J], 亚森·伊明
2.蒙古文编码向拉丁转写转换和分音节算法实现 [J], 孟和吉雅;山丹
3.基于国际标准编码系统的藏文拉丁文转写规则模型 [J], 祁坤钰;达召卡什吉
4.关于传统蒙古文网页的国际标准编码及字体处理技术 [J], 陈晓宇;赵久军;郗风江
5.蒙古文国际标准编码诸规则 [J], 那顺乌日图;确精扎布
因版权原因,仅展示原文概要,查看原文内容请购买。
完善蒙古文编码标准的思考和建议
孟和吉雅;巩政
【期刊名称】《信息技术与标准化》
【年(卷),期】2015(0)1
【摘要】针对蒙古文编码标准的理解不一致现象,主要分析和讨论了蒙古文编码标准的研究和使用中发现的规则不完善、复杂和缺乏实用性的问题,并提出了蒙古文编码标准完善的思考和建议.
【总页数】4页(P36-39)
【作者】孟和吉雅;巩政
【作者单位】内蒙古大学;内蒙古大学
【正文语种】中文
【相关文献】
1.完善我国法官职业化建设的思考和建议兼论审判长选任制的完善 [J], 刘胜利
2.传统蒙古文编码标准化推进与应用 [J], 张守先;徐志强;李满江
3.蒙古文字符编码标准制定中的有关问题 [J], 嘎日迪;吉日木图
4.统一追溯编码标准完善机制共享数据——追溯的历史、现状、趋势与对策 [J], 张成海
5.完善物品编码标准体系的应用研究 [J], 王向民
因版权原因,仅展示原文概要,查看原文内容请购买。
多文种系统中的蒙古文通用编码
巴力登
【期刊名称】《中文信息》
【年(卷),期】1992()3
【总页数】5页(P52-56)
【关键词】编码;蒙文
【作者】巴力登
【作者单位】
【正文语种】中文
【中图分类】TP391
【相关文献】
1.蒙古文编码国家标准推广中存在的问题 [J], 梁金宝
2.蒙古文信息处理通用系统内部码体系结构详析 [J], 拉西吉格
3.现行蒙古文UNICODE编码应用中存在的问题与原因及对策研究 [J], 都仁;
4.蒙古文国际通用编码方案 [J], 巴力登
5.蒙古文编码转换通用算法研究 [J], 斯.劳格劳
因版权原因,仅展示原文概要,查看原文内容请购买。
Unicode字符编码分布表――语言文字类欧洲字母非洲文字印度文字东亚文字中亚文字(查阅组合·标记字符)埃塞俄比亚文字孟加拉字符( U+0980–汉字Kharoshihi ( U+10A00–U+09FF )U+10A5F )亚美尼亚文字埃塞俄比亚字符( U+1200–梵文字符( U+0900 –中日韩统一汉字( U+4E00–蒙古字符( U+1800–U+137F )U+097F )U+9FBF , 5MB )U+18AF )亚美尼亚字符( U+0530–U+058F )增补埃塞俄比亚字符古吉拉特字符( U+0A80中日韩统一汉字扩展集A( U+3400八思巴字符( U+A840–( U+1380 –U+139F )–U+0AFF)–U+4DBF , 2MB )U+A87F )亚美尼亚文字相关(字母表达形式埃塞俄比亚字符扩展集果鲁穆奇字符( U+0A00中日韩统一汉字扩展集B藏语字符( U+0F00–字符: U+FB00 –U+FB4F )( U+2D80 –U+2DDF)–U+0A7F )( U+20000 –U+2A6DF, 13MB ) U+0FFF )科普特文字其他非洲文字埃纳德字符( U+0C80–中日韩相容汉字( U+F900–U+0CFF )U+FAFF , 0.5MB )科普特字符( U+2C80林布字符( U+1900 –增补中日韩相容汉字(U+2F800––U+2CFF ) N ’Ko ( U+07C0 –U+07FF )U+2FA1F , 0.5MB )U+194F )希腊文字中的科普特字符( U+0370提非纳字符( U+2D30–马拉亚拉姆字符汉字注释标记( U+3190 ––U+03FF )U+2D7F )( U+0D00–U+0D7F ) U+319F )西里尔文字中东文字奥里亚字符( U+0B00–(查阅中日韩统一汉字数据库)古文字U+0B7F )西里尔字符( U+0400–U+04FF )阿拉伯文僧伽罗字符( U+0D80 -部首和笔画古希腊U+0DFF )增补西里尔字符( U+0500 –阿拉伯字符( U+0600–Syloti Nagri字符增补中日韩汉字部首(U+2E80–古希腊数字( U+10140–U+052F )U+06FF )( U+A800–U+A82F )U+2EFF )U+1018F )乔治亚风格文字增补阿拉伯字符( U+0750 – 泰米尔字符( U+0B80––U+2FDF )古希腊音乐符号( U+1D200–U+077F )U+0BFF )康熙部首( U+2F00U+1D24F )乔治亚风格字母( U+10A0 – 阿拉伯表达形式字符集 A 泰卢固字符( U+0C00 – 中日韩汉字笔画( U+31C0–楔形文字U+10FF )( U+FB50 –U+FDFF ) U+0C7F )U+31EF )增补乔治亚风格字母( U+2D00 – 阿拉伯表达形式字符集 B 表意文字描述符( U+2FF0–楔形文字( U+12000 –U+2D2F )( U+FE70 –U+FEFF)U+2FFF )U+123FF )希腊文字希伯来文菲律宾文字中文专用符号楔形文字数字和标点符号( U+12400 –U+1247F )希腊字符( U+037 –U+03FF )希伯来字符( U+0590 –Buhid 字符( U+1740 – 汉语拼音字母( U+3100 –古波斯字符( U+103A0 –U+059F )U+175F )U+312F )U+103DF )希腊字符扩展集( U+1F00 – 希伯来字母表达形式字符 哈鲁喏字符( U+1720 – 汉语拼音字母扩展集( U+31A0 – 乌加里特字符( U+10380 –U+1FFF )(U+FB00 –U+FB4F )U+173F )U+31BF )U+1039F )(查阅 古希腊 分区)叙利亚文塔加路字符( U+1700 – 线状 BU+171F )日文专用符号拉丁文叙利亚字符( U+0700 –泰格班瓦字符( U+1760 –U+309F )线状 B 表音字符( U+10000 –U+074F )–U+177F )平假名( U+3040U+1007F )基本拉丁字符 ( U+0000 –U+007F )塔纳文片假名( U+30A0 –U+30FF )线状 B 表意字符( U+10080 –U+100FF )增补拉丁字符集 1 (U+0080 –塔纳字符( U+0780 – 东南亚文字片假名音标扩展集( U+31F0 –其他古文字U+00FF )U+07BF )U+31FF )拉丁字符扩展集 A ( U+0100 –美洲文字布吉字符( U+1A00 –爱琴海数字( U+10100 –U+017F )U+1A1F )半角片假名( U+FF00 –U+FFEF)U+1013F )拉丁字符扩展集 B ( U+0180 – 加拿大语字符( U+1400 – 巴厘字符( U+1B00 –筹算数字( U+1D360 –朝鲜文字专用符号U+024F )U+167F )U+1B7F )U+1D37F )拉丁字符扩展集 C ( U+2C60 –切罗基字符( U+13A0–高棉字符( U+1780–谚文音节字符( U+AC00 –塞浦路斯表音字符(U+10800 U+2C7F )U+13FF )U+17FF )U+D7AF , 4MB )–U+1083F )拉丁字符扩展集 D ( U+A720 –犹他字符( U+10400–高棉符号( U+19E0–谚文字母( U+1100 –U+11FF )哥特字符( U+10330–U+A7FF )U+1044F )U+19FF )U+1034F )附加拉丁字符扩展集( U+1E00 –其他文字老挝语字符( U+0E80–谚文相容字母( U+3130 –古意大利语字符( U+10300 –U+1EFF )U+0EFF )U+318F )U+1032F )拉丁文相关(字母表达形式字符:萧伯纳风格字符( U+10450–缅甸语字符( U+1000 –半角谚文字母( U+FF00 –欧甘字符( U+1680–U+FB00 –U+FB4F )U+1047F )U+109F )U+FFEF )U+169F )全角拉丁字母( U+FF00 –奥斯曼字符( U+10480–新 Tai Lue字符( U+1980Runic 字符( U+16A0–U+FFEF )U+104AF )–U+19DF)YiU+16FF )小形式( U+FE50–U+FE6F )格拉哥里字符( U+2C00–Tai Le 字符( U+1950– Yi 音节符号( U+A000–U+A48F,腓尼基字符( U+10900–U+2C5F )U+197F )0.6MB )U+1091F )(参考音标符号)泰语字符( U+0E00–Yi 字元符号( U+A490–U+A4CF)U+0E7F )编码分布表――标点符号类标点符号数学符号符号私用通用标点符号数字和数字符号综合符号私用区( U+E000–U+F8FF )ASCII 标点符号( U+0000–印刷符号( U+2700 - U+27BF)增补私用 A 区( U+F0000 –U+FFFFD )U+007F )(查阅专用文字)增补拉丁字符集 1 标点符号ASCII 数字(U+0000–(U+0080–U+00FF )U+007F )综合符号( U+2600 –U+26FF )增补私用 B 区( U+100000 –U+10FFFD )通用标点符号( U+2000–全角 ASCII数字《太玄经》符号(U+1D300–(U+FF00–U+206F )U+1D35F )代理区U+FFEF )增补标点符号( U+2E00–数字形式字符《易经》六爻符号(U+4DC0––U+DBFF)U+2E7F )( U+2150–U+218F ) U+4DFF )高位代理区( U+D800中日韩标点符号上标和下标字符盲人点字图符( U+2800 –私用高位代理区( U+2070–U+209F ) U+28FF )中日韩标点符号(U+3000–音乐符号低位代理区( U+DC00–U+DFFF )U+303F )字母类符号全角 ASCII标点符号字母类符号( U+2100古希腊音乐符号(U+1D200–(U+FF00–U+FFEF )–U+214F )U+1D24F )非字符编码分布表竖排标点符号( U+FE10数学文字符号拜占庭音乐符号(U+1D000保留区(分配给每种文字或符号的编码区域里面或多或少都预留有一些–––U+FE1F )( U+1D400U+1D0FF )未分配的码位,所有这些未分配的码位统称为“保留区”。
蒙古文国际标准编码诸规则
蒙古文国际标准编码(Mongolian Unicode Standard)是用于蒙古文字符编码的国际标准。
蒙古文国际标准编码诸规则包括以下几个方面:
1. 字符编码范围:蒙古文国际标准编码使用Unicode编码,蒙古文字符的编码范围是0x1800至0x18AF。
2. 字符分类:蒙古文字符根据其用途和形态特征被分为不同的类别,包括字母、标点符号、数字等。
每个类别都有特定的编码范围。
3. 字母编码:蒙古文字母按照其在字母表中的顺序进行编码。
蒙古文字母的编码范围是0x1820至0x1877。
4. 标点符号编码:蒙古文标点符号按照其在标点符号表中的顺序进行编码。
蒙古文标点符号的编码范围是0x1800至0x180A。
5. 数字编码:蒙古文数字按照其在数字表中的顺序进行编码。
蒙古文数字的编码范围是0x1810至0x1819。
6. 字符排列规则:蒙古文字符的排列顺序是从左到右,从上到下。
7. 字符组合规则:蒙古文字符可以通过组合形成复合字符,例如字母和标点符号的组合。
复合字符的编码是由组成它的字符的编码组合而成。
蒙古文国际标准编码诸规则的制定和遵守,有助于实现蒙古文字符的正确输入、显示和处理,促进蒙古文在计算机和互联网领域的应用和交流。