当前位置:文档之家› Unicode汉字编码表

Unicode汉字编码表

Unicode汉字编码表
Unicode汉字编码表

Unicode汉字编码表

1 unicode编码表

Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。

编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------

2 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

4e00 一丁丂七丄丅丆万丈三上下丌不与丏

4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟

4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯------------------------------------------------------

3 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

4f30 估伱伲伳伴伵伶伷伸伹伺伻似伽伾伿4f40 佀佁佂佃佄佅但佇佈佉佊佋佌位低住4f50 佐佑佒体佔何佖佗佘余佚佛作佝佞佟4f60 你佡佢佣佤佥佦佧佨佩佪佫佬佭佮佯

4f70 佰佱佲佳佴併佶佷佸佹佺佻佼佽佾使4f80 侀侁侂侃侄侅來侇侈侉侊例侌侍侎侏4f90 侐侑侒侓侔侕侖侗侘侙侚供侜依侞侟4fa0 侠価侢侣侤侥侦侧侨侩侪侫侬侭侮侯4fb0 侰侱侲侳侴侵侶侷侸侹侺侻侼侽侾便4fc0 俀俁係促俄俅俆俇俈俉俊俋俌俍俎俏4fd0 俐俑俒俓俔俕俖俗俘俙俚俛俜保俞俟4fe0 俠信俢俣俤俥俦俧俨俩俪俫俬俭修俯4ff0 俰俱俲俳俴俵俶俷俸俹俺俻俼俽俾俿5000 倀倁倂倃倄倅倆倇倈倉倊個倌倍倎倏5010 倐們倒倓倔倕倖倗倘候倚倛倜倝倞借5020 倠倡倢倣値倥倦倧倨倩倪倫倬倭倮倯5030 倰倱倲倳倴倵倶倷倸倹债倻值倽倾倿5040 偀偁偂偃偄偅偆假偈偉偊偋偌偍偎偏5050 偐偑偒偓偔偕偖偗偘偙做偛停偝偞偟5060 偠偡偢偣偤健偦偧偨偩偪偫偬偭偮偯5070 偰偱偲偳側偵偶偷偸偹偺偻偼偽偾偿-------------------------------------------------------

4 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

5080 傀傁傂傃傄傅傆傇傈傉傊傋傌傍傎傏5090 傐傑傒傓傔傕傖傗傘備傚傛傜傝傞傟50a0 傠傡傢傣傤傥傦傧储傩傪傫催傭傮傯

50b0 傰傱傲傳傴債傶傷傸傹傺傻傼傽傾傿50c0 僀僁僂僃僄僅僆僇僈僉僊僋僌働僎像50d0 僐僑僒僓僔僕僖僗僘僙僚僛僜僝僞僟50e0 僠僡僢僣僤僥僦僧僨僩僪僫僬僭僮僯50f0 僰僱僲僳僴僵僶僷僸價僺僻僼僽僾僿5100 儀儁儂儃億儅儆儇儈儉儊儋儌儍儎儏5110 儐儑儒儓儔儕儖儗儘儙儚儛儜儝儞償5120 儠儡儢儣儤儥儦儧儨儩優儫儬儭儮儯5130 儰儱儲儳儴儵儶儷儸儹儺儻儼儽儾儿5140 兀允兂元兄充兆兇先光兊克兌免兎兏5150 児兑兒兓兔兕兖兗兘兙党兛兜兝兞兟5160 兠兡兢兣兤入兦內全兩兪八公六兮兯5170 兰共兲关兴兵其具典兹兺养兼兽兾兿5180 冀冁冂冃冄内円冇冈冉冊冋册再冎冏5190 冐冑冒冓冔冕冖冗冘写冚军农冝冞冟51a0 冠冡冢冣冤冥冦冧冨冩冪冫冬冭冮冯51b0 冰冱冲决冴况冶冷冸冹冺冻冼冽冾冿51c0 净凁凂凃凄凅准凇凈凉凊凋凌凍凎减-------------------------------------------------------

5 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

51D0 凐凑凒凓凔凕凖凗凘凙凚凛凜凝凞凟51E0 几凡凢凣凤凥処凧凨凩凪凫凬凭凮凯51F0 凰凱凲凳凴凵凶凷凸凹出击凼函凾凿

5200 刀刁刂刃刄刅分切刈刉刊刋刌刍刎刏5210 刐刑划刓刔刕刖列刘则刚创刜初刞刟5220 删刡刢刣判別刦刧刨利刪别刬刭刮刯5230 到刱刲刳刴刵制刷券刹刺刻刼刽刾刿5240 剀剁剂剃剄剅剆則剈剉削剋剌前剎剏5250 剐剑剒剓剔剕剖剗剘剙剚剛剜剝剞剟5260 剠剡剢剣剤剥剦剧剨剩剪剫剬剭剮副5270 剰剱割剳剴創剶剷剸剹剺剻剼剽剾剿5280 劀劁劂劃劄劅劆劇劈劉劊劋劌劍劎劏5290 劐劑劒劓劔劕劖劗劘劙劚力劜劝办功52A0 加务劢劣劤劥劦劧动助努劫劬劭劮劯52B0 劰励劲劳労劵劶劷劸効劺劻劼劽劾势52C0 勀勁勂勃勄勅勆勇勈勉勊勋勌勍勎勏52D0 勐勑勒勓勔動勖勗勘務勚勛勜勝勞募52E0 勠勡勢勣勤勥勦勧勨勩勪勫勬勭勮勯52F0 勰勱勲勳勴勵勶勷勸勹勺勻勼勽勾勿5300 匀匁匂匃匄包匆匇匈匉匊匋匌匍匎匏5310 匐匑匒匓匔匕化北匘匙匚匛匜匝匞匟-------------------------------------------------------

6 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

5320 匠匡匢匣匤匥匦匧匨匩匪匫匬匭匮匯5330 匰匱匲匳匴匵匶匷匸匹区医匼匽匾匿5340 區十卂千卄卅卆升午卉半卋卌卍华协

5350 卐卑卒卓協单卖南単卙博卛卜卝卞卟5360 占卡卢卣卤卥卦卧卨卩卪卫卬卭卮卯5370 印危卲即却卵卶卷卸卹卺卻卼卽卾卿5380 厀厁厂厃厄厅历厇厈厉厊压厌厍厎厏5390 厐厑厒厓厔厕厖厗厘厙厚厛厜厝厞原53a0 厠厡厢厣厤厥厦厧厨厩厪厫厬厭厮厯53b0 厰厱厲厳厴厵厶厷厸厹厺去厼厽厾县53c0 叀叁参參叄叅叆叇又叉及友双反収叏53d0 叐发叒叓叔叕取受变叙叚叛叜叝叞叟53e0 叠叡叢口古句另叧叨叩只叫召叭叮可53f0 台叱史右叴叵叶号司叹叺叻叼叽叾叿5400 吀吁吂吃各吅吆吇合吉吊吋同名后吏5410 吐向吒吓吔吕吖吗吘吙吚君吜吝吞吟5420 吠吡吢吣吤吥否吧吨吩吪含听吭吮启5430 吰吱吲吳吴吵吶吷吸吹吺吻吼吽吾吿5440 呀呁呂呃呄呅呆呇呈呉告呋呌呍呎呏5450 呐呑呒呓呔呕呖呗员呙呚呛呜呝呞呟5460 呠呡呢呣呤呥呦呧周呩呪呫呬呭呮呯-------------------------------------------------------

7 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

5470 呰呱呲味呴呵呶呷呸呹呺呻呼命呾呿5480 咀咁咂咃咄咅咆咇咈咉咊咋和咍咎咏

5490 咐咑咒咓咔咕咖咗咘咙咚咛咜咝咞咟54a0 咠咡咢咣咤咥咦咧咨咩咪咫咬咭咮咯54b0 咰咱咲咳咴咵咶咷咸咹咺咻咼咽咾咿54c0 哀品哂哃哄哅哆哇哈哉哊哋哌响哎哏54d0 哐哑哒哓哔哕哖哗哘哙哚哛哜哝哞哟54e0 哠員哢哣哤哥哦哧哨哩哪哫哬哭哮哯54f0 哰哱哲哳哴哵哶哷哸哹哺哻哼哽哾哿5500 唀唁唂唃唄唅唆唇唈唉唊唋唌唍唎唏5510 唐唑唒唓唔唕唖唗唘唙唚唛唜唝唞唟5520 唠唡唢唣唤唥唦唧唨唩唪唫唬唭售唯5530 唰唱唲唳唴唵唶唷唸唹唺唻唼唽唾唿5540 啀啁啂啃啄啅商啇啈啉啊啋啌啍啎問5550 啐啑啒啓啔啕啖啗啘啙啚啛啜啝啞啟5560 啠啡啢啣啤啥啦啧啨啩啪啫啬啭啮啯5570 啰啱啲啳啴啵啶啷啸啹啺啻啼啽啾啿5580 喀喁喂喃善喅喆喇喈喉喊喋喌喍喎喏5590 喐喑喒喓喔喕喖喗喘喙喚喛喜喝喞喟55a0 喠喡喢喣喤喥喦喧喨喩喪喫喬喭單喯55b0 喰喱喲喳喴喵営喷喸喹喺喻喼喽喾喿--------------------------------------------------------

8 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

55c0 嗀嗁嗂嗃嗄嗅嗆嗇嗈嗉嗊嗋嗌嗍嗎嗏

55d0 嗐嗑嗒嗓嗔嗕嗖嗗嗘嗙嗚嗛嗜嗝嗞嗟55e0 嗠嗡嗢嗣嗤嗥嗦嗧嗨嗩嗪嗫嗬嗭嗮嗯55f0 嗰嗱嗲嗳嗴嗵嗶嗷嗸嗹嗺嗻嗼嗽嗾嗿5600 嘀嘁嘂嘃嘄嘅嘆嘇嘈嘉嘊嘋嘌嘍嘎嘏5610 嘐嘑嘒嘓嘔嘕嘖嘗嘘嘙嘚嘛嘜嘝嘞嘟5620 嘠嘡嘢嘣嘤嘥嘦嘧嘨嘩嘪嘫嘬嘭嘮嘯5630 嘰嘱嘲嘳嘴嘵嘶嘷嘸嘹嘺嘻嘼嘽嘾嘿5640 噀噁噂噃噄噅噆噇噈噉噊噋噌噍噎噏5650 噐噑噒噓噔噕噖噗噘噙噚噛噜噝噞噟5660 噠噡噢噣噤噥噦噧器噩噪噫噬噭噮噯5670 噰噱噲噳噴噵噶噷噸噹噺噻噼噽噾噿5680 嚀嚁嚂嚃嚄嚅嚆嚇嚈嚉嚊嚋嚌嚍嚎嚏5690 嚐嚑嚒嚓嚔嚕嚖嚗嚘嚙嚚嚛嚜嚝嚞嚟56a0 嚠嚡嚢嚣嚤嚥嚦嚧嚨嚩嚪嚫嚬嚭嚮嚯56b0 嚰嚱嚲嚳嚴嚵嚶嚷嚸嚹嚺嚻嚼嚽嚾嚿56c0 囀囁囂囃囄囅囆囇囈囉囊囋囌囍囎囏56d0 囐囑囒囓囔囕囖囗囘囙囚四囜囝回囟56e0 因囡团団囤囥囦囧囨囩囪囫囬园囮囯56f0 困囱囲図围囵囶囷囸囹固囻囼国图囿5700 圀圁圂圃圄圅圆圇圈圉圊國圌圍圎圏--------------------------------------------------------

9 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

5710 圐圑園圓圔圕圖圗團圙圚圛圜圝圞土5720 圠圡圢圣圤圥圦圧在圩圪圫圬圭圮圯5730 地圱圲圳圴圵圶圷圸圹场圻圼圽圾圿5740 址坁坂坃坄坅坆均坈坉坊坋坌坍坎坏5750 坐坑坒坓坔坕坖块坘坙坚坛坜坝坞坟5760 坠坡坢坣坤坥坦坧坨坩坪坫坬坭坮坯5770 坰坱坲坳坴坵坶坷坸坹坺坻坼坽坾坿5780 垀垁垂垃垄垅垆垇垈垉垊型垌垍垎垏5790 垐垑垒垓垔垕垖垗垘垙垚垛垜垝垞垟57a0 垠垡垢垣垤垥垦垧垨垩垪垫垬垭垮垯57b0 垰垱垲垳垴垵垶垷垸垹垺垻垼垽垾垿57c0 埀埁埂埃埄埅埆埇埈埉埊埋埌埍城埏57d0 埐埑埒埓埔埕埖埗埘埙埚埛埜埝埞域57e0 埠埡埢埣埤埥埦埧埨埩埪埫埬埭埮埯57f0 埰埱埲埳埴埵埶執埸培基埻埼埽埾埿5800 堀堁堂堃堄堅堆堇堈堉堊堋堌堍堎堏5810 堐堑堒堓堔堕堖堗堘堙堚堛堜堝堞堟5820 堠堡堢堣堤堥堦堧堨堩堪堫堬堭堮堯5830 堰報堲堳場堵堶堷堸堹堺堻堼堽堾堿5840 塀塁塂塃塄塅塆塇塈塉塊塋塌塍塎塏5850 塐塑塒塓塔塕塖塗塘塙塚塛塜塝塞塟--------------------------------------------------------

10 汉字编码表

-----------------------------------------------------

5860 塠塡塢塣塤塥塦塧塨塩塪填塬塭塮塯5870 塰塱塲塳塴塵塶塷塸塹塺塻塼塽塾塿5880 墀墁墂境墄墅墆墇墈墉墊墋墌墍墎墏5890 墐墑墒墓墔墕墖増墘墙墚墛墜墝增墟58a0 墠墡墢墣墤墥墦墧墨墩墪墫墬墭墮墯58b0 墰墱墲墳墴墵墶墷墸墹墺墻墼墽墾墿58c0 壀壁壂壃壄壅壆壇壈壉壊壋壌壍壎壏58d0 壐壑壒壓壔壕壖壗壘壙壚壛壜壝壞壟58e0 壠壡壢壣壤壥壦壧壨壩壪士壬壭壮壯58f0 声壱売壳壴壵壶壷壸壹壺壻壼壽壾壿5900 夀夁夂夃处夅夆备夈変夊夋夌复夎夏5910 夐夑夒夓夔夕外夗夘夙多夛夜夝夞够5920 夠夡夢夣夤夥夦大夨天太夫夬夭央夯5930 夰失夲夳头夵夶夷夸夹夺夻夼夽夾夿5940 奀奁奂奃奄奅奆奇奈奉奊奋奌奍奎奏5950 奐契奒奓奔奕奖套奘奙奚奛奜奝奞奟5960 奠奡奢奣奤奥奦奧奨奩奪奫奬奭奮奯5970 奰奱奲女奴奵奶奷奸她奺奻奼好奾奿5980 妀妁如妃妄妅妆妇妈妉妊妋妌妍妎妏5990 妐妑妒妓妔妕妖妗妘妙妚妛妜妝妞妟59a0 妠妡妢妣妤妥妦妧妨妩妪妫妬妭妮妯--------------------------------------------------------

11 汉字编码表

-----------------------------------------------------

59b0 妰妱妲妳妴妵妶妷妸妹妺妻妼妽妾妿59c0 姀姁姂姃姄姅姆姇姈姉姊始姌姍姎姏59d0 姐姑姒姓委姕姖姗姘姙姚姛姜姝姞姟59e0 姠姡姢姣姤姥姦姧姨姩姪姫姬姭姮姯59f0 姰姱姲姳姴姵姶姷姸姹姺姻姼姽姾姿5a00 娀威娂娃娄娅娆娇娈娉娊娋娌娍娎娏5a10 娐娑娒娓娔娕娖娗娘娙娚娛娜娝娞娟5a20 娠娡娢娣娤娥娦娧娨娩娪娫娬娭娮娯5a30 娰娱娲娳娴娵娶娷娸娹娺娻娼娽娾娿5a40 婀婁婂婃婄婅婆婇婈婉婊婋婌婍婎婏5a50 婐婑婒婓婔婕婖婗婘婙婚婛婜婝婞婟5a60 婠婡婢婣婤婥婦婧婨婩婪婫婬婭婮婯5a70 婰婱婲婳婴婵婶婷婸婹婺婻婼婽婾婿5a80 媀媁媂媃媄媅媆媇媈媉媊媋媌媍媎媏5a90 媐媑媒媓媔媕媖媗媘媙媚媛媜媝媞媟5aa0 媠媡媢媣媤媥媦媧媨媩媪媫媬媭媮媯5ab0 媰媱媲媳媴媵媶媷媸媹媺媻媼媽媾媿5ac0 嫀嫁嫂嫃嫄嫅嫆嫇嫈嫉嫊嫋嫌嫍嫎嫏5ad0 嫐嫑嫒嫓嫔嫕嫖嫗嫘嫙嫚嫛嫜嫝嫞嫟5ae0 嫠嫡嫢嫣嫤嫥嫦嫧嫨嫩嫪嫫嫬嫭嫮嫯5af0 嫰嫱嫲嫳嫴嫵嫶嫷嫸嫹嫺嫻嫼嫽嫾嫿-----------------------------------------------------

12 汉字编码表

-----------------------------------------------------

5b00 嬀嬁嬂嬃嬄嬅嬆嬇嬈嬉嬊嬋嬌嬍嬎嬏5b10 嬐嬑嬒嬓嬔嬕嬖嬗嬘嬙嬚嬛嬜嬝嬞嬟5b20 嬠嬡嬢嬣嬤嬥嬦嬧嬨嬩嬪嬫嬬嬭嬮嬯5b30 嬰嬱嬲嬳嬴嬵嬶嬷嬸嬹嬺嬻嬼嬽嬾嬿5b40 孀孁孂孃孄孅孆孇孈孉孊孋孌孍孎孏5b50 子孑孒孓孔孕孖字存孙孚孛孜孝孞孟5b60 孠孡孢季孤孥学孧孨孩孪孫孬孭孮孯5b70 孰孱孲孳孴孵孶孷學孹孺孻孼孽孾孿5b80 宀宁宂它宄宅宆宇守安宊宋完宍宎宏5b90 宐宑宒宓宔宕宖宗官宙定宛宜宝实実5ba0 宠审客宣室宥宦宧宨宩宪宫宬宭宮宯5bb0 宰宱宲害宴宵家宷宸容宺宻宼宽宾宿5bc0 寀寁寂寃寄寅密寇寈寉寊寋富寍寎寏5bd0 寐寑寒寓寔寕寖寗寘寙寚寛寜寝寞察5be0 寠寡寢寣寤寥實寧寨審寪寫寬寭寮寯5bf0 寰寱寲寳寴寵寶寷寸对寺寻导寽対寿5c00 尀封専尃射尅将將專尉尊尋尌對導小5c10 尐少尒尓尔尕尖尗尘尙尚尛尜尝尞尟5c20 尠尡尢尣尤尥尦尧尨尩尪尫尬尭尮尯5c30 尰就尲尳尴尵尶尷尸尹尺尻尼尽尾尿5c40 局屁层屃屄居屆屇屈屉届屋屌屍屎屏------------------------------------------------------

13 汉字编码表

-----------------------------------------------------

5c50 屐屑屒屓屔展屖屗屘屙屚屛屜屝属屟5c60 屠屡屢屣層履屦屧屨屩屪屫屬屭屮屯5c70 屰山屲屳屴屵屶屷屸屹屺屻屼屽屾屿5c80 岀岁岂岃岄岅岆岇岈岉岊岋岌岍岎岏5c90 岐岑岒岓岔岕岖岗岘岙岚岛岜岝岞岟5ca0 岠岡岢岣岤岥岦岧岨岩岪岫岬岭岮岯5cb0 岰岱岲岳岴岵岶岷岸岹岺岻岼岽岾岿5cc0 峀峁峂峃峄峅峆峇峈峉峊峋峌峍峎峏5cd0 峐峑峒峓峔峕峖峗峘峙峚峛峜峝峞峟5ce0 峠峡峢峣峤峥峦峧峨峩峪峫峬峭峮峯5cf0 峰峱峲峳峴峵島峷峸峹峺峻峼峽峾峿5d00 崀崁崂崃崄崅崆崇崈崉崊崋崌崍崎崏5d10 崐崑崒崓崔崕崖崗崘崙崚崛崜崝崞崟5d20 崠崡崢崣崤崥崦崧崨崩崪崫崬崭崮崯5d30 崰崱崲崳崴崵崶崷崸崹崺崻崼崽崾崿5d40 嵀嵁嵂嵃嵄嵅嵆嵇嵈嵉嵊嵋嵌嵍嵎嵏5d50 嵐嵑嵒嵓嵔嵕嵖嵗嵘嵙嵚嵛嵜嵝嵞嵟5d60 嵠嵡嵢嵣嵤嵥嵦嵧嵨嵩嵪嵫嵬嵭嵮嵯5d70 嵰嵱嵲嵳嵴嵵嵶嵷嵸嵹嵺嵻嵼嵽嵾嵿5d80 嶀嶁嶂嶃嶄嶅嶆嶇嶈嶉嶊嶋嶌嶍嶎嶏5d90 嶐嶑嶒嶓嶔嶕嶖嶗嶘嶙嶚嶛嶜嶝嶞嶟------------------------------------------------------

14 汉字编码表

-----------------------------------------------------

5da0 嶠嶡嶢嶣嶤嶥嶦嶧嶨嶩嶪嶫嶬嶭嶮嶯5db0 嶰嶱嶲嶳嶴嶵嶶嶷嶸嶹嶺嶻嶼嶽嶾嶿5dc0 巀巁巂巃巄巅巆巇巈巉巊巋巌巍巎巏5dd0 巐巑巒巓巔巕巖巗巘巙巚巛巜川州巟5de0 巠巡巢巣巤工左巧巨巩巪巫巬巭差巯5df0 巰己已巳巴巵巶巷巸巹巺巻巼巽巾巿5e00 帀币市布帄帅帆帇师帉帊帋希帍帎帏5e10 帐帑帒帓帔帕帖帗帘帙帚帛帜帝帞帟5e20 帠帡帢帣帤帥带帧帨帩帪師帬席帮帯5e30 帰帱帲帳帴帵帶帷常帹帺帻帼帽帾帿5e40 幀幁幂幃幄幅幆幇幈幉幊幋幌幍幎幏5e50 幐幑幒幓幔幕幖幗幘幙幚幛幜幝幞幟5e60 幠幡幢幣幤幥幦幧幨幩幪幫幬幭幮幯5e70 幰幱干平年幵并幷幸幹幺幻幼幽幾广5e80 庀庁庂広庄庅庆庇庈庉床庋庌庍庎序5e90 庐庑庒库应底庖店庘庙庚庛府庝庞废5ea0 庠庡庢庣庤庥度座庨庩庪庫庬庭庮庯5eb0 庰庱庲庳庴庵庶康庸庹庺庻庼庽庾庿5ec0 廀廁廂廃廄廅廆廇廈廉廊廋廌廍廎廏5ed0 廐廑廒廓廔廕廖廗廘廙廚廛廜廝廞廟5ee0 廠廡廢廣廤廥廦廧廨廩廪廫廬廭廮廯------------------------------------------------------

15 汉字编码表

-----------------------------------------------------

5ef0 廰廱廲廳廴廵延廷廸廹建廻廼廽廾廿5f00 开弁异弃弄弅弆弇弈弉弊弋弌弍弎式5f10 弐弑弒弓弔引弖弗弘弙弚弛弜弝弞弟5f20 张弡弢弣弤弥弦弧弨弩弪弫弬弭弮弯5f30 弰弱弲弳弴張弶強弸弹强弻弼弽弾弿5f40 彀彁彂彃彄彅彆彇彈彉彊彋彌彍彎彏5f50 彐彑归当彔录彖彗彘彙彚彛彜彝彞彟5f60 彠彡形彣彤彥彦彧彨彩彪彫彬彭彮彯5f70 彰影彲彳彴彵彶彷彸役彺彻彼彽彾彿5f80 往征徂徃径待徆徇很徉徊律後徍徎徏5f90 徐徑徒従徔徕徖得徘徙徚徛徜徝從徟5fa0 徠御徢徣徤徥徦徧徨復循徫徬徭微徯5fb0 徰徱徲徳徴徵徶德徸徹徺徻徼徽徾徿5fc0 忀忁忂心忄必忆忇忈忉忊忋忌忍忎忏5fd0 忐忑忒忓忔忕忖志忘忙忚忛応忝忞忟5fe0 忠忡忢忣忤忥忦忧忨忩忪快忬忭忮忯5ff0 忰忱忲忳忴念忶忷忸忹忺忻忼忽忾忿6000 怀态怂怃怄怅怆怇怈怉怊怋怌怍怎怏6010 怐怑怒怓怔怕怖怗怘怙怚怛怜思怞怟6020 怠怡怢怣怤急怦性怨怩怪怫怬怭怮怯6030 怰怱怲怳怴怵怶怷怸怹怺总怼怽怾怿6040 恀恁恂恃恄恅恆恇恈恉恊恋恌恍恎恏6050 恐恑恒恓恔恕恖恗恘恙恚恛恜恝恞恟6060 恠恡恢恣恤恥恦恧恨恩恪恫恬恭恮息6070 恰恱恲恳恴恵恶恷恸恹恺恻恼恽恾恿

-------------------------------------------------------

16 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

6080 悀悁悂悃悄悅悆悇悈悉悊悋悌悍悎悏6090 悐悑悒悓悔悕悖悗悘悙悚悛悜悝悞悟60a0 悠悡悢患悤悥悦悧您悩悪悫悬悭悮悯60b0 悰悱悲悳悴悵悶悷悸悹悺悻悼悽悾悿60c0 惀惁惂惃惄情惆惇惈惉惊惋惌惍惎惏60d0 惐惑惒惓惔惕惖惗惘惙惚惛惜惝惞惟60e0 惠惡惢惣惤惥惦惧惨惩惪惫惬惭惮惯60f0 惰惱惲想惴惵惶惷惸惹惺惻惼惽惾惿6100 愀愁愂愃愄愅愆愇愈愉愊愋愌愍愎意6110 愐愑愒愓愔愕愖愗愘愙愚愛愜愝愞感6120 愠愡愢愣愤愥愦愧愨愩愪愫愬愭愮愯6130 愰愱愲愳愴愵愶愷愸愹愺愻愼愽愾愿6140 慀慁慂慃慄慅慆慇慈慉慊態慌慍慎慏6150 慐慑慒慓慔慕慖慗慘慙慚慛慜慝慞慟6160 慠慡慢慣慤慥慦慧慨慩慪慫慬慭慮慯6170 慰慱慲慳慴慵慶慷慸慹慺慻慼慽慾慿6180 憀憁憂憃憄憅憆憇憈憉憊憋憌憍憎憏6190 憐憑憒憓憔憕憖憗憘憙憚憛憜憝憞憟61a0 憠憡憢憣憤憥憦憧憨憩憪憫憬憭憮憯61b0 憰憱憲憳憴憵憶憷憸憹憺憻憼憽憾憿61c0 懀懁懂懃懄懅懆懇懈應懊懋懌懍懎懏

--------------------------------------------------------------------------------

17 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

61d0 懐懑懒懓懔懕懖懗懘懙懚懛懜懝懞懟

61e0 懠懡懢懣懤懥懦懧懨懩懪懫懬懭懮懯

61f0 懰懱懲懳懴懵懶懷懸懹懺懻懼懽懾懿

6200 戀戁戂戃戄戅戆戇戈戉戊戋戌戍戎戏

6210 成我戒戓戔戕或戗战戙戚戛戜戝戞戟

6220 戠戡戢戣戤戥戦戧戨戩截戫戬戭戮戯

6230 戰戱戲戳戴戵戶户戸戹戺戻戼戽戾房

6240 所扁扂扃扄扅扆扇扈扉扊手扌才扎扏

6250 扐扑扒打扔払扖扗托扙扚扛扜扝扞扟

6260 扠扡扢扣扤扥扦执扨扩扪扫扬扭扮扯

6270 扰扱扲扳扴扵扶扷扸批扺扻扼扽找承

6280 技抁抂抃抄抅抆抇抈抉把抋抌抍抎抏

6290 抐抑抒抓抔投抖抗折抙抚抛抜抝択抟

62a0 抠抡抢抣护报抦抧抨抩抪披抬抭抮抯

62b0 抰抱抲抳抴抵抶抷抸抹抺抻押抽抾抿

62c0 拀拁拂拃拄担拆拇拈拉拊拋拌拍拎拏

62d0 拐拑拒拓拔拕拖拗拘拙拚招拜拝拞拟

62e0 拠拡拢拣拤拥拦拧拨择拪拫括拭拮拯

62f0 拰拱拲拳拴拵拶拷拸拹拺拻拼拽拾拿

6300 挀持挂挃挄挅挆指挈按挊挋挌挍挎挏

6310 挐挑挒挓挔挕挖挗挘挙挚挛挜挝挞挟------------------------------------------------------

18 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

6320 挠挡挢挣挤挥挦挧挨挩挪挫挬挭挮振6330 挰挱挲挳挴挵挶挷挸挹挺挻挼挽挾挿6340 捀捁捂捃捄捅捆捇捈捉捊捋捌捍捎捏6350 捐捑捒捓捔捕捖捗捘捙捚捛捜捝捞损6360 捠捡换捣捤捥捦捧捨捩捪捫捬捭据捯6370 捰捱捲捳捴捵捶捷捸捹捺捻捼捽捾捿6380 掀掁掂掃掄掅掆掇授掉掊掋掌掍掎掏6390 掐掑排掓掔掕掖掗掘掙掚掛掜掝掞掟63a0 掠採探掣掤接掦控推掩措掫掬掭掮掯63b0 掰掱掲掳掴掵掶掷掸掹掺掻掼掽掾掿63c0 揀揁揂揃揄揅揆揇揈揉揊揋揌揍揎描63d0 提揑插揓揔揕揖揗揘揙揚換揜揝揞揟63e0 揠握揢揣揤揥揦揧揨揩揪揫揬揭揮揯63f0 揰揱揲揳援揵揶揷揸揹揺揻揼揽揾揿6400 搀搁搂搃搄搅搆搇搈搉搊搋搌損搎搏6410 搐搑搒搓搔搕搖搗搘搙搚搛搜搝搞搟6420 搠搡搢搣搤搥搦搧搨搩搪搫搬搭搮搯6430 搰搱搲搳搴搵搶搷搸搹携搻搼搽搾搿6440 摀摁摂摃摄摅摆摇摈摉摊摋摌摍摎摏

6450 摐摑摒摓摔摕摖摗摘摙摚摛摜摝摞摟6460 摠摡摢摣摤摥摦摧摨摩摪摫摬摭摮摯-------------------------------------------------------

19 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

6470 摰摱摲摳摴摵摶摷摸摹摺摻摼摽摾摿6480 撀撁撂撃撄撅撆撇撈撉撊撋撌撍撎撏6490 撐撑撒撓撔撕撖撗撘撙撚撛撜撝撞撟64a0 撠撡撢撣撤撥撦撧撨撩撪撫撬播撮撯64b0 撰撱撲撳撴撵撶撷撸撹撺撻撼撽撾撿64c0 擀擁擂擃擄擅擆擇擈擉擊擋擌操擎擏64d0 擐擑擒擓擔擕擖擗擘擙據擛擜擝擞擟64e0 擠擡擢擣擤擥擦擧擨擩擪擫擬擭擮擯64f0 擰擱擲擳擴擵擶擷擸擹擺擻擼擽擾擿6500 攀攁攂攃攄攅攆攇攈攉攊攋攌攍攎攏6510 攐攑攒攓攔攕攖攗攘攙攚攛攜攝攞攟6520 攠攡攢攣攤攥攦攧攨攩攪攫攬攭攮支6530 攰攱攲攳攴攵收攷攸改攺攻攼攽放政6540 敀敁敂敃敄故敆敇效敉敊敋敌敍敎敏6550 敐救敒敓敔敕敖敗敘教敚敛敜敝敞敟6560 敠敡敢散敤敥敦敧敨敩敪敫敬敭敮敯6570 数敱敲敳整敵敶敷數敹敺敻敼敽敾敿6580 斀斁斂斃斄斅斆文斈斉斊斋斌斍斎斏

6590 斐斑斒斓斔斕斖斗斘料斚斛斜斝斞斟65a0 斠斡斢斣斤斥斦斧斨斩斪斫斬断斮斯65b0 新斱斲斳斴斵斶斷斸方斺斻於施斾斿-------------------------------------------------------

20 汉字编码表

U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F

-----------------------------------------------------

65c0 旀旁旂旃旄旅旆旇旈旉旊旋旌旍旎族65d0 旐旑旒旓旔旕旖旗旘旙旚旛旜旝旞旟65e0 无旡既旣旤日旦旧旨早旪旫旬旭旮旯65f0 旰旱旲旳旴旵时旷旸旹旺旻旼旽旾旿6600 昀昁昂昃昄昅昆昇昈昉昊昋昌昍明昏6610 昐昑昒易昔昕昖昗昘昙昚昛昜昝昞星6620 映昡昢昣昤春昦昧昨昩昪昫昬昭昮是6630 昰昱昲昳昴昵昶昷昸昹昺昻昼昽显昿6640 晀晁時晃晄晅晆晇晈晉晊晋晌晍晎晏6650 晐晑晒晓晔晕晖晗晘晙晚晛晜晝晞晟6660 晠晡晢晣晤晥晦晧晨晩晪晫晬晭普景6670 晰晱晲晳晴晵晶晷晸晹智晻晼晽晾晿6680 暀暁暂暃暄暅暆暇暈暉暊暋暌暍暎暏6690 暐暑暒暓暔暕暖暗暘暙暚暛暜暝暞暟66a0 暠暡暢暣暤暥暦暧暨暩暪暫暬暭暮暯66b0 暰暱暲暳暴暵暶暷暸暹暺暻暼暽暾暿66c0 曀曁曂曃曄曅曆曇曈曉曊曋曌曍曎曏

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法

点阵LED显示原理与点阵汉字库的编码和从标准字库中提取汉字编码的方法。2009年06月03日下午 04:27 一.实验要求 编程实现中英文字符的显示。 二.实验目的 1.了解LED点阵显示的基本原理和实现方法。 2.掌握 三.实验电路及连线 点阵显示模块WTD3088的(红色)列输入线接至内部LED的阴极端,行输入线接至内部LED的阳极端(若阳极端输入为高电平,阴极端输入低电平,则该LED 点亮)。发光点的分布如图22-0所示。

Fig 22-0 WTD3088 LED分布 如图22-1示,本实验模块使用74LS374来控制列输入线的电平值。将74LS374的某输出置0,则对应的LED阴极端被置低。如图22-2示,本实验模块使用 74LS273来控制行输入线,并通过9013提供电流驱动。将74LS273的某输出置1,则对应的LED阳极端被置高。每次系统重新开启或总清后,74LS273输出为全0,LED显示被关闭。 通过编程控制各显示点对应LED阳极和阴极端的电平,就可以有效的控制各显示点的亮灭。 Fig 22-1 LED模块及列扫描电路

Fig 22-2 行扫描电路 Fig 22-3地址译码电路

本实验模块使用4块WTD3088组成16×16点阵,以满足汉字显示的要求。为了方便的控制四个单元,使用了一片74LS139译码,产生四个地址片选信号:CLKR1= CSLED,CLKR2= CSLED+1,用于行控制的两片74LS273;CLKC1= CSLED+2,CLKC2= CSLED+3,用于列控制的两片74LS374。 实验接线:按示例程序,模块的CSLED接51/96地址的8000H。 四.实验说明 使用高亮度LED发光管构成点阵,通过编程控制可以显示中英文字符、图形及视频动态图形。LED显示以其组构方式灵活、亮度高、技术成熟、成本低廉等特点在证券、运动场馆及各种室内/外显示场合得到广泛的应用。 所显示字符的点阵数据可以自行编写(即直接点阵画图),也可从标准字库(如ASC16、HZ16)中提取。后者需要正确掌握字库的编码方法和字符定位的计算。 实验盘片中“字符转换”子目录下提供的,可方便的将单个字符的码表从标准字库Asc16,Hzk16中提取出来。具体使用方法是运行上述可执行程序,根据提示输入所需字符(如是汉字还需要先启动dos下的汉字环境,如ucdos,pdos95等)。程序将该字符的码表提取出来,存放在该字符ASC或区位码为文件名称的.dat 文件中。用户只需将该文件中内容拷贝、粘贴到自己的程序中即可。但需要注意字节排列顺序、字节中每一位与具体显示点的一一对应关系,必要时还要对码表

字符汉字编码学案.doc

字符汉字编码学案 一、请同学们仔细观察下面的数据,发现石什么规律吗? 十进制二进制 00 11 210 311 4100 5101 6110 7111 8100 9100 1 10101 11101 1 12110 13110 1 14111 15111 1 161000 思考: 7> 〃个二进制位最大值是多少?数学公式为? 2、用〃个二进制位最多可以表示多少种不同的信息?数学公式为 3、要表示X个状态至少要用几位二进制? 二、二进制虽然复合计算机的特点,但不便于我们人类书写和记忆,转换成十进制乂费时费力,你有什么好的方法吗? 请同学们观察书木P5的图表,思考十六进制的特点

10U0011B=D 68D=B 110010B=H 43H=B 11 1011 B 12 1100 C 13 1101 D 14 1110 E 15 1111 F 1、从位数上来分析,十六进制和二进制位数上存在什么样的比例关系:? 2、 二进制、十进制、十六进制的标识分别是大写字母\\ 3、 小组探究任务:十进制与二进制互换: HOIOOIOB ==?H 7FH=? B (请同学们熟悉进位制的标识) 你觉得用十六进制来记录二进制的优点有哪些:? 4、 50D=B 110110B=D 1110011B=H 101H=B (选择手工或计算器来完成) 三、任务挑战: 1、(请分别用智能ABC 和智能拼音输入) 右图是演员王刚在影视作品《宰相刘罗锅》中的塑造的人物 9 . 另外大家认得这个“幼”字吗?它的读音是? 2、 同学们觉得上述现象的原因是? 3、 双击打开“验证字符的ASCII 码.exe”或“查询字符的编码.exe”,观 察26个英文字母 和十个数字所对应的编码;汉字能不能查看?例如输入“效实”,会有什么结果?为什么? 四、一探究竟 打开桌而上的快捷方式:? Ultra Edit,熟悉使用后,完成下列任务: 1、 完成学生活动手册中Plv 实践一>中的4. (1)、(2)、(3) (4),并在活动手册上做好相 关记录,思考其中的GBK 和GB2312指什么?可参考书本P7内容 2、 小组探究任务(结合刚才的实践活动和书本P6-P8的内容) (1)日前国际上通用的字符编码是 ___________ ,占―位二进制,最多能表示 个 字母符号等内容 (2)作为世界上三大古老文字之一的汉字,计算机乂是如何对其进行编码的?即编码的 名称是,占—位二进制,原因是? (3)拼音码、GB2312、处理码、字形码是同一种编码吗?为什么? 知识链接:汉字的编码(交换码)知多少: GB2312: 6763 个汉字(80 年)

汉字编码原理

1、汉字编码原理 到底怎么办到随机生成汉字的呢?汉字从哪里来的呢?是不是有个后台数据表,其中存放了所需要的所有汉字,使用程序随机取出几个汉字组合就行了呢?使用后台数据库先将所有汉字存起来使用时随机取出,这也是一种办法,但是中文汉字有这么多,怎么来制作呢?其实可以不使用任何后台数据库,使用程序就能做到这一切。要知道如何生成汉字,就得先了解中文汉字的编码原理。 1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,简称GB2312,这个字符集是我国中文信息处理技术的发展基础,也是国内所有汉字系统的统一标准。到了后来又公布了国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,简称GB18030,编程时如果涉及到编码和本地化的朋友应该对GB18030很熟悉。这是是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,同时也是未来我国计算机系统必须遵循的基础性标准之一。 目前在中文WINDOWS操作系统中,.Net编程中默认的的代码页就是GB18030简体中文。但是事实上如果生成中文汉字验证码只须要使用GB2312字符集就已经足够了。字符集中除了我们平时大家都认识的汉字外,也包含了很多我们不认识平时也很少见到的汉字。如果生成中文汉字验证码中有很多我们不认识的汉字让我们输入,对于使用拼音输入法的朋友来说可不是好事,五笔使用者还能勉强根据汉字的长相打出来,呵呵!所以对于GB2312字符集中的汉字我们也不是全都要用。 中文汉字字符可以使用区位码来表示,见 汉字区位码表 https://www.doczj.com/doc/0e12031399.html,/resource/gb2312tbl. htm 汉字区位码代码表 https://www.doczj.com/doc/0e12031399.html,/resource/gb2312tbm.htm 如果链接不上可以搜一下汉字区码表. 其实这两个表是同一回事,只不过一个使用十六进制分区表示,一个使用区位所在的数字位置表示。例如“好”字的十六进制区位码是ba c3,前两位是区域,后两位代表位置,ba处在第26区,“好”处在此区汉字的第35位也就是c3位置,所以数字代码就是2635。这就是GB2312汉字区位原理。根据《汉字区位码表》我们可以发现第15区也就是AF区以前都没有汉字,只有少量符号,汉字都从第16区B0开始,这就是为什么GB2312字符集都是从16区开始的。 2、.Net程序处理汉字编码原理分析 在.Net中可以使用System.Text来处理所有语言的编码。在System.Text命名空间中包含众多编码的类,可供进行操作及转换。其中的Encoding类就是重点处理汉字编码的类。通过在.Net文档中查询Encoding类的方法我们可以发现所有和文字编码有关的都是字节数组,其中有两个很好用的方法: Encoding.GetBytes ()方法将指定的 String 或字符数组的全部或部分内容编码为字节数组 Encoding.GetString ()方法将指定字节数组解码为字符串。

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

unicode中的中文编码说明

编码表 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP). 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP). 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP). 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP). 平面4 to 13 (40000–DFFFF)尚未使用 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP) 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA) 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA) 注意1 现在网上大多数用于判断中文字符的是U+4E00..U+9FA5这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等; 2E80-A4CF加上F900-FAFF加上FE30-FE4F。 其中: 2E80-A4CF 包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根 F900-FAFF 中日朝兼容表意文字 FE30-FE4F 中日朝兼容形式 所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF||FE30-FE4F 注意2 全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

常用汉字的Unicode码表

包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给 名法间斯知世什两次使身者被高已亲其进此话常与活正感见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重 三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难 望教命花结乐色更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原 吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约 各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴奇管类未朋且婚台夜青 北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻 尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算 义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改 据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初 养香停际致阳纸李纳验助激够严证帝饭忘趣支春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止 组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低 玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责 例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适 乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗 换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降 夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿 招释介烧误 unicode 编码 的一是了我不人在他有这%u4e2a上们来

UTF8与GBK字符编码之间的相互转换

UTF8与GBK字符编码之间的相互转换 C++ UTF8编码转换CChineseCode 一预备知识 1,字符:字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。“中”“国”这是两个汉字字符。字符仅仅代表一个符号,没有任何实际值的意义。 2,字符集:字符集是字符的集合。例如,汉字字符是中国人最先发明的字符,在中文、日文、韩文和越南文的书写中使用。这也说明了字符和字符集之间的关系,字符组成字符集(iso8859-1,GB2312/GBK,unicode)。 3,代码点:字符集中的每个字符都被分配到一个“代码点”。每个代码点都有一个特定的唯一数值,称为标值。该标量值通常用十六进制表示。 4,代码单元:在每种编码形式中,代码点被映射到一个或多个代码单元。“代码单元”是各个编码方式中的单个单元。代码单元的大小等效于特定编码方式的位数:UTF-8 :UTF-8 中的代码单元由8 位组成;在UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元;UTF-16 :UTF-16 中的代码单元由16 位组成;UTF-16 的代码单元大小是8 位代码单元的两倍。所以,标量值小于 U+10000 的代码点被编码到单个代码单元中;UTF-32:UTF-32 中的代码单元由32 位组成;UTF-32 中使用的32 位代码单元足够大,每个代码点都可编码为单个代码单元;GB18030:GB18030 中的代码单元由8 位组成;在GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。 5,举例:“中国北京香蕉是个大笨蛋”这是我定义的aka字符集; 各字符对应代码点为: 北00000001 京00000010 香10000001 蕉10000010 是10000100 个10001000 大10010000 笨10100000 蛋11000000 中00000100 国00001000 下面是我定义的zixia 编码方案(8位),可以看到它的编码中表示了aka字符集的所有字符对应的代码单元; 北10000001 京10000010 香00000001 蕉00000010 是00000100 个00001000 大00010000 笨00100000 蛋01000000 中10000100 国10001000 所谓文本文件就是我们按一定编码方式将二进制数据表示为对应的文本如00000001000000100000010000001000000100000010000001000000这样的文件。我用一个支持zixia编码和aka字符集的记事本打开,它就按照编码方案显示为“香蕉是个大笨蛋” 如果我把这些字符按照GBK另存一个文件,那么则肯定不是这个,而是1100111111100011

常用汉字Unicode码表

\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4 eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74\u 7740\u5c31\u90a3\u548c\u8981\u5979\u51fa\u4e5f\u5f97\u91cc\u540e\u81ea\u4ee5\u4f1a\ u5bb6\u53ef\u4e0b\u800c\u8fc7\u5929\u53bb\u80fd\u5bf9\u5c0f\u591a\u7136\u4e8e\u5fc3 \u5b66\u4e48\u4e4b\u90fd\u597d\u770b\u8d77\u53d1\u5f53\u6ca1\u6210\u53ea\u5982\u4 e8b\u628a\u8fd8\u7528\u7b2c\u6837\u9053\u60f3\u4f5c\u79cd\u5f00\u7f8e\u603b\u4ece\u 65e0\u60c5\u5df1\u9762\u6700\u5973\u4f46\u73b0\u524d\u4e9b\u6240\u540c\u65e5\u624 b\u53c8\u884c\u610f\u52a8\u65b9\u671f\u5b83\u5934\u7ecf\u957f\u513f\u56de\u4f4d\u52 06\u7231\u8001\u56e0\u5f88\u7ed9\u540d\u6cd5\u95f4\u65af\u77e5\u4e16\u4ec0\u4e24\u 6b21\u4f7f\u8eab\u8005\u88ab\u9ad8\u5df2\u4eb2\u5176\u8fdb\u6b64\u8bdd\u5e38\u4e0e \u6d3b\u6b63\u611f\u89c1\u660e\u95ee\u529b\u7406\u5c14\u70b9\u6587\u51e0\u5b9a\u6 72c\u516c\u7279\u505a\u5916\u5b69\u76f8\u897f\u679c\u8d70\u5c06\u6708\u5341\u5b9e\ u5411\u58f0\u8f66\u5168\u4fe1\u91cd\u4e09\u673a\u5de5\u7269\u6c14\u6bcf\u5e76\u522 b\u771f\u6253\u592a\u65b0\u6bd4\u624d\u4fbf\u592b\u518d\u4e66\u90e8\u6c34\u50cf\u7 73c\u7b49\u4f53\u5374\u52a0\u7535\u4e3b\u754c\u95e8\u5229\u6d77\u53d7\u542c\u8868 \u5fb7\u5c11\u514b\u4ee3\u5458\u8bb8\u7a1c\u5148\u53e3\u7531\u6b7b\u5b89\u5199\u6 027\u9a6c\u5149\u767d\u6216\u4f4f\u96be\u671b\u6559\u547d\u82b1\u7ed3\u4e50\u8272 \u66f4\u62c9\u4e1c\u795e\u8bb0\u5904\u8ba9\u6bcd\u7236\u5e94\u76f4\u5b57\u573a\u5e 73\u62a5\u53cb\u5173\u653e\u81f3\u5f20\u8ba4\u63a5\u544a\u5165\u7b11\u5185\u82f1\u 519b\u5019\u6c11\u5c81\u5f80\u4f55\u5ea6\u5c71\u89c9\u8def\u5e26\u4e07\u7537\u8fb9\ u98ce\u89e3\u53eb\u4efb\u91d1\u5feb\u539f\u5403\u5988\u53d8\u901a\u5e08\u7acb\u8c6 1\u6570\u56db\u5931\u6ee1\u6218\u8fdc\u683c\u58eb\u97f3\u8f7b\u76ee\u6761\u5462\u7 5c5\u59cb\u8fbe\u6df1\u5b8c\u4eca\u63d0\u6c42\u6e05\u738b\u5316\u7a7a\u4e1a\u601d\ u5207\u600e\u975e\u627e\u7247\u7f57\u94b1\u7d36\u5417\u8bed\u5143\u559c\u66fe\u79 bb\u98de\u79d1\u8a00\u5e72\u6d41\u6b22\u7ea6\u5404\u5373\u6307\u5408\u53cd\u9898 \u5fc5\u8be5\u8bba\u4ea4\u7ec8\u6797\u8bf7\u533b\u665a\u5236\u7403\u51b3\u7aa2\u4f 20\u753b\u4fdd\u8bfb\u8fd0\u53ca\u5219\u623f\u65e9\u9662\u91cf\u82e6\u706b\u5e03\u5 4c1\u8fd1\u5750\u4ea7\u7b54\u661f\u7cbe\u89c6\u4e94\u8fde\u53f8\u5df4\u5947\u7ba1\u 7c7b\u672a\u670b\u4e14\u5a5a\u53f0\u591c\u9752\u5317\u961f\u4e45\u4e4e\u8d8a\u89c2 \u843d\u5c3d\u5f62\u5f71\u7ea2\u7238\u767e\u4ee4\u5468\u5427\u8bc6\u6b65\u5e0c\u4e 9a\u672f\u7559\u5e02\u534a\u70ed\u9001\u5174\u9020\u8c08\u5bb9\u6781\u968f\u6f14\u 6536\u9996\u6839\u8bb2\u6574\u5f0f\u53d6\u7167\u529e\u5f3a\u77f3\u53e4\u534e\u8ae3 \u62ff\u8ba1\u60a8\u88c5\u4f3c\u8db3\u53cc\u59bb\u5c3c\u8f6c\u8bc9\u7c73\u79f0\u4e3d \u5ba2\u5357\u9886\u8282\u8863\u7ad9\u9ed1\u523b\u7edf\u65ad\u798f\u57ce\u6545\u5 386\u60ca\u8138\u9009\u5305\u7d27\u4e89\u53e6\u5efa\u7ef4\u7edd\u6811\u7cfb\u4f24\ u793a\u613f\u6301\u5343\u53f2\u8c01\u51c6\u8054\u5987\u7eaa\u57fa\u4e70\u5fd7\u975 9\u963f\u8bd7\u72ec\u590d\u75db\u6d88\u793e\u7b97\u4e49\u7adf\u786e\u9152\u9700\u 5355\u6cbb\u5361\u5e78\u5170\u5ff5\u4e3e\u4ec5\u949f\u6015\u5171\u6bdb\u53e5\u606f \u529f\u5b98\u5f85\u7a76\u8ddf\u7a7f\u5ba4\u6613\u6e38\u7a0b\u53f7\u5c45\u8003\u7a8 1\u76ae\u54ea\u8d39\u5012\u4ef7\u56fe\u5177\u521a\u8111\u6c38\u6b4c\u54cd\u5546\u7 93c\u7ec6\u4e13\u9ec4\u5757\u811a\u5473\u7075\u6539\u636e\u822c\u7834\u5f15\u98df\ u4ecd\u5b58\u4f17\u6ce8\u7b14\u751a\u67d0\u6c89\u8840\u5907\u4e60\u6821\u9ed8\u52 a1\u571f\u5fae\u5a18\u987b\u8bd5\u6000\u6599\u8c03\u5e7f\u8716\u82cf\u663e\u8d5b\u 67e5\u5bc6\u8bae\u5e95\u5217\u5bcc\u68a6\u9519\u5ea7\u53c2\u516b\u9664\u8dd1\u4ea

编码问题

字符编码问题 编码方式: 一.iso8859-1(latin1) a)一个字节一个字符英文字母 二.gb2312 - gbk a)2个字节一个字符 gbk原生的兼容iso8859-1 三.Utf-8 - unicode字符集 3个字节一个字符兼容iso8859-1,不兼容其他码表 四.乱码:编码和解码用的码表不一样,也就是编码解码方式不一样 1.基础知识 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如'a'用什么表示,称为"编码";反之,将存储在计算机中的二进制数解析显示出来,称为"解码",如同密码学中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致'a'解析成'b'或者乱码。 字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 字符编码(Character Encoding):是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系

统的数字,因此字符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。 2.常用字符集和字符编码 常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。 2.1. ASCII字符集&编码 ASCII(A merican S tandard C ode for I nformation I nterchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本EASCII 则可以勉强显示其他西欧语言。它是现今最通用的单字节编码系统(但是有被Unicode追上的迹象),并等同于国际标准ISO/IEC 646。 ASCII字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字符、阿拉伯数字和西文符号)。 ASCII编码:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128字符;但是7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。ASCII字符集映射到数字编码规则如下图所示: 图1 ASCII编码表 图2 扩展ASCII编码表 ASCII的最大缺点是只能显示26个基本拉丁字母、阿拉伯数目字和英式标点符号,因此只能用于显示现代美国英语(而且在处理英语当中的外来词如na?ve、café、élite等等时,所有重音符号都不得不去掉,即使这样做会违反拼写规则)。而EASCII虽然解决了部份西

Unicode字符集

Unicode通用字符集 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode 也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版 unicode,ISBN-10: 0321480910)对外发表。 2006年7月的最新版本的Unicode 是5.0版本。2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta于2005年12月12日推出,5.2版本(unicode standard)于2009年10月1日正式推出,以供各会员评价。 目前Unicode标准,6.1版已发布(2012年1月31日)。在unicode联盟网站上可以查看完整的6.1的核心规范。 Unicode定义了大到足以代表人类所有可读字符的字符集。 Java语言就用到了Unicode编码,从而实现了该语言的国际通用性。 编辑本段Unicode 的编码和实现 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode 用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。 历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准。 1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。 UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前

Unicode字符列表

Unicode字符列表(超完整)Unicode, 字符, 列表 代码显示描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % 百分比符号 U+0026 & 英文“and”的简写符号U+0027 ' 引号 U+0028 ( 开圆括号 U+0029 ) 关圆括号 U+002A * 星号 U+002B + 加号 U+002C , 逗号 U+002D - 连字号/减号 U+002E . 句号 U+002F / 由右上至左下的斜线 U+0030 0 数字 0 U+0031 1 数字 1 U+0032 2 数字 2 U+0033 3 数字 3 U+0034 4 数字 4 U+0035 5 数字 5 U+0036 6 数字 6 U+0037 7 数字 7 U+0038 8 数字 8 U+0039 9 数字 9 U+003A : 冒号 U+003B ; 分号 U+003C < 小于符号 U+003D = 等于号 U+003E > 大于符号 U+003F ? 问号 U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母 A U+0042 B 拉丁字母 B U+0043 C 拉丁字母 C U+0044 D 拉丁字母 D U+0045 E 拉丁字母 E U+0046 F 拉丁字母 F U+0047 G 拉丁字母 G

U+0049 I 拉丁字母 I U+004A J 拉丁字母 J U+004B K 拉丁字母 K U+004C L 拉丁字母 L U+004D M 拉丁字母 M U+004E N 拉丁字母 N U+004F O 拉丁字母 O U+0050 P 拉丁字母 P U+0051 Q 拉丁字母 Q U+0052 R 拉丁字母 R U+0053 S 拉丁字母 S U+0054 T 拉丁字母 T U+0055 U 拉丁字母 U U+0056 V 拉丁字母 V U+0057 W 拉丁字母 W U+0058 X 拉丁字母 X U+0059 Y 拉丁字母 Y U+005A Z 拉丁字母 Z U+005B [ 开方括号 U+005C \ 由左上至右下的斜线 U+005D ] 关方括号 U+005E ^ 抑扬(重音)符号 U+005F _ 底线 U+0060 ` 重音符 U+0061 a 拉丁字母 a U+0062 b 拉丁字母 b U+0063 c 拉丁字母 c U+0064 d 拉丁字母 d U+0065 e 拉丁字母 e U+0066 f 拉丁字母 f U+0067 g 拉丁字母 g U+0068 h 拉丁字母 h U+0069 i 拉丁字母 i U+006A j 拉丁字母 j U+006B k 拉丁字母 k U+006C l 拉丁字母 l(L的小写)U+006D m 拉丁字母 m U+006E n 拉丁字母 n U+006F o 拉丁字母 o U+0070 p 拉丁字母 p U+0071 q 拉丁字母 q U+0072 r 拉丁字母 r U+0073 s 拉丁字母 s

汉字GB编码,Unicode编码,区位码, 大小端

汉字GB编码,Unicode编码,区位码,大小端 汉字GB编码,是对ascii码的一个扩展, 用来表示和存储汉字。最初设计的7位ascii码以 及扩展后的8位ansi编码,只能表示控制字符,英文字母,数字和一些常用符号。于是 GB码首先被提出并用于汉字的编码表示。GB码完全兼容ascii码,但丢弃掉了ansi比ascii 所多出来的全部符号。 GB码同样采用单字节方式存储和处理,比如'A'的ascii码为0x41, 汉字'王'的GB码为0xCDF5, 那么字符串“A王”保存在一个char[4]当中的话,内容应该是[0]=0x41, [1]=0xcd, [2]=0xf5, [3]=0x00,在处理这样的字符串时,需要首先判断字节最高位,因为ascii码只占用了字节的低7位,因此最高位永远是0,所以若判断最高位为0,则按ascii码处理,若为1,则按GB码处理,需要读入连续的两个字节,则可以得到一 个GB字符,如cdf5拼起来,则得到’王’的GB码。 Unicode码,是另一套编码规则,使用2个字节来表示一个字符,可以表示2^16 = 65536 个不同的字符。 Unicode同样对ascii兼容,对每个ascii码不足16位(两个字节)的部分 补0即是相同字符的Unicode码,此外,Unicode码还定义了中文等全球N多种文字及符号, 比如王的Unicode码即为0x738b. 下面的例子说明了汉字GB和Unicode码的区别: char cn_char_u[]={L'王'};//8b //low byte of 738b is passed to cn_char_u, x86 acts as little-endian, low byte maps low address char cn_char[]={'王'};//f5 //low byte of cdf5 is passed to cn_char //char cn_str_u[]={L"王"};//738b //illegal statement of assignment, not accept by compiler char cn_str[]={"王"};//cdf5 //cn_str[0] = cd, cn_str[1] = f5, cn_str[2]= \0 WCHAR cn_str_w_u[]={L"王"}; //738b //WCHAR cn_str_w[]={"王"}; //f5cd //illegal statement of assignment WCHAR cn_char_w_u[] = {L'王'}; //738b WCHAR cn_char_w[] = {'王'}; //cdf5

字符编码简介:ASCII,Unicode,UTF-8,GB2312

字符编码简介:ASCII,Unicode,UTF-8,GB2312 字符编码简介:ASCII,Unicode,UTF-8,GB2312 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。 ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),大写的字母A是65(二进制01000001)。这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。 2、非ASCII编码 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用ASCII码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。 但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (?),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0—127表示的符号是一样的,不一样的只是128—255的这一段。至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示256x256=65536个符号。 中文编码的问题需要专文讨论,这篇笔记不涉及。这里只指出,虽然都是用多个字节表示一个符号,但是GB类的汉字编码与后文的Unicode和UTF-8是毫无关系的。

相关主题
文本预览
相关文档 最新文档