汉字编码基础
一.在汉字的录入方面,音码很够解决许多速度 要求不高的录入问题,并且取得了很好的效果, 但再好的音码很难解决重码问题.
如:当双拼输入法的词语编码不断增加时,重码现象便会越 来越严得,而且随着新词的不断推出,重码现象还会加得重. 对于录入速度要求高的速记,排版和专业工作人员,重码会 限制其录入速度.自然地,另外一条出路便是形码.
五笔字型的拆字原则
• 在分析汉字的字型结构时,是把各个基本字根组成汉字,而在录入时要把已 有的汉字拆分成若干个基本字根.即”组字”的逆过程-“拆字”。拆字 的原则可归结为这样几点: • 1.取在优先:在拆分时,本着”再加一笔,便不再是最大笔划字根’的原则, 每次均选择拆出最大的、笔划数最多的字根。如:天(GD)而不是 (FW). • 2.兼顾直观:拆字的目的是为方便地输入汉字,如果拆分出的字根有较 好的直观性,可能牺牲“书写顺序”和“取大优先”的原则。而形成 “例外处理”情况。 • 3.能连不交:单体结构能按“连”关系拆分时的,则不要按“交”关系 拆分。因为“连”更能显示码元笔晓的结构特征。如:天(GD)而不是 (FW,否则二者相交)。 • 4.能散不连:如果一个单体结构可以视为几个基本字根的“散”关系, 则汪要视为“连”关系。有时候,治字的几个字根之间的关系在“散” 和“连”之间,难于确定,遇到这种情况时,处理的原则“只要不是单 笔划,则均按散关系处理”。如:占,都不是单笔划,应视为上下关系) 严(GOD),(后两笔非单笔划,应视为上下关系)而不是拆为“一横” 加上“业”再加上“厂”。
汉字的三种字型
• • • • • • • • 以用字根组成汉字,根据字要有之间在汉字中所处的位置关系,可把成千 上万的汉字分为三种类型,即左右型、上下型、杂合型,分别赋予代号1、 2、3。 左右型:包括双合字和三合字。 双合字:两个部分分列左右,整个汉字中有着明显的界线,字根间有距 离。如:灶、明、现、但、咽等。 三合字:整个字的三个部分从左至右排弄,或者单独占据一边的部分与 另外两部分按左右型式排列。如:例、别、说等。 上下型:也也括双合字和三合字。 双合字:上下型双合字中,两个部的按上下排列,并有着明显的界线, 各部分间有距离。如:军、字、晋等。 三合字:三合字中,三个部分也按上下排列,或同层的部分上下排列。 如:意、想、花等。 杂合型:指汉字的各个字根交叠在一起,不能明显地分成上下或左右部 分。这类字中多为单体、内外、包围等字型。如:司、周、区、天、飞、 本等。