4.4.2 拆分汉字的原则
在分析汉字的结构时,是把各个基本字根组成汉字;而 在录入时却要把汉字拆分成若干个基本字根,这种把汉字拆 分成几个基本字根的操作,即为“拆字”。拆分汉字的原则 可归纳为以下5点。 1.书写顺序 拆分“合体字”时,一定要按照正确的书写顺序进行。 例:“新”只能拆成“立、木、斤”,不能拆成“立、斤、 木”;“中”只能拆成“口、丨”,不能拆成“丨、口”; “夷”只能拆成“一、弓、人”,不能拆成“大、弓”。
如前所述,当一个字拆分后不足4个字根时,需要在打完 字根码后追加一个“末笔字型识别码”,例如。
上例中,沐、汀、洒的字根码都一样(IS),但末笔 划不同,所以加上末笔识别码后,它们的编码就不相同了, 否则就会重码(都是IS)。同样,只、叭的字根码一样 (KC),但字型不一样,所以加上字型识别码后,编码也 就不相同了。
4.能连不交 能连不交指的是一个汉字能按相连的关系拆分,就不要按 相交的关系拆分。如“于”,可按相连的关系拆成“一、十”, 就不要按“二、丨”相交关系拆分。 天 一 大 不能拆作“二人”,因二者相交 于 一 十 不能拆作“二丨”,因二者相交 丑 乙 土 不能拆作“刀二”,因二者相交 5.能散不连
如果一个单体结构可以视为几个基本字根的“散”关系, 则不要视为“连”关系。但有时候,汉字的几个字根之间的 关系在“散”和“连”之间模棱两可,此时只要不是单笔划, 一律按“散”的如下几项原则。 (1)取码顺序依照从左到右,从上到下,从外到内的书写 顺序(依照笔顺把码编)。 (2)按4下按键可直接输入键名汉字(键名汉字打4下)。 (3)字根数为4或大于4时,按一、二、三、末字根顺序取 四码(一二三末取四码)。 (4)不足4个字根时,打完字根码后,补末笔字型识别码于 尾部。该情况下,码长为3或4(不足四码要注意,交叉识别补 后边)。 (5)歌诀中“基本字根请照搬”和“顺序拆分大优先”是 拆分原则,表示在拆分中以基本字根为单位并且在拆分时“取 大优先”,尽可能先拆出笔划最多的字根(或者说拆分出的字 根数要尽量少)。