中文信息处理技术原理与应用(2)

  • 格式:ppt
  • 大小:979.00 KB
  • 文档页数:23

下载文档原格式

  / 23
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

liba2002@sohu.com
11
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字键盘码的笛卡尔积集分析
汉字键盘码可以被看成是由它的各种字形属性元素(如字根、偏旁、 汉字键盘码可以被看成是由它的各种字形属性元素(如字根、偏旁、 或部首),或发音属性元素(如声百度文库、韵母),以及其它属性元素以 一定的规则组合而成。 把按一定次序排列的有关属性元素组成的序列称为“有序组” 把按一定次序排列的有关属性元素组成的序列称为“有序组”,也即 构成某个汉字的代码。 当有序组(a 当有序组(a1,a2,a-----3,…an)的客体分别是A1,A2,A3…An元素,即 的客体分别是A ai∈Ai(i=1,2,3,…n)时,有序组的全体组成一个代码集合,把 ai∈ …n) 它称作A1,A2,A3…An的 维笛卡尔积集。 它称作A1,A2,A3…An的n维笛卡尔积集。 可表示成: {(a ,a-2,a3 an) ,n)} A1×A2×A3×…An={(a1,a-2,a3…an)|ai∈Ai(i=1,2,…,n)} 其中A 称为a 其中Ai称为ai的属性集。
liba2002@sohu.com
4
汉字的结构分析
位点
就是二进制信息中的一位。
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点” 按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也
笔画
楷书汉字的基本笔画有六种。 楷书汉字的基本笔画有六种。即 一,丨,丿,乀, ,乚 这六种笔形,按其方向来区分, 这六种笔形,按其方向来区分,可以分为两类: 1、单向笔画,如 一,丨,丿,乀, ノ 单向笔画, 2、复向笔画,如 弯笔( ,乛,>) 拐笔(乚, 巜,< ) 复向笔画, 弯笔( 拐笔( 实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔 结构,以提高汉字的编码效率。
5
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
字根
字根是汉字形体的基本结构单元。字根这一概念,通常人们对它 比较模糊。同时也无统一的选择标准。在名称上也存在多种叫法, 例如,称作字母、形母、部件、组件、字元、构件、符号等。 构成字根的笔画间有“单、散、连、交” 构成字根的笔画间有“单、散、连、交”四种形式。只有单笔关 系的字根是:一,丨,丿,乀, 系的字根是:一,丨,丿,乀, ,乚;只有散笔关系的字根如: 二,三,八,习,夕,冫 二,三,八,习,夕,冫,氵;只有连笔关系的字根如:工,厂, 匚,歹,卜,止,冂 匚,歹,卜,止,冂,月,口,足,日,目,四;只有交笔关系 的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如: 的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如: 彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、 彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、 交二种关系的字根如:耳,王,大,禾,巾;散、连、交三种关 系都有的字根如雨,西,舟,鱼。
部首
汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直 汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直 沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个 沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个 左右
字根 单字
liba2002@sohu.com
liba2002@sohu.com
6
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
单字
单字的字根构成种类 :按照单字中所含字根数目的多少,可以分为四类: (1) 单根单字 (2) 二根单字 (3) 三根单字 (4) 四根(或多根)单字。 字的字型分类: 字的字型分类:字型是单字结构的字根相互间的结构类型,可以分成四种。 (1)独体型。由单式、连式、交式字根组成的单字,结构紧密,独自成为 独体型。由单式、连式、交式字根组成的单字,结构紧密, 一体, 一体,这 样的构型称作独体型。 样的构型称作独体型。 (2)左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型, 左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型, 称为左右型。 称为左右型。 (3)上下型。单字内分成上根和下根二半,中间有一定间隙的散式构型, 上下型。单字内分成上根和下根二半,中间有一定间隙的散式构型, 称为上下型。 称为上下型。 (4)包围型(又称内外型)。单字内一个内根被一个外根全部或局部包围 包围型(又称内外型) 的散式构型,称为包围型。 的散式构型,称为包围型。
n
H(汉字)=-∑Pilog2 Pi
i =1
汉字信息的熵值是对汉字的一个统计特性。它给出代码信息 量在理沦上的最小平均值。 把理论上的最小值(即汉字信息的熵值与实际编码所用的信息量 之比称作编码效率,可以对编码方案的编码效率做出定量的计算 和评价。
liba2002@sohu.com
14
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
i =1
上式中Pi是第i个键元的使用频度,n 上式中Pi是第i个键元的使用频度,n是所用键元的数目。
liba2002@sohu.com
15
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字编码输入方法简易评测方法
给出一种简易评测方法,即五星图方法。一般来说,要选择一种 给出一种简易评测方法,即五星图方法。一般来说,要选择一种 汉字输入编码方法,主要从编码方法的性能来考虑,具体有5个 汉字输入编码方法,主要从编码方法的性能来考虑,具体有5 方面: 1.易学性 编码规则要简单明了,没有特殊规则或尽可能地少。 2.可用性 在编码中,二义性和重码尽可能少,但不必强求为零。词汇码、外 字处理方便。 3.高速性 码长尽可能短,键位设计易于盲打,键入速度尽可能高。 4.通用性 编码规则独立于具体设备,适用于通用标准设备。 5.经济性 对主机软硬件无特殊要求,价格合理,便于维护。
liba2002@sohu.com
12
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
图2-1 汉字属性集数目与键盘码码长和编码效率的关系
liba2002@sohu.com
13
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字信息的熵值
汉字信息的熵值定义为在某个一定的范围内(例如在一个给定的 字符集中)确定一个汉字所需要的平均信息量(单位为二进制位) 的最小值。 如汉字集中汉字数量为N 要在N 如汉字集中汉字数量为N,要在N中确定某个汉字,若每个汉字使 用的概率是相等的情况,平均信息量的最小值为log 用的概率是相等的情况,平均信息量的最小值为log2 N。 考虑到不同的汉字使用频度是不相等的,设第i 考虑到不同的汉字使用频度是不相等的,设第i个汉字的使用 频度为Pi, 频度为Pi,则汉字信息的熵值可表示为:
据考古发现的甲骨文实物的考证,中国古代汉字的记载 可追溯到公元前1300年,至少已有3000多年的历史。 可追溯到公元前1300年,至少已有3000多年的历史。 汉字的形态,可以归纳出它包括象形字、表意字、形声 字和假借字。 最早可以考证的甲骨文汉字约有3000个左右。 最早可以考证的甲骨文汉字约有3000个左右。 目前中国日常通用的汉字过6000~7000个。其它五万 目前中国日常通用的汉字过6000~7000个。其它五万 多个属生僻字,却仍然保留在古籍资料,以及某些人名、 地名等中使用。目前,六万字以外新造汉字几乎已无必 要,而用某些汉字衍生新词则不断有所发展。 虽然现代汉字已压缩到6000~7000之数,但仍然是一 虽然现代汉字已压缩到6000~7000之数,但仍然是一 个庞大的数字,作为文字信息处理时有不方便之处。和 英文的26个字母相比,是一种“大字符集” 英文的26个字母相比,是一种“大字符集”。实际应用 中,这些数量的汉字并不是频率均等地使用的,应按照 使用频度对它们分级。GB2312-80基本集,一级字3775 使用频度对它们分级。GB2312-80基本集,一级字3775 个,二级字3008个,共6763个。 个,二级字3008个,共6763个。
liba2002@sohu.com
7
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字的字音和字义
汉字的字音
汉字的发音由汉语的发音而来。构成语音的最小单位,称为“音素” 汉字的发音由汉语的发音而来。构成语音的最小单位,称为“音素”。音 素中包括元音音素和辅音音素两类。汉语普通话共有元音音素6 素中包括元音音素和辅音音素两类。汉语普通话共有元音音素6个,辅音 音素22个。一个元音可以单独成为一个音节;一个辅音则必须配合一个以 音素22个。一个元音可以单独成为一个音节;一个辅音则必须配合一个以 上的元音才能构成一个音节。一个汉字的发音就由一个音节构成。 在以字音为基础的汉字编码方案中广泛应用的一种方法称为声韵双拼法。 把每个汉字的发音部分,分解成声母和韵母二部分。声母相当于辅音,韵 母则相当于元音。可以归纳出22个声母;35个韵母。严重的情况,可以举 母则相当于元音。可以归纳出22个声母;35个韵母。严重的情况,可以举 出同一声、韵、和音调可以对应有数十个、甚至超出一百个字的情况。 若用汉语发音作为汉字信息的输入,必须要采取其它有效的措施。
liba2002@sohu.com
2
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字和汉字属性
汉字发展及其分级 汉字的结构分析 汉字的字音和字义 汉字的排序 汉字的属性
liba2002@sohu.com
3
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字发展及其分级
liba2002@sohu.com
10
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字编码输入方法
整字输入方法 汉字编码输入方法
纯字形汉字编码方法 形、音(或形、音、义)结合编码方法 音、形结合编码 方法----例如声、韵、部、形编码方法 方法----例如声、韵、部、形编码方法 纯音汉字编码方法 人机交互式汉字简码输入方法
8
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字的排序
流水排序法 拉丁字母排序 拆字定码排序法
liba2002@sohu.com
9
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
汉字的属性
汉字字量 汉字字形 汉字字体 使用频度 汉字的发音 汉字字义 汉字排序汉字信息交换码
汉字的字义
汉字的字义也很复杂。成千上万个汉字,一般汉字,每个字常有2 汉字的字义也很复杂。成千上万个汉字,一般汉字,每个字常有2~5种意 义,多的达6 义,多的达6~9种意义。 在信息处理中,单独使用汉字的字义作为输入方法是不可能的。但在有些 编码输入方案中,利用字义作为辅助的区分汉字特征的手段。
liba2002@sohu.com
海曼公式与汉字编码的键盘特性
汉字键盘码是利用汉字的基本笔画或字根等字形属性或汉字发音 属性等元素构成的有序组,组成对应汉字的键盘代码。所用的键 元的数目必定比汉字集中汉字数目大为减少。 但键盘的键元数目太多,不利于熟练操作。而且从键盘的通用性 方面考虑,使用通用的字符键盘是最经济的。 键元数K 键元数K和击键操作时的反应时间,一般可用如下的经验公式来表 示: T = a + b .log2 K 而实际上,各个键元的使用频度是不相等的,因此较准确的海曼 公式应为: T = a + b .H(K) 其中H(K)是对应键元的熵值,H(K)定义如下: 其中H(K)是对应键元的熵值,H(K)定义如下: n H(K)=-∑Pilog2 Pi
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
中文信息处理技术原理与应用
(二) (二)
北京信息工程学院计算机系 李宝安
liba2002@sohu.com
1
中文信息处理技术——原理与应用 中文信息处理技术——原理与应用
第二章 汉字编码输入原理
汉字和汉字属性 汉字编码输入方法 汉字键盘码的笛卡尔积集分析 汉字信息的熵值 海曼公式与汉字编码的键盘特性 汉字编码输入方法简易评测方法 汉字编码输入方法专业评测方法 汉字键盘码的译码问题 有关中文输入技术现状与发展的几个问题