- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Let us start by considering a basic form of Zipf’s law. Suppose one has a natural language corpus, e.g., a book written in English. Next, suppose one makes a frequency count of the words in the corpus, i.e., counts the number of occurrences of the, and, of, etc. Finally, suppose one arranges the words in decreasing order of frequency so that the most frequent word has rank 1; the next most frequency, rank 2; and so on.
28.09.2019
7
(一)文献中对词的利用
汉字中,目前人们使用的汉字约有15000个。
100 3000 4000
8000
高频字 常用字 次常用字 罕见字 死字
45000
28.09.2019
8
(一)文献中对词的利用
国家文字改革委员会 (语言文字工作委员 会)统计:
掌 握 2851 个 汉 字 可 以 满 足 99% 的 阅 读 需 要 ;
28.09.2019
22
对75个单词的出现频次的统计
28.09.2019
23
高频词 低语义词
齐普夫定律的图像描述
nr
lnnr
nr=k/r
lnr r
如果以等级序号 r 为横轴,词频 nr 为纵轴,其分布图形为一等轴双曲
线。
如果以等级序号 r 的对数为横轴,
词频 nr 的对数为纵轴,其分布图形 为一直线。直线的斜率约为-1。
28.09.2019
4
二、字(词)典的收录和选择
中国最早的词典——《尔雅》(汉代),按词的性质和意 义排列,词目91706条、134万多字。
第一部英语词典是R.考德莱编的《字顺英语难词表》。 1928年成书的Oxford English Dictionary目前最新版本为
20卷本第二版,收词超过50万条,引证例句250万条, 几乎囊括了1150年以来见于文献的所有语词。
江泽民为陈鹤琴先生雕像墓碑落成题词:“学习爱国老教育家陈 鹤琴先生的献身精神和创业精神,深化教育改革,为培育四有新 人,振兴中华的大业而奋斗!”
ቤተ መጻሕፍቲ ባይዱ
28.09.2019
15
(二)词频统计工具
北京语言学院语言教学研 究所采用人工与计算机相 结合的办法,对近200万字 的汉语语料进行词频统计, 编制了《现代汉语频率词 典》,收词31159条,这是 中国正式出版的第一部汉 语频率词典。
nrrk 或 nr kr
28.09.2019
20
词频统计表
以Rondld E. Wyllys: Empirical and Theoretical Bases of Zipf’s Law(齐普夫定律的经验根据与理论基础)前两段作为词 频分布的统计对象,该文如下:
Introduction
One of the most puzzling phenomena in bibliometrics and, more broadly, in quantitative linguistics is Zipf’s law. As one commentator, the statistician Gustav Herdan, has put it:“Mathematicians believe in it (Zipf’s law) because they think that linguists have established it to be a linguistic law, and linguists believe in it because they, on their part, think that mathematicians have established it to be a mathematical law.”
nr
k r
28.09.2019
19
二、 G.K.Zipf的验证与Zipf定律
(一)齐普夫定律的表述
设有一包含N个词(词汇数)的文献(N≥5000),统计其 中每个词出现的频次(n),按频次递减的顺序等级降 序排列,并用自然数给予相应的等级序号(r), 则每个词的等级序号(r)与相应的频次(nr )之 积为一常数。
第七章 齐普夫定律
美国哈夫大学著名语言 学家和心理学家。 1929年《相对频率:语 音变化的决定性因素》 1948年《人类行为与最 省力法则-人类生态学 引论》
G. K. Zipf (1902-1950)
教学要求
了解词频统计的产生和发展 了解 Booth定律 掌握Zipf定律的表述、数学模型及图像
特征 熟悉词频分布原理 熟悉Zipf定律应用中的基本技术和方法
28.09.2019
2
主要教学内容
§1 词频统计的产生和发展 §2 Zipf定律的表示** §3 Zipf第二定律 §4 词频分布原理* §5 Zipf定律的应用*
28.09.2019
3
第一节 词频统计的产生和发展
美国教育学家E.L.桑代克(1874~1949)编写了《教师 两万词词书》(1921)和《教师三万词词书》(1944)。 做了大量的英语词汇的频率统计工作。
28.09.2019
14
(二)词频统计工具
南京高等师范到南京大学教授,杰
出的现代儿童教育家
我国近代教育家陈鹤琴(1892~1982)第一部汉 语频率字典《语体文应用字汇》(1928) ,从 554478个汉字中析出4261个单字。
一、几个基本概念
1、词频(nr ):自然语言中某一个单词在文献中 或讲话中出现的次数(频次)。不同的词汇在同一 篇文献中出现频次的分布是不均匀的。
2、词汇数(N):文献中出现的不同词的数量。即: 文献中作者使用了多少个不同的词。
3、词次数(N‘):文献的长度,总词量,包括同 一词重复出现的次数。
掌 握 5018 个 汉 字 可 以 满足99.9%的阅读需要。
28.09.2019
9
(一)文献中对词的利用
1981年的《通讯用汉字字符集(基本 集)及其交换码标准》(GB2312-80) 中 确 认 “ 汉 字 基 本 字 符 ” 为 6763 个 。 其 中 , 一 级 汉 字 3755 个 , 二 级 汉 字 3008个。
28.09.2019
5
(一)文献中对词的利用
《汉语大词典》(上海辞 书 出 版 社 , 1986 年 ) 共 12 卷,收词37万以上。
28.09.2019
《汉语大字典》(四川辞 书出版社,1986年)全四 卷 , 收 录 单 字 约 56000 多 个。
6
(一)文献中对词的利用
《毛泽东选集》(四卷合 订 本 , 1967 年 ) 总 词 量 约 66万,收录2775个汉字。
28.09.2019
11
OGDEN's BASIC ENGLISH Word List
OPERATIONS - 100 words(100个动作的词) come, get, give, go, keep, let, make, put, …
THINGS - 400 General words(400 个普通名词) account, act, addition, adjustment, …
28.09.2019
10
(二)词频统计工具
英国语言学家奥格登(Charles K.Ogden)于 1930 年 编 撰 了 Basic English: A General Introduction with Rules and Grammar
If one were to take the 25,000 word Oxford Pocket English Dictionary and take away the redundancies of our rich language and eliminate the words that can be made by putting together simpler words, we find that 90% of the concepts in that dictionary can be achieved with 850 words.
词频相同 (lnnr)
序号递增 (lnr)
因同频词存在, 低频词区呈阶 梯状分布。而 采用其他排序 方法则不存在 阶梯状分布。
(三)对 Zipf 定律的几点讨论
1. 高频词作用的局限性
高频词区 中频词区 低频词区
英语、拉丁语的词频分布
28.09.2019
29
2. 同频词的排序
在随机排序中,同频词的出现将随词频的降低而 增多,产生“阶梯”状图形。试验证明:当 15<r<1500时,同频词不多;当r>1500时,大量的同 频词出ln现nr 。
QUALITIES - 50 Opposites ( 50 个有反义词的形容词) awake, bad, bent, bitter, blue, certain, cold,…
28.09.2019
12
OGDEN's BASIC ENGLISH
优点:简化语法、精简词汇,受到美国 总统罗斯福、英国首相丘吉尔的支持与 提倡,在一定范围内使用,但并未得到 推广。