汉语词频统计
- 格式:ppt
- 大小:151.00 KB
- 文档页数:17
现代汉语中和制汉语词的量化考察
制汉语词是指由两个以上汉字构成的词语。
现代汉语中,制汉语词的量化主要是通过词频统计、辞书收录和语料库分析等方法进行考察。
1. 词频统计:利用大规模的语料库进行统计分析,统计某个汉字组合出现的频率,通过频率高低来判断词语的常用程度。
一般而言,频率较高的词语往往是制汉语词。
2. 辞书收录:各种汉语词典的编纂者会根据实际语料和语言规律,选取制汉语词作为词典的词条。
辞书编纂者在选择时一般会参考频率高低、使用范围、文化价值等因素。
3. 语料库分析:通过对大规模语料库的分析,可以获得文字材料冗杂、样本大、覆盖面广的特点,从而更全面和准确地了解汉字组合的使用情况。
通过对语料库中频次较高的词语进行分析,可以判断词语是否为制汉语词。
在实际研究中,一般会综合以上方法进行考察,以获得更加准确全面的结论。
同时,随着技术的发展,人工智能和自然语言处理的应用也可以提供更精确和有效的制汉语词量化考察结果。
antconc词频统计原理AntConc词频统计原理AntConc是一款基于Windows操作系统的文本分析工具,主要用于统计文本中词语的频率和分布情况。
它的核心功能是词频统计,即统计文本中每个词语出现的次数,并按照出现次数进行排序和展示。
在实际应用中,词频统计是文本分析的基础工作,可以帮助研究者快速了解文本的特征和趋势,从而进行更深入的分析和研究。
AntConc的词频统计原理是基于一个简单的算法实现的。
首先,它会将输入的文本按照空格或其他分隔符进行分词,将文本拆分成一个个单词。
然后,它会遍历所有单词,统计每个单词出现的次数,并保存在一个词频统计表中。
最后,根据词频统计表中的数据,AntConc会按照词频的高低进行排序,并将结果展示给用户。
词频统计的原理虽然简单,但是在实际应用中有着广泛的应用价值。
首先,通过词频统计,我们可以了解文本中哪些词语出现的频率较高,从而推断出文本的主题和关键词。
例如,在新闻报道中,出现频率较高的词语往往与报道的主题密切相关。
其次,词频统计还可以帮助我们分析文本的情感倾向。
通过统计文本中积极和消极情感词语的频率,我们可以判断文本的情感倾向是正面还是负面。
此外,词频统计还可以帮助我们分析文本的语言特点和风格。
不同作者或不同领域的文本往往有着不同的词语使用习惯,通过词频统计,我们可以发现这些差异。
在使用AntConc进行词频统计时,我们还可以根据需求进行一些参数设置。
例如,我们可以选择忽略某些常见词语,如“的”、“是”、“在”等,以减少噪音干扰。
我们还可以设置词语的最小频数和最大频数,以过滤掉出现次数过低或过高的词语。
另外,AntConc还提供了词语共现分析、词语关键词提取等功能,可以帮助我们更全面地理解文本的特征和结构。
AntConc词频统计原理简单而实用,通过统计文本中词语的频率和分布情况,我们可以快速了解文本的特征和趋势,为后续的文本分析和研究提供基础支持。
无论是对于学术研究、情感分析还是语言风格分析,词频统计都是一个必不可少的工具,AntConc的词频统计功能可以帮助我们更高效地进行相关工作。
中文词频统计系统设计分析摘要随着互联网时代的到来,网络信息呈极速增长态势,互联网让人们的生活更加“碎片化”,有用信息的获取变更越来越不容易,中文词频统计系统有效解决这一难题,帮助人们从一堆杂乱无章的文本数据中快速准确获取有价值的信息。
本文通过分析中文词频统计的关键技术,即中文分词技术,并经过对比分析几种常用的中文分词工具后,最终通过开源的IK Analyzer完成中文词频统计系统的实现。
关键词:中文词频统计关键技术综述;中文词频统计系统设计前言目前我们正处于一个互联网时代,而信息量的高速增长带来的复杂性,需要我们对其进行有效处理。
如何利用计算机来进行有效地信息处理就产生了中文信息处理技术。
中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程,它是自然语言处理的一个分支,是一门与计算机科学、语言学、数学等多种学科相关联的综合性学科。
从20世纪80年代开始,中文信息处理进入了快速发展阶段,具体研究内容只要包括对字、词、句、段、篇、章的输入输出、压缩存储、检索传输、分析理解和智能生成等方面的技术。
随着网络信息的极速增长,有用信息的获取变得越来越不容易,中文词频统计系统的诞生为人们解决这一难题,帮助人们从一堆杂乱无章的中文文本数据中获取高频词或关键词,有助于准确把握文章的要义,从而深入了解其核心思想,获得有用的信息。
1. 中文词频统计关键技术1.1 中文分词技术中文分词是中文词频统计首要解决的问题,也是中文词频统计的关键技术。
中文文本信息与英文文本信息存在一个明显差别,即在英文文本中,单词与单词之间有空格分隔;而中文文本中,词与词之间不存在天然分隔符,同时中文词语没有清晰的定义。
这些文本信息区别,要求在对中文文本信息进行处理前,必须将成段的文本分隔成更小的词汇单元,这个过程即是中文分词。
中文自动分词是指使用自计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识,达到被计算机自动识别语义的效果。
汉字的使用频率汉字的使用频率汉字的数量非常庞大,总数大约九万左右。
但常用字才三千多个,即使是常用字,使用频率的差别也很悬殊。
国家标准GB2312-80《信息交换用汉字编码字符集*基本集》就是根据这种事实制订的。
一级字库为常用字,3755个,二级字库为不常用字,3008个,一、二级字库共有汉字6763个。
一级字库的字,使用频率合计达99.7%。
即在现代汉语材料中的每一万个汉字中,这些字就会出现9970次以上,其余的所有汉字也不足30次。
而最常用的1000个汉字,使用频率在90%以上.根据国家出版局抽样统计,汉字中最常用字560个,常用字807个,次常用字1033个。
三者合计2400个,占一般书刊用字的99%,所以小学生如果认识2400个常用字就能阅读一般书刊。
我国古代的周兴嗣能在一夜之间将1000个不同的常用字编成四言的押韵体《千字文》,既表达了一定的意义,又通俗易懂,和辙押韵,成为历代的识字课本。
最常用的140个汉字(按使用频率从高到低的右序排列):的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给名法间斯知世什两次使身者被高已亲其进此话常与活正感(这140个汉字的使用频率之和为50%)其中:最常用的5个汉字:的一是了我(这5个汉字的使用频率之和为10%)最常用的17个汉字:的一是了我不人在他有这个上们来到时(这17个汉字的使用频率之和为20%)最常用的42个汉字:的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会(这42个汉字的使用频率之和为30%)最常用的79个汉字:的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之都好看起发当没成只如事把还用第样道想作种开(这42个汉字的使用频率之和为30%)使用频率排名141-232的汉字(这92个汉字的频率之和为10%)见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难望教命花结乐色使用频率排名233-380的汉字(148个汉字,使用频率之和10%) 更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴382-500 (5.43%)奇管类未朋且婚台夜青北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算501-631算义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初养香停际致阳纸李纳验助激够严证帝饭忘趣支632-1000春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿招释介烧误。
语料库常用统计方法在当今信息爆炸的时代,语料库作为一种大规模的语言数据集,对于语言学研究、自然语言处理、翻译研究等领域都具有重要意义。
而要从海量的语料中提取有价值的信息,就需要运用各种统计方法。
接下来,让我们一起深入了解一些语料库常用的统计方法。
一、词频统计词频统计是语料库分析中最基础也最常见的方法之一。
简单来说,就是计算某个词在语料库中出现的次数。
通过词频统计,我们可以了解到哪些词在特定的语料中使用最为频繁,哪些词相对较少出现。
例如,在一个关于科技新闻的语料库中,“人工智能”“大数据”等词可能会有较高的词频,而在一个文学作品的语料库中,“情感”“风景”等词可能更常见。
词频统计不仅能帮助我们快速把握语料的主题和重点,还能为词汇的重要性排序提供依据。
为了进行词频统计,首先需要对语料进行预处理,包括分词、去除标点符号和停用词(如“的”“了”“啊”等常见但对语义影响不大的词)。
然后,通过编程语言(如 Python)中的相关库(如 collections 库)或者专门的语料库分析工具(如 AntConc),可以轻松实现词频的计算和排序。
二、词汇多样性统计词汇多样性是衡量语言丰富程度的一个重要指标。
常见的词汇多样性统计方法包括类符/形符比(TypeToken Ratio,简称 TTR)和标准化类符/形符比(Standardized TypeToken Ratio)。
类符指的是语料库中不同的单词,形符则是单词出现的总次数。
TTR 就是类符数量除以形符数量。
例如,一个包含100 个单词的文本,其中不同的单词有 50 个,那么 TTR 就是 05。
然而,TTR 会受到文本长度的影响,文本越长,TTR 往往越低。
为了克服这一问题,标准化类符/形符比通过对文本进行分段计算 TTR,然后取平均值来得到更稳定和可靠的结果。
词汇多样性统计对于比较不同作者、不同文体、不同语言的文本特点具有重要意义。
一般来说,文学作品的词汇多样性往往高于科技文献,而高水平的作者通常能够在作品中展现出更高的词汇多样性。
4.6双字词词频统计双字(连续)词同现频率统计的任务是:统计给定语料中有多少个不同的字对( Character pair),每个字对各出现多少次。
例如“发展中国家的”这个汉字串中就有“发展”、“展中中国”“国家”、“家的”共5个字对,每个字对各出现了一次。
字对不一定是双字词,例如“展中”、“家的”不是词,“中国”虽然是词,但在这个汉字串中不是词。
用任一字对在语料中的出现次数,除以所有字对出现的总次数,就可以得到这个字对的频率,即双字同现频率。
如果语料规模充分大并且分布均匀,就可以根据双字同现频率和单字频率来估计其中某个汉字的条件概率。
例如,用字对“中国”的频率除以汉字“国”的频率,可以得到条件概率P(Z1=中|Z2=国),即,当后一字已确定为“国”字时,前字为“中”的可能性有多大类似地,也可以得到条件概率P(Z2=国|Z1=中),即,当前一字已确定为“中”时,后一字为“国”的可能性有多大。
如果考察汉字的条件概率时需要看更长些的上下文,就需要做三字同现、四字同现…的频率统计双字字频统计一般是为了计算单字出现的条件概率或者双字的相关性计算中必然要用到单字出现的概率,因此做双字字频统计往往同时统计单字频率,除非单字频率已经统计过。
对一个文件进行双字字频统计,仍然是循环地读出文件中的每一个汉字,登记其出现次然后查它和前面一个汉字是否在双字字表中出现过:如果已经出现,同现次数加1;否则在双字字表中插入这对汉字,并置同现次数为1。
4.6.1双字字表结构的三种方案双字字表的数据结构是一个更需要仔细斟酌的问题。
国标码汉字6763个,那么所有可能的双字有6763×6763=45738169种。
如果全部放在内存中,每种用2个字节表示同现次数,大约需要占用87兆内存。
日前的微机一般是16兆或32兆内存,面且不是全部内存都能使用。
一般的微机上用的是 WINDOWS系统,允许多个程序同时运行;如果一个程序占用太多内存,别的程序就无法运行了。
语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。
传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种枯燥无味、费力费时的工作。
计算机出现后,人们可以把这些工作交给计算机去作,大大地减轻了人们的劳动。
后来,在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科——语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。
语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。
多年来,机器翻译和自然语言理解的研究中, 分析语言的主要方法是句法语义分析。
因此,在很长一段时间内,许多系统都是基于规则的,而根据当前计算机的理论和技术的水平很难把语言学的各种事实和理解语言所需的广泛的背景知识用规则的形式充分地表达出来,这样,这些基于规则的机器翻译和自然语言理解系统只能在极其受限的某些子语言(sub-language)中获得一定的成功。
为了摆脱困境,自然语言处理的研究者者们开始对大规模的非受限的自然语言进行调查和统计,以便采用一种基于统计的模型来处理大量的非受限语言。
不言而喻,语料库语言学将有可能在大量语言材料的基础上来检验传统的理论语言学基于手工搜集材料的方法所得出的各种结论,从而使我们对于自然语言的各种复杂现象获得更为深刻全面的认识。
本文首先简要介绍国外语料库的发展情况,然后,比较详细地介绍中国语料库的发展情况和主要的成绩,使我们对于语料库研究得到一个鸟瞰式的认识。
一、国外语料库概况现在,美国Brown大学建立了BROWN语料库(布朗语料库),英国Lancaster大学与挪威Oslo大学与Bergen大学联合建立了LOB 语料库。
欧美各国学者利用这两个语料库开展了大规模的研究,其中最引人注目的是对语料库进行语法标注的研究。