基于语料库的汉语字词相关性研究
- 格式:doc
- 大小:62.01 KB
- 文档页数:9
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在大数据时代背景下,如何实现基于汉语语料库的中文词句快速检索,成为了一个重要的研究课题。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,分析其技术原理、实现方法和应用前景,为相关领域的研究和应用提供参考。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
它包含了大量的中文文本数据,如新闻报道、文学作品、科技论文等。
通过对这些语料进行预处理和分词等操作,我们可以获取到用于检索的词句。
为了实现快速检索,需要构建高效的数据结构和算法。
三、快速检索算法研究(一)算法技术原理基于汉语语料库的中文词句快速检索算法主要采用倒排索引技术。
倒排索引是一种基于关键词的索引方式,它将每个词的所有出现位置进行记录和存储。
当用户输入查询词时,系统可以快速地找到所有包含该词的文本数据,从而实现快速检索。
(二)算法实现方法1. 预处理阶段:对语料库进行分词、去除停用词等操作,提取出用于检索的关键词。
2. 构建倒排索引:将关键词与对应的文本数据建立映射关系,形成倒排索引表。
3. 查询处理:当用户输入查询词时,系统根据倒排索引表快速找到所有包含该词的文本数据,并进行排序和展示。
(三)算法优化策略为了进一步提高检索速度和准确性,可以采取以下优化策略:1. 优化数据结构:采用更高效的数据结构存储倒排索引表,如压缩存储、稀疏矩阵等。
2. 引入机器学习技术:利用机器学习算法对语料库进行语义分析和理解,提高检索准确性。
3. 分布式计算:将检索任务分布式部署在多个计算节点上,实现并行计算和负载均衡。
四、应用前景展望基于汉语语料库的中文词句快速检索算法具有广泛的应用前景。
它可以应用于搜索引擎、信息推荐、自然语言处理等领域。
在搜索引擎中,用户可以通过输入关键词快速找到相关信息;在信息推荐中,系统可以根据用户的历史行为和兴趣偏好推荐相关内容;在自然语言处理中,该算法可以用于文本分类、情感分析等任务。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文语料库在各行各业的应用日益广泛。
无论是自然语言处理、搜索引擎优化还是信息挖掘,快速准确的中文词句检索都成为关键任务。
为了应对海量中文文本的检索需求,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的原理、方法及其实验结果。
二、研究背景与意义随着互联网的普及,网络信息呈爆炸式增长。
如何在海量信息中快速找到用户关注的词句成为一项挑战。
汉语作为世界上最难掌握和运用的语言之一,其复杂性和丰富性使得词句检索更加困难。
因此,研究基于汉语语料库的中文词句快速检索算法具有重大意义。
三、算法原理及方法1. 分词技术:首先,对中文文本进行分词处理,将连续的文本序列切分成单个的词语或词组。
分词技术是中文词句检索的基础。
2. 索引构建:将分词后的结果建立索引,便于后续的检索操作。
常用的索引结构包括倒排索引、前缀树等。
3. 算法优化:针对中文语言的特性,如多义词、同义词等,采用多种算法优化手段,如基于统计的算法、基于深度学习的算法等,提高检索准确率。
4. 检索流程:用户输入查询语句后,系统通过匹配算法在索引中查找与查询相关的词句,返回给用户。
四、算法实现与实验结果1. 算法实现:采用多种技术手段实现基于汉语语料库的中文词句快速检索算法,包括分词技术、索引构建、算法优化等。
2. 实验数据:采用大规模的汉语语料库进行实验,包括新闻报道、学术论文、网络文章等。
3. 实验结果:通过对比不同算法在实验数据上的表现,发现基于深度学习的算法在准确率和效率方面具有明显优势。
此外,针对多义词和同义词等问题,通过算法优化提高了检索效果。
五、实验分析1. 准确性分析:实验结果表明,基于深度学习的检索算法在准确性方面具有显著优势,能够更准确地理解用户意图并返回相关词句。
2. 效率分析:在处理大规模语料库时,该算法能够在较短时间内完成检索任务,满足用户的实时需求。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文语料库的规模日益庞大,人们对于中文词句的检索需求也日益增长。
如何实现快速、准确的中文词句检索成为了研究的重要课题。
本文旨在研究基于汉语语料库的中文词句快速检索算法,通过对算法的设计与实现进行深入探讨,以期为中文信息处理领域的发展提供有益的参考。
二、中文词句检索的重要性和现状在信息爆炸的时代,人们需要从海量的文本信息中获取有用的知识和信息。
中文词句检索作为信息检索的重要组成部分,具有广泛的应用场景和重要的实际意义。
然而,由于中文语言的复杂性,如词语的多义性、复杂句式等,使得中文词句检索面临诸多挑战。
目前,虽然已经有许多中文词句检索算法被提出并应用于实际中,但仍然存在检索速度慢、准确率低等问题。
因此,研究基于汉语语料库的中文词句快速检索算法具有重要的现实意义。
三、基于汉语语料库的中文词句快速检索算法设计(一)算法设计思路本文提出的基于汉语语料库的中文词句快速检索算法,主要基于以下思路:首先,通过构建大规模的汉语语料库,为算法提供丰富的词汇和句法信息;其次,利用先进的自然语言处理技术,对语料库进行分词、词性标注等预处理工作;最后,设计高效的检索算法,实现快速、准确的中文词句检索。
(二)算法实现步骤1. 语料库构建:构建大规模的汉语语料库,包括各类文本资源,如新闻报道、学术论文、网络文章等。
2. 预处理:对语料库进行分词、词性标注等预处理工作,提取出词汇的语义信息和句法结构。
3. 索引构建:根据预处理结果,构建倒排索引等高效的数据结构,为后续的检索工作提供支持。
4. 检索算法设计:设计高效的检索算法,包括基于关键词的检索、基于语义的检索等。
5. 检索结果优化:对检索结果进行排序、去重等优化处理,提高检索结果的准确性和可用性。
四、实验与分析为了验证本文提出的基于汉语语料库的中文词句快速检索算法的有效性,我们进行了大量的实验。
R 3.66 2.9 3.43.77STTR 71.84 70.7966.95 70.87STTR标准差29.0028.28 32.34 30.17平均词长(字数)1.28 1.32 1.55 1.46词长标准差1 0.55 0.73 0.67表1列举了反映词语变化的各项指标。
总体特征是:文学语料与非文学语料的表现呈相反趋势——汉语文学语料中翻译汉语的TTR和STTR小于原创汉语;而非文学语料库翻译汉语TTR与STTR大于原创汉语。
这意味着:文学语料的词语变化趋势支持“简略化”的假设,即汉语文学翻译语料显示使用较少的词汇,而原创文学倾向于使用较多的词汇。
词语变化特征表明:汉语文学翻译语料支持“简化”共性假设(Laviosa,1998,2002;胡显耀,2007),而汉语非文学翻译语料似乎不支持这一假设。
关于后者,我们分析是所用语料库中非文学原创汉语语料的选材稍显单一,主要为政府文件类语料(共199个文件);而翻译汉语则涉及科技、经济、法律、医疗等各个领域(共400个文件)。
两个语料库的规模和选材有差距,因而可比性略差。
尽管文学语料的词语变化度支持翻译简化的假设,但由于语料库之间的类符形符比的差距并不特别悬殊,这些差异还可能受语料库工具的精度和语料取样范围的影响,所以它所能说明词语简化的程度有限。
2.2 词类频率分布本文所使用的四个语料库都做过词性赋码,我们得以对各子语料库的各类词性进行全面的统计分析。
我们用PowerGrep3.0检索了语料库中全部43个POS标记的频次,并依据各子语料库的实际形符标准化了各种词类的每百万词频率(注:本文的某一词类包括该POS的全部赋码,例如:形容词包括POS=a,ad,ag,an;名词包括POS=n,ng,nr,ns,nt,nx,nz等等。
全部词性赋码标记集(Tagset)参看《北大汉语文本词性标注标记集》。
)(见表2)。
为了分别统计实词和虚词的频率,本文在表中用“-”表示虚词。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,中文信息处理已成为当前研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
该研究旨在提高中文文本检索的效率和准确性,为中文信息处理提供强有力的技术支持。
本文将详细探讨基于汉语语料库的中文词句快速检索算法的研究背景、目的、方法及贡献。
二、研究背景及目的随着互联网的普及和大数据时代的到来,海量的中文信息给人们带来了极大的便利,同时也带来了信息检索的挑战。
传统的中文词句检索算法在处理大规模语料库时,往往存在检索速度慢、准确率低等问题。
因此,研究基于汉语语料库的中文词句快速检索算法,对于提高中文文本检索的效率和准确性具有重要意义。
本研究的目的在于:1. 提出一种高效的中文词句快速检索算法;2. 优化算法性能,提高检索速度和准确率;3. 为中文信息处理提供技术支持,推动相关领域的发展。
三、研究方法本研究采用以下方法:1. 语料库构建:构建大规模的汉语语料库,包括文本、词汇、句法等多个层面;2. 算法设计:针对中文词句检索的特点,设计一种高效的检索算法;3. 实验验证:通过实验验证算法的性能,分析其优点和不足;4. 优化改进:根据实验结果,对算法进行优化改进,提高其检索速度和准确率。
四、算法设计本研究提出的中文词句快速检索算法主要包括以下步骤:1. 预处理:对语料库进行分词、去除停用词等预处理操作;2. 索引构建:根据预处理后的结果,构建倒排索引;3. 查询处理:将用户输入的查询语句进行分词、去停用词等操作,生成查询关键词;4. 检索匹配:根据查询关键词,在倒排索引中进行检索匹配;5. 结果输出:将匹配结果按照相关度排序后输出。
五、实验验证及结果分析本研究通过实验验证了所提出算法的性能。
实验结果表明,该算法在处理大规模语料库时,具有较高的检索速度和准确率。
具体分析如下:1. 检索速度:该算法采用倒排索引技术,大大提高了检索速度。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的发展和互联网的普及,信息量的急剧增长使得文本数据的检索成为了一项重要任务。
而作为全球最大的汉语使用者群体,中文词句检索在众多领域具有重要应用价值。
本文旨在研究基于汉语语料库的中文词句快速检索算法,以提升检索效率和准确性。
二、汉语语料库概述汉语语料库是用于自然语言处理和文本分析的数据库,包含了大量的中文文本数据。
这些数据可以用于训练和测试中文词句检索算法。
汉语语料库的构建需要考虑词汇的丰富性、句子的多样性以及文本的时效性等因素。
三、中文词句快速检索算法研究1. 分词技术分词是中文词句检索的基础。
本文采用基于统计和规则相结合的分词方法,将文本数据切分成单个词汇。
同时,为了处理未登录词和专有名词等问题,引入了词典扩展和机器学习等技术。
2. 索引构建索引是提高检索速度的关键。
本文采用倒排索引技术,将词汇与其在文本中的位置信息建立映射关系。
同时,为了进一步提高检索效率,采用了压缩存储和优化索引结构等技术。
3. 检索算法本文研究了一种基于向量空间模型的检索算法。
该算法通过计算查询与文档之间的相似度,返回与查询最相关的词句。
为了提高检索准确性,引入了词频、词性、语义等信息。
4. 算法优化针对中文词句检索的特点,本文提出了一种基于词汇关联性的优化策略。
通过对词汇之间的关联性进行分析,提高检索结果的准确性和相关性。
同时,采用多线程技术和并行计算等技术,进一步提高检索速度。
四、实验与分析为了验证本文提出的算法的有效性,我们采用了一个大型汉语语料库进行实验。
实验结果表明,本文提出的算法在检索速度和准确性方面均取得了较好的效果。
与传统的检索算法相比,本文算法在处理大规模语料库时具有更高的效率和更好的性能。
五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法,通过分词技术、索引构建、检索算法和算法优化等方面的研究,提高了检索速度和准确性。
实验结果表明,本文提出的算法在处理大规模语料库时具有较高的效率和性能。
解。
钱先生的评价,就“排印、打电报、打字”来说,基本合理;只是对汉字的总体评价显得“以偏盖全”,“攻其一点而不计其余”和“矫枉过正”。
但20世纪最后二三十年汉字处理电脑化成功实现后,他们论断的失当就显得非常明显。
在汉字成功适应信息新技术的今天,仍然把这些论断视为至理名言,完全无视活生生事实,就真让人匪夷所思了。
参考文献[1]周有光《汉字的技术性和艺术性》,刊于《科学地评价汉语汉字》(尹斌庸,苏培成选编,华语教学出版社,1994)12—16页[2]高等院校文字改革委员会筹备组《语文现代化》71页,1980[3]钱玄同《汉字革命》,《国语月刊》(汉字改革号),1923[4]王开扬《汉字现代化研究》,齐鲁书社,2004[5]苏培成《语言文字应用探索》,商务印书馆,2004[6]潘钧《汉字研究文集》,云南大学出版社,2007[7]马克思、恩格斯《马克思恩格斯全集》第7卷382页,人民出版社,1979[8]马克思、恩格斯《马克思恩格斯全集》第30卷318页,人民出版社,1974[9]许寿椿《文字处理技术的历史发展》见《文字编辑与电脑打字》(许寿椿编著,中央民族学院出版社,1989年)第一章[10]许寿椿《文字信息处理技术的三个历史时代和汉英文字比较》见《文字比较研究散论》(许寿椿编著,中央民族学院出版社,1993年,50—66页)—文字信息处理技术的历史通观》,《中国计算机报》1992年,No.2,37,41版[11]许寿椿《电脑打字的历史文化意义——[12]许寿椿《文字处理技术与汉字文化兴衰》,《现代与传统》第九辑74—79页,1995[13]林立勋《电脑风云五十年》,电子工业出版社,1998[14]王蒙《新世纪讲稿》,上海文艺出版社,2005(作者为中央民族大学教授)建立在语料库基础上的汉语本体研究与对外汉语教学—以现代汉语离合词研究为例——王海峰王铁利1.语料库与本体研究和语言教学1.1语料库的作用上世纪60年代初,世界上第一个机读语料库在美国布朗大学建成,此后大量的语料库陆续建成。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,海量中文信息的处理与检索成为了研究的热点。
在众多领域中,基于汉语语料库的中文词句快速检索算法研究显得尤为重要。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的原理、实现方法及优势,以期为相关研究与应用提供参考。
二、研究背景及意义随着互联网的普及,海量的中文信息每天都在产生和传播。
如何从这些海量的信息中快速准确地检索到用户所需的词句,成为了亟待解决的问题。
基于汉语语料库的中文词句快速检索算法研究,可以帮助我们更高效地处理和检索中文信息,提高信息检索的准确性和效率,对于推动中文信息处理技术的发展具有重要意义。
三、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所提到的汉语语料库应包含丰富的中文文本资源,如新闻报道、学术论文、网络文章等,并具备较高的准确性和完整性。
此外,语料库还应支持高效的查询和检索功能,以满足不同领域的需求。
四、中文词句快速检索算法研究1. 算法原理基于汉语语料库的中文词句快速检索算法主要依靠分词技术、词频统计、倒排索引等原理。
首先,通过分词技术将文本切分成单个词或词组;然后,根据词频统计结果对词句进行排序;最后,通过倒排索引实现快速检索。
2. 算法实现方法(1)分词技术:采用基于规则和统计的分词方法,将文本切分成词或词组。
其中,基于规则的分词方法主要依据语言学的知识,而统计分词方法则依赖于大量语料库的统计结果。
(2)词频统计:对分词后的结果进行词频统计,将高频词或词组排在前面,以便于用户快速找到所需信息。
(3)倒排索引:建立倒排索引是实现快速检索的关键。
倒排索引将词汇表中的每个词汇与其在文本中的位置信息进行关联,通过查询词汇表即可找到包含该词汇的文本位置信息,从而实现快速检索。
3. 算法优势基于汉语语料库的中文词句快速检索算法具有以下优势:一是准确度高,通过分词技术和词频统计可以准确地提取出文本中的关键信息;二是检索速度快,通过建立倒排索引可以实现快速检索;三是支持大规模语料库的处理,可以满足海量中文信息的处理需求。
基于语料库的英汉语词汇研究第一章:引言随着全球化的不断深入发展,英语在世界范围内得到了广泛应用,成为了国际交流的重要工具之一。
然而,英语和汉语之间的差异性仍然存在挑战,特别是在词汇使用上。
因此,基于语料库的英汉语词汇研究的重要性愈发凸显。
第二章:语料库研究方法2.1 语料库的定义与类型语料库是一种存储大量实际语言样本的资源,包含各种类型和来源的文本,如书籍、新闻文章、网络文章等。
语料库可被用于分析词汇使用的频率、上下文信息、复杂结构等。
2.2 语料库的应用通过使用语料库,研究者可以分析语言的实际使用情况,揭示词汇的语义、篇章结构和语法上下文等信息,有助于创造性地应用英语和汉语。
同时,语料库还可以为教学和翻译提供参考。
第三章:英汉语词汇对比分析3.1 高频词汇对比通过统计语料库中出现频率最高的词汇,研究者可以比较英语和汉语在高频词汇上的差异。
例如,在英语中,“the”和“is”是常见的高频词汇,而在汉语中,“的”和“是”则是常见的高频词汇。
3.2 词汇搭配对比语料库提供了分析不同语言中词汇搭配的机会。
通过研究词汇与其常见搭配的频率和模式,可以揭示词汇在不同语言中的使用方式。
比如,在英语中常见的词汇搭配有“make a decision”和“take a shower”,而在汉语中则有“做决定”和“洗澡”。
第四章:英汉语词汇翻译研究4.1 词义辨析通过语料库研究,可以帮助研究者理解英汉语词汇之间的词义差异,特别是多义词。
例如,“charge”在英语中既可以表示“费用”也可以表示“指责”,而在汉语中则需要根据上下文选择正确的翻译。
4.2 翻译策略语料库还可以揭示英汉语词汇翻译时的常见策略。
例如,当英语中使用具象词汇进行描述时,在汉语中一般会采用抽象词汇进行翻译,例如:“a brilliant idea”可以翻译为“一个很棒的想法”。
第五章:基于语料库的词汇教学和学习5.1 词义辨析的教学通过使用语料库,教师可以向学生展示英汉词汇的多义性,帮助学生理解并正确运用词汇。
基于语料库的汉语字词相关性研究盛玉麒一、概说文字是记录语言的书面符号系统。
"字母文字系统"通过记录语音实现对语言的记录。
字母本身就成为一个个的记音符号,被语言的音位系统赋予了"音"的属性。
汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由"口-耳"交际的符号系统转换成为"眼-口-耳"信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。
绝大多数汉字是一个个单音节的语素或词。
由于汉字记录汉语时不实行"分词连写",所以,在书面上,汉语的"字"、"语素"与"词"特别是"单音节词"以及词与词组之间存在界限不清的复杂关系。
"汉字本位"的中国传统语言学与"词语本位"的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的"词儿"几乎无法深入讨论"词法"、"句法"等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位"词儿"出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的"切分"、"定类"等基础研究方面,又遇到许多二难的障碍。
这个基本问题不解决,进一步的理论研究几乎是"沙上建塔"。
如果抛开汉字,单纯从"词"的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。
因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是"文字系统",仍然与实用的书面符号系统不同。
对于使用汉语汉字的人来说,已经形成了"汉字式"认知模式,甚至在口语中也时常少不了像"字眼儿"、"咬字吐词"、"字正腔圆"等以字代词、以词代字的说法。
因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。
本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。
从书面上看,汉语的"词儿"就是由一个或几个单字所组成的。
汉语语法无非是"组字成词"和"谴词造句"的方法。
语言本身是一个"习惯的系统"。
其中许多"规律"包括词语的创造原则与构成方式等都是"约定俗成"的。
这个"约定俗成"既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的"例外",如一些强制性的"积非成是"的习惯或语言事实。
以动词"吃"为例,既可以接所有能够用嘴吃的东西、也可以接属于"吞咽到胃里"东西、甚至可以接根本与"嘴"咀嚼无关的东西或事情:像"吃饭"、"吃烟"、"吃醋"、"吃闷棍"、"吃官司"、"吃回扣"、"吃这一?quot;,甚至"吃床腿"等等。
显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。
如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言事实中,不管是"规律"还是"例外",都符合一种"统计学的规律":例如一个"双音词",表现在书面上就是两个词,而且,这两个字必然经常连在一起出现;反之,如果两个字之间不构成一个词,那么,它们一般就不会经常在一起出现。
我们可以根据这个特点,找出字与字、词与词、字与词之间是否经常在一起出现的规律,也就是"字词相关性",将其推而广之,就可以发现书面汉语中的"词法"、"句法"甚至"章法"的组织与结构规律了。
汉语的"分词"是中文信息处理各个应用系统中经常遇到的一个难题。
如果不分词,关于汉语的词类划分、语法关系与规则的描写等,就没有了着落,语言的理解也就无从下手。
可是,在现实生活中,使用汉语的人一般好象不大注意"词儿","词"和"非词"的界限是比较模糊的;另一方面,也不大计较在一个句子中使用的是什么"词类"、是名词还是动词、是及物动词还是不及物动词。
即使在纠正病句时,通常也不说"你这里应当用动词、不应当用形容词";或者"这里应当用及物动词、不应当用不及物动词",等等。
人们注意的只是一个现成的语流中现实的字符串的合理性,或者叫"可理解性"。
这个合理性或"可理解性"可以从字词相关性中找出来。
另外,由于是使用汉字记录汉语,所以,说话时的同音词表现在汉字中一定用不同的同音字代替,例如:不能把"安徽"写成"安灰",也不能把"高兴"写成"高性"或"高姓"。
这说明汉字已经成为"专字专用"的一种书写符号系统。
一切关于现代汉语的研究都无法离开书面汉语,一切关于书面汉语的研究都不能离开汉字。
所以,从这个意义上说,关于现代汉语字词相关性的研究,是揭示现代汉语内在规律的重要途径。
字与字的相关性、字与词的相关性以及词与词的相关性可以归结为汉语的"马尔科夫"特征。
这是所有离散集合的一个普遍规律性特征。
运用这个特征,可以发现和解决"字本位"的传统语言学无法发现的问题,也可以发现和解决"词本位"的现代语言学对于书面汉语无法解决的问题。
笔者从1987年开始研究这个问题,通过研制《信息处理用现代汉语三万词语集》、《当代汉语流通频度词典》、《信息处理用现代汉语港台词语集》以及对《邓小平文选》、《十三经》、《红楼梦》、《金瓶梅》、《醒世姻缘传》等语料的抽样统计分析,探讨汉语字词相关性研究的科学性和可操作性,尝试解决自然语言理解和智能化中文信息处理中的语言规律问题。
本文汇报第一部分,向专家学者请教。
二、字字相关性汉语自然语言和话语是一些连续的"语音流"。
汉字通过记录汉语一个一个的音节,形成书面汉语的"汉字流"或"字符流"。
所有的汉字所组成的集合是一个离散元素的集合。
汉字字符之间联系的疏密程度各不相同。
每一个汉字与其它汉字字符之间的关系实际上是由语言的规律或规则决定的。
这些规律或规则就是汉语语法,包括词法和句法。
语言本身是一种约定俗成的符号系统,或者说是一种"习惯"的系统。
在这个系统中,约定的规则或规律从某种意义上说,完全是一种统计特征。
语言的规则或规律是一种"少数服从多数"的原则。
这种"多数原则"就是"统计学"的原则。
统计字与字的相关性,具体操作起来可以有多种方法,但是都不外乎是从定量的语料或文本中进行抽样统计。
把汉字放在实际语用环境中,找出该字与前后字符之间的相关性程度。
我们可以统计得到:(1)单字的使用频度(2)两个汉字"同现"(连用)的频度根据这两个指标,可以分析出连用的两个汉字具有什么程度的相关性。
可想而知,组成一个"双字词"的两个字一定经常在一起出现,它们之间的"同现概率"高,相关性就高;反过来说,同现频度高的两个字很有可能就是一个两字词。
比较极端的例子是一些连绵词,例如"蜿蜒"、"徘徊"、"崎岖"、"蜻蜓"之类,它们总是连在一起使用的,从来没有单个使用的情况。
因此,它们的单字出现的绝对频率也等于两个字同现的绝对频率。
但是,在汉语中,像连绵词这样的例子毕竟是少数,主要的都是既能单用的、又能搭配使用的,而且一个汉字往往与多个汉字搭配使用。
这样,这个汉字的单字频率,就分布在它所有相关同现的组合中了。
根据这些相关组合的出现频率,可以推知哪些相关性强、哪些相关性弱。
另一方面,在进行判断的时侯,还应当参考与之相关组合其它单字的使用频率,看该组合的频率占该字使用频率的比例。
三、意义分析如果我们把相关词表按降频排列,就可以发现,任何一个"字"的"相关字"都不同。
即使都与某些字相关,其相关系数也不相同。
因此,降频表就表现出"同码优选"的一种原则顺序和科学依据。
在中文信息处理各个应用领域中有许多问题,例如键盘输入中的"重码选择"、语音识别与语音合成中的"同模判断"、机器翻译与自然语言理解中的"歧义处理"等等,几乎都可以归结为"同码选择"问题,都可以通过建立相关词表来实现优选优化。
例1:从《邓小平文选》相关性统计表中选择的例子:(说明:字后的数字表示该组合出现的次数,下同)"我"字系列相关表举例1(仅举二级相关)我们 85 我军 12 我想 9 我对 3 我讲 3 我就 3 我在 3 我国 2们的 19 军队 101 想。
12 对派 6 讲的 12 就是 51 在军12 国家 9们军 13 军的 16 想, 6 对这 6 讲了 10 就不 12 在有10 国民 6们要 9 军要 8 想的 6 对宗 6 讲清 6 就要 8 在这10 国防 5们这 8 军内 7 想不 2 对他 5 讲, 5 就有 8 在一 8 国际 5们党 6 军里 5 想懒 2 对于 5 讲话 4 就会 5 在不 6 国人 3们有 6 军干 4 想是 2 对闹 3 讲到 3 就没 5 在战 4 国都 2们一 4 想体 2 对的 2 讲错 2 就好 4 在职 4 国工 2想问 2 对干 2 讲过 2 就更 3 在是 4 国国 2二级相关可以发现三字词语的使用情况,如"我们的"、"我们要"、"我对这"等等。