基于统计抽词和格律的全宋词切分语料库建立
- 格式:pdf
- 大小:199.54 KB
- 文档页数:8
基于Web检索的陕北民歌语料库设计
张统宣
【期刊名称】《现代电子技术》
【年(卷),期】2010(33)22
【摘要】运用语料库语言学的基本观点,探讨陕北民歌语料库构建原则及Web管
理系统的设计实现设计了陕北民歌ACCess语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共3个.介绍语料库的在线检索和管理功能,提出字词频统计功能和Web在线检索功能实现的方法,开发基于ASP的陕北民歌
开放性语料库Web管理系统,用户可以方便地通过IE浏览器进行语料检索、词频
统计、语料提取等操作.
【总页数】3页(P38-39,41)
【作者】张统宣
【作者单位】渭南师范学院,南校区管理办公室,陕西,渭南,714000
【正文语种】中文
【中图分类】TN911-34;TP311
【相关文献】
1.基于Web的多媒体新闻语料库的建设与实施——以听力教学与研究为目的的设计模型 [J], 杨林伟;伍忠杰
2.基于WEB的对外汉语教学语料库建设及在线检索程序开发 [J], 卢伟
3.陕北民歌语料库构建及WEB管理系统设计 [J], 张统宣
4.基于WebGIS的公路设计图纸检索系统设计与实现 [J], 周孝军;孙兴华;杨少勇
5.基于Web的陕北白绒山羊辅助育种管理系统的设计与实现 [J], 徐东升;屈雷因版权原因,仅展示原文概要,查看原文内容请购买。
《全宋词》七十七字至八十三字中调词律研究词,是唐宋时代主要的文学形式之一,可以说是一种音乐文学,唐代开始出现,中晚唐时期逐渐发展成熟,在宋朝时发展到顶峰,这时词的内容大为扩展,形式题旨也日趋完善。
后在元、明两代衰落下去,清代重新迈入发展阶段。
词作为中国文学发展的辉煌成就,受到了学者们的关注,出现了以词作为研究对象的“词学”,然而,这门学科直到20世纪才逐渐地独立起来。
前人对宋词的研究主要是从文学的层面进行关注,而对词律或词韵的研究较少,当然也有如清代王奕清的《钦定词谱》、王力的《汉语诗律学》、羊基广的《词牌格律》等著名的词谱著作,它们在词学研究史上具有重要地位,但是也有一些问题。
如没能用穷尽式的研究方法对宋词进行搜索和总结,数量少,收录不全面,具有一定的片面性等。
本文主要从音韵学的角度来研究宋词。
以唐圭璋的《全宋词》为选调底本,同时参阅近年来词学海内外研究的新成果,运用文献研究法、统计法、历史比较法等研究方法,把《全宋词》中七十七至八十三字范围内符合要求的十三个词牌五百五十首词作为研究对象,将每一个字的声、韵、调标出,并标出平仄,进而总结出每个词牌的词调,指出其平仄格式和用韵情况,并与《钦定词谱》、《词牌格律》等著作进行比较研究,得出比较完备的词谱。
本论文具体的研究分为以下五个方面:第一部分,绪论。
这一部分分为了三节,第一节说明了本论文选题的缘由及意义,介绍了宋词的地位以及前人的研究成果,说明了本文的研究意义,第二部分对论文的研究材料和研究的内容做出了详细分析,第三部分介绍了本论文的研究创新点和研究方法。
第二部分,宋词简介。
这一部分对宋词的起源,词调词牌、词韵的相关知识进行了分析。
为下文的研究内容奠定理论基础。
第三部分,具体词谱格式分析。
这一部分是本论文的主要部分,也是创新部分,即对《全宋词》七十七字到八十三字中调的词律研究。
该部分运用穷尽式的研究方法,对《全宋词》中的十三个词牌五百五十首词进行了详细的分析和研究。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息数据不断涌现,如何快速、准确地从这些数据中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法的研究,对于提高信息检索的效率与准确性,满足用户的需求具有重要意义。
本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究,以期为相关领域的研究与应用提供参考。
二、汉语语料库的构建在进行中文词句快速检索算法研究之前,首先需要构建一个高质量的汉语语料库。
汉语语料库的构建应涵盖多个领域,包括新闻、小说、论文、博客等,以丰富词汇资源。
同时,要保证语料库的数据质量,避免错别字、不规范用词等问题。
此外,还需要对语料库进行预处理,包括分词、去除停用词等,以便于后续的算法研究。
三、中文词句快速检索算法研究1. 算法选择中文词句快速检索算法的选择是关键。
常见的算法包括基于倒排索引的检索算法、基于语义的检索算法等。
基于倒排索引的检索算法具有较高的检索速度,但存在语义理解不足的问题;而基于语义的检索算法则能够更好地理解词句的语义信息,但计算复杂度较高。
因此,需要根据具体需求选择合适的算法。
2. 算法优化针对中文词句快速检索算法的优化,可以从以下几个方面进行:(1) 优化索引结构:通过改进索引结构,提高检索速度和准确性。
例如,采用多级索引结构、压缩索引等方法。
(2) 语义理解:结合自然语言处理技术,提高算法对词句语义的理解能力。
例如,采用词向量、语义模型等方法。
(3) 优化查询策略:根据用户查询的特点,采用不同的查询策略,如智能查询、模糊查询等。
四、实验与分析为了验证基于汉语语料库的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据集采用大型汉语语料库,对比了不同算法在检索速度、准确率等方面的性能。
实验结果表明,优化后的算法在检索速度和准确率方面均有所提升。
五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法,通过构建高质量的汉语语料库和优化算法,提高了检索速度和准确率。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
高等师范学校古代汉语教学语料库建设作者:张统宣来源:《价值工程》2011年第22期摘要:建设基于高等师范学校古代汉语教学的古代汉语语料库,可以为高等师范学校汉语言文学专业古代汉语教学中教学实践、教材编写、试题编写等工作提供可靠、科学的数据。
文章就语料库的语料选取、词性标记规范的设定、语料库应用进行了阐述。
Abstract: The construction of the corpus for Ancient Chinese Teaching in Highly Teachers College can offer reliable and scientific data for the teaching practices, textbook writing, and test making of Ancient Chinese Teaching in Highly Teachers College. This paper gives an elaboration of the materials selecting of the corpus, the set of the regularity of the part-of-speech marker, and the application of the corpus.关键词:古代汉语;语料库;词性标记;统计;检索Key words: Ancient Chinese;corpus;part-of-speech marker;statistics;search中图分类号:G42文献标识码:A文章编号:1006-4311(2011)22-0264-020引言《古代汉语》是高等师范院校汉语言文学专业的必修课程,也是一门较难学的课程。
教师难教,学生难学。
“在语言学习中,语料库是例句的重要来源。
因为它们在学习的早期阶段就向学生展示了真实的交际情景中将会遇到。
基于框架的词语搭配自动抽取方法
曲维光;陈小荷;吉根林
【期刊名称】《计算机工程》
【年(卷),期】2004(30)23
【摘要】提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息.引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进行词语搭配的自动抽取,抽取的搭配平均准确率为84.73%,较Xtract系统高4.7%,较国内同类工作结果高50.79%.并且在获得搭配的同时得到了词语搭配的结构信息.
【总页数】4页(P22-24,195)
【作者】曲维光;陈小荷;吉根林
【作者单位】南京师范大学文学院;南京师范大学计算机系,南京,210097;南京师范大学文学院;南京师范大学计算机系,南京,210097
【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于五元组的词语搭配自动抽取 [J], 孙婷婷
2.基于词语搭配关系的一种中文分词歧义性消除方法 [J], 郭丙华;俞亚;李中华
3.基于统计模型的词语搭配自动获取方法的分析与比较 [J], 全昌勤;刘辉;何婷婷
4.基于混合语言信息的词语搭配倾向判别方法 [J], 王素格;杨安娜
5.基于语料库的词语搭配行为与语义韵研究:动向、视角与方法 [J], 支永碧;徐晓晴因版权原因,仅展示原文概要,查看原文内容请购买。
叙事生成方法研究综述诸峰;曹存根【摘要】随着人工智能和自然语言处理技术的飞速发展,近年来,关于叙事自动生成的研究逐渐被人们所关注和重视.该文介绍了叙事生成的相关概念、历史背景以及当前的研究现状,总结和归纳了目前主要的叙事生成研究方法,包括基于智能规划的方法、基于常识和知识本体的方法、基于故事文法的方法等.在此基础上,对各类方法的基本思想、相关工作及主要优缺点进行了深入的分析,并探讨了当前叙事生成研究中存在的不足及未来的发展趋势.【期刊名称】《中文信息学报》【年(卷),期】2013(027)003【总页数】8页(P33-40)【关键词】叙事生成;故事生成;叙事智能;自然语言生成【作者】诸峰;曹存根【作者单位】中国科学院计算技术研究所智能信息处理重点实验室,北京100190;中国科学院大学,北京100049;中国科学院计算技术研究所智能信息处理重点实验室,北京100190【正文语种】中文【中图分类】TP3911 引言叙事在人类生活中无处不在,它是人们将各种经验组织成有现实意义的事件的基本方式,是人们传递信息、交流感情、娱乐和教育的重要手段。
叙事的范围很广泛,一部小说、一个故事、一首诗歌、一部电影或一段对话等都可以称之为叙事,本文所讨论的叙事主要是指由事件组成的具有一定情节的故事。
所谓叙事生成,指的是利用计算机根据用户需求,生成并讲述个性化的叙事,使计算机能够在一定程度上模拟人类的叙事能力,其表现形式不仅仅局限于文本,也可以是图片、动画或影片等。
研究叙事生成,有助于我们解释和理解人类的认知、学习、创作、交流等高级智能,也有助于更好地满足人们生活娱乐、教育培训等不断增长的应用需求。
国外研究者对叙事生成的研究起步较早,早在上世纪70年代,耶鲁大学的Schank和Abelson就使用目标、规划和脚本研究叙事文本的理解,并提出了理解叙事文本的可计算模型[1]。
1976年,美国加州大学计算机与信息科学系教授Meehan开发了世界上第一个自动故事生成系统Tale-Spin,该系统中包含一些事先给定的故事人物,每个人物都有自己的目标和对其他人物的态度,在生成故事的过程中,每个人物不断尝试可以达到自身目标的操作,并对故事世界的变化做出反应,从而生成类似于伊索寓言类的故事[2]。
基于计量风格学的唐诗与宋词高频词的探究1. 引言1.1 研究背景在当前信息时代,通过大数据技术对唐诗与宋词的高频词进行提取和分析,有助于我们更全面、更系统地认识古代诗词的文学特点和审美趣味。
这些研究成果不仅对于文学研究具有重要意义,还可以为语言学、计算机科学等领域提供有益借鉴和启示。
探究基于计量风格学的唐诗与宋词高频词的研究具有重要的理论和实践意义,有助于推动古代诗词研究的深入发展,丰富我们对中国文学的认识和理解。
1.2 研究意义诗词作为中国传统文化的瑰宝,承载着民族的情感和智慧。
通过对唐诗与宋词中高频词的研究,可以深入挖掘诗词中的内涵和风格特点,揭示古代诗人的创作思路和审美趣味,有助于更好地理解和传承中国文化。
基于计量风格学的研究方法结合现代技术手段进行诗词分析,可以使研究更加客观和科学。
通过大数据分析,可以找出诗词中高频出现的字词,从而揭示出唐宋诗词中的共性和特点,为文学研究提供新的视角和理论依据。
研究唐诗与宋词中的高频词,对于推动古诗词的传播和学习具有积极意义。
可以为古代文学作品的解读和翻译提供参考,使其更加深入人心,也可以为诗词教学提供案例和范本,丰富学生的文学修养和审美情趣。
通过对唐诗与宋词高频词的探究,不仅有助于加深对中国文学的理解和研究,也有助于促进文学传承与发展。
1.3 研究方法研究方法是任何一项研究的核心所在,它直接关系到研究的科学性和可靠性。
在本次研究中,我们采用了计量风格学作为主要分析工具,结合了计算机技术的支持,对唐诗与宋词中的高频词进行提取和研究。
具体而言,我们首先建立了唐诗与宋词的大型语料库,借助计算机程序对这些文本进行预处理和分析,提取出其中的高频词汇。
接着,我们运用统计学和计量学的方法,对这些高频词进行频率分布和词汇特征分析,探讨其在不同作品中的使用情况和特点。
我们还结合了诗词理论和文学批评的研究成果,对高频词汇所反映的诗歌风格和时代特征进行深入解读。
我们将通过对比分析和案例研究的方式,进一步验证计量风格学在诗词研究中的有效性和实用性,为研究成果的提升和学术发展的推动提供有力支持。