基于统计抽词和格律的全宋词切分语料库建立

格式：pdf
大小：199.54 KB
文档页数：8

下载文档原格式

基于Web检索的陕北民歌语料库设计

基于Web检索的陕北民歌语料库设计
张统宣
【期刊名称】《现代电子技术》
【年(卷),期】2010(33)22
【摘要】运用语料库语言学的基本观点,探讨陕北民歌语料库构建原则及Web管
理系统的设计实现设计了陕北民歌ACCess语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共3个.介绍语料库的在线检索和管理功能,提出字词频统计功能和Web在线检索功能实现的方法,开发基于ASP的陕北民歌
开放性语料库Web管理系统,用户可以方便地通过IE浏览器进行语料检索、词频
统计、语料提取等操作.
【总页数】3页(P38-39,41)
【作者】张统宣
【作者单位】渭南师范学院,南校区管理办公室,陕西,渭南,714000
【正文语种】中文
【中图分类】TN911-34;TP311
【相关文献】
1.基于Web的多媒体新闻语料库的建设与实施——以听力教学与研究为目的的设计模型 [J], 杨林伟;伍忠杰
2.基于WEB的对外汉语教学语料库建设及在线检索程序开发 [J], 卢伟
3.陕北民歌语料库构建及WEB管理系统设计 [J], 张统宣
4.基于WebGIS的公路设计图纸检索系统设计与实现 [J], 周孝军;孙兴华;杨少勇
5.基于Web的陕北白绒山羊辅助育种管理系统的设计与实现 [J], 徐东升;屈雷因版权原因，仅展示原文概要，查看原文内容请购买。

《全宋词》七十七字至八十三字中调词律研究

《全宋词》七十七字至八十三字中调词律研究词，是唐宋时代主要的文学形式之一，可以说是一种音乐文学，唐代开始出现，中晚唐时期逐渐发展成熟，在宋朝时发展到顶峰，这时词的内容大为扩展，形式题旨也日趋完善。

后在元、明两代衰落下去，清代重新迈入发展阶段。

词作为中国文学发展的辉煌成就，受到了学者们的关注，出现了以词作为研究对象的“词学”，然而，这门学科直到20世纪才逐渐地独立起来。

前人对宋词的研究主要是从文学的层面进行关注，而对词律或词韵的研究较少，当然也有如清代王奕清的《钦定词谱》、王力的《汉语诗律学》、羊基广的《词牌格律》等著名的词谱著作，它们在词学研究史上具有重要地位，但是也有一些问题。

如没能用穷尽式的研究方法对宋词进行搜索和总结，数量少，收录不全面，具有一定的片面性等。

本文主要从音韵学的角度来研究宋词。

以唐圭璋的《全宋词》为选调底本，同时参阅近年来词学海内外研究的新成果，运用文献研究法、统计法、历史比较法等研究方法，把《全宋词》中七十七至八十三字范围内符合要求的十三个词牌五百五十首词作为研究对象，将每一个字的声、韵、调标出，并标出平仄，进而总结出每个词牌的词调，指出其平仄格式和用韵情况，并与《钦定词谱》、《词牌格律》等著作进行比较研究，得出比较完备的词谱。

本论文具体的研究分为以下五个方面：第一部分，绪论。

这一部分分为了三节，第一节说明了本论文选题的缘由及意义，介绍了宋词的地位以及前人的研究成果，说明了本文的研究意义，第二部分对论文的研究材料和研究的内容做出了详细分析，第三部分介绍了本论文的研究创新点和研究方法。

第二部分，宋词简介。

这一部分对宋词的起源，词调词牌、词韵的相关知识进行了分析。

为下文的研究内容奠定理论基础。

第三部分，具体词谱格式分析。

这一部分是本论文的主要部分，也是创新部分，即对《全宋词》七十七字到八十三字中调的词律研究。

该部分运用穷尽式的研究方法，对《全宋词》中的十三个词牌五百五十首词进行了详细的分析和研究。

基于统计的汉语格律诗生成研究

表 1 词图举例
字符 1 字符 2 明媚
字符 3
字符 4 寻芳草
字符 5
晴光
鱼
蝶飞
花变新红
绽
∋
∋
∋
∋
∋
接着我们可以采用 Fo rw ar d V it erbi backw ard A* 算法得出 N 个候选首句, 例如∃ 晴光寻芳草%, ∃ 晴光鱼迎门%, ∃ 江山丽蝶飞%。
4 首句生成
5 二、三、四句诗歌生成
基于统计机器翻译的格律诗生成方法有一个缺憾: 无法生成诗的第一句。为了弥补此不足, 我们从古籍∀诗学含英#中获取了一个诗歌词汇库, 并设计了一个结合节奏模板和语言模型的首句生成模型。
本文接下来的内容是这样安排的: 第二节, 介绍了诗歌生成领域的相关工作; 第三节提出了诗歌生成的总体框架; 第四和第五节, 分别解释了首句生成模型和基于统计机器翻译原理的自动生成诗歌的模型; 第六节报告了实验的设计说明和评测结果, 并在最后一节给出了本研究的结论和未来改进的方向。
HE Jing1, 2 , ZHO U M ing2 , J IA NG L on g2
( 1. Institute fo r T heo retical Co mputer Science, T sing hua U niv ersity , Beijing 100084, China; 2. M icro soft Research A sia Sigma Center, Beijing 100190, China)
1 引言
中文格律诗作为中国悠久灿烂的古典文学的重要组成部分, 兼有中文的美感和艺术的灵感。然而格律诗的韵律要求十分严格, 给作诗造成了障碍。
本研究的目的是通过研究格律诗生成的内在规律, 利用计算机辅助进行格律诗的自动生成。

《2024年基于汉语语料库的中文词句快速检索算法研究》范文

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展，海量的中文信息数据不断涌现，如何快速、准确地从这些数据中检索出用户所需的词句成为了一个重要的研究课题。

基于汉语语料库的中文词句快速检索算法的研究，对于提高信息检索的效率与准确性，满足用户的需求具有重要意义。

本文旨在探讨基于汉语语料库的中文词句快速检索算法的研究，以期为相关领域的研究与应用提供参考。

二、汉语语料库的构建在进行中文词句快速检索算法研究之前，首先需要构建一个高质量的汉语语料库。

汉语语料库的构建应涵盖多个领域，包括新闻、小说、论文、博客等，以丰富词汇资源。

同时，要保证语料库的数据质量，避免错别字、不规范用词等问题。

此外，还需要对语料库进行预处理，包括分词、去除停用词等，以便于后续的算法研究。

三、中文词句快速检索算法研究1. 算法选择中文词句快速检索算法的选择是关键。

常见的算法包括基于倒排索引的检索算法、基于语义的检索算法等。

基于倒排索引的检索算法具有较高的检索速度，但存在语义理解不足的问题；而基于语义的检索算法则能够更好地理解词句的语义信息，但计算复杂度较高。

因此，需要根据具体需求选择合适的算法。

2. 算法优化针对中文词句快速检索算法的优化，可以从以下几个方面进行：(1) 优化索引结构：通过改进索引结构，提高检索速度和准确性。

例如，采用多级索引结构、压缩索引等方法。

(2) 语义理解：结合自然语言处理技术，提高算法对词句语义的理解能力。

例如，采用词向量、语义模型等方法。

(3) 优化查询策略：根据用户查询的特点，采用不同的查询策略，如智能查询、模糊查询等。

四、实验与分析为了验证基于汉语语料库的中文词句快速检索算法的有效性，我们进行了实验分析。

实验数据集采用大型汉语语料库，对比了不同算法在检索速度、准确率等方面的性能。

实验结果表明，优化后的算法在检索速度和准确率方面均有所提升。

五、结论与展望本文研究了基于汉语语料库的中文词句快速检索算法，通过构建高质量的汉语语料库和优化算法，提高了检索速度和准确率。

《基于汉语语料库的中文词句快速检索算法研究》范文

《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展，中文词句检索技术在众多领域得到了广泛应用。

在海量数据中快速、准确地检索出所需的词句信息，已成为当今研究的重要课题。

本文针对基于汉语语料库的中文词句快速检索算法进行研究，旨在提高检索效率和准确性，满足不同领域的应用需求。

二、汉语语料库概述汉语语料库是中文词句检索的基础。

本文所使用的汉语语料库应具备以下特点：1. 丰富性：包含各类文本资源，如新闻、小说、论文等，以支持不同领域的检索需求。

2. 准确性：词汇、语法等信息的标注应准确无误，以提高检索的准确性。

3. 更新性：随着新词汇、新表达方式的不断涌现，语料库应具备更新能力，以保持其时效性。

三、中文词句快速检索算法研究针对中文词句检索的特点，本文提出以下几种快速检索算法：1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。

该算法将文本中的词汇与其在文本中的位置信息进行关联，构建倒排索引表。

在检索时，根据用户输入的词句，快速查找倒排索引表，获取相关文本的位置信息，从而实现快速检索。

2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。

通过训练大量文本数据，得到词汇的向量表示。

在检索时，将用户输入的词句转换为向量表示，然后与语料库中的文本向量进行相似度计算，从而找到相关文本。

该算法可以充分考虑词汇的语义信息，提高检索的准确性。

3. 融合多种算法的混合检索策略针对不同领域、不同需求，可以采用融合多种算法的混合检索策略。

例如，先使用倒排索引进行初步筛选，再结合词向量模型进行精确匹配。

此外，还可以引入其他技术手段，如自然语言处理、知识图谱等，进一步提高检索的效果。

四、实验与分析为验证本文提出的中文词句快速检索算法的有效性，我们进行了实验分析。

实验数据来源于一个大型汉语语料库，实验环境为高性能计算机集群。

通过对比不同算法的检索速度、准确率、召回率等指标，我们发现：1. 基于倒排索引的检索算法在速度上具有明显优势，适用于大规模语料库的快速检索。

基于词汇语义分析的唐宋诗计算机辅助深层研究

构词结构的概念，将期的分词词典与构词法纳入统一的理论体系中，为今后进一步的
研究提供了理论基础。
关键词：
唐宋‘１机辅助研究，未翠录瞬自动提取：词汇语义分析，基于语料库，汉语构词法
Ａｂｓｔｒａｃｔ
ＴｈｅｃｏｍｐｕｔｅｒａｉｄｅｄｒｅｓｅａｒｃｈｗｏｒｋｏｆＣｈｉｎｅｓｅａｎｃｉｅｎｔｐｏｅｍｓｉｓａｌｏｎｇ－ｔｅｒｍｐｒｏｊｅｃｔｏｆＩＣＬ／ＰＫＵ．Ｔｈｅｗｏｒｋｉｎｃｌｕｄｅｄｉｎｔｈｉｓｐａｐｅｒｓｔａｒｔｆｒｏｍ１９９６．Ｔｈｉｓｒｅｓｅａｒｃｈｗｏｒｋｃａｎｂｅｖｉｅｗｅｄａｓａｎａｐｐｌｉｃａｔｉｏｎｄｒｉｖｅｎｐｒｏｊｅｃｔ．Ａｌｍｏｓｔａｌｌｔｈｅｗｏｒｋｓ，ａｔｔｈｅｂｅｇｉｎｎｉｎｇ，ｓｔａｒｔｅｄｗｉｔｈｔｈｅｒｅｑｕｉｒｅｍｅｎｔｏｆｔｈｅＣｏｍｐｕｔｅｒＡｉｄｅｄＡｎａｌｙｓｉｓＳｙｓｔｅｍｏｆＣｈｉｎｅｓｅＡｎｃｉｅｎｔＰｏｅｍｓａｎｄａｌｓｏ，ｉｎｔｈｅｅｎｄ，ｐｒｏｖｅｄａｎｄａｐｐｌｉｅｄｉｎｔｈａｔｓｙｓｔｅｍ．
ａｎｔｉｔｈｅｓｉｓｉｎｆｏｒｍａｔｉｏｎｉｓａｃｑｕｉｒｅｄａｕｔｏｍａｔｉｃａｌｌｙ．
２，Ｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅ｀ＣｏｍｐｕｔｅｒａｉｄｅｄｒｅｓｅａｒｃｈｓｙｓｔｅｍｏｆＣｈｉｎｅｓｅａｎｃｉｅｎｔｐｏｅｍｓ＇Ｂｅｓｉｄｅｓｔｈｅｆｕｌｌｔｅｘｔｒｅｔｒｉｅｖｉｎｇｆｕｎｃｔｉｏｎ，ｔｈｅｓｙｓｔｅｍｐｒｏｖｉｄｅＭＵ－ｂａｓｅｄｓｔａｔｉｓｔｉｃａｎａｌｙｓｉｓ，
性为入手点，通过统计的手段对词汇之间的语义相似性进行量化。进一步提出了语义距

高等师范学校古代汉语教学语料库建设

高等师范学校古代汉语教学语料库建设作者：张统宣来源：《价值工程》2011年第22期摘要：建设基于高等师范学校古代汉语教学的古代汉语语料库，可以为高等师范学校汉语言文学专业古代汉语教学中教学实践、教材编写、试题编写等工作提供可靠、科学的数据。

文章就语料库的语料选取、词性标记规范的设定、语料库应用进行了阐述。

Abstract: The construction of the corpus for Ancient Chinese Teaching in Highly Teachers College can offer reliable and scientific data for the teaching practices, textbook writing, and test making of Ancient Chinese Teaching in Highly Teachers College. This paper gives an elaboration of the materials selecting of the corpus, the set of the regularity of the part-of-speech marker, and the application of the corpus.关键词：古代汉语；语料库；词性标记；统计；检索Key words: Ancient Chinese；corpus；part-of-speech marker；statistics；search中图分类号：G42文献标识码：A文章编号：1006-4311（2011）２2-0264-020引言《古代汉语》是高等师范院校汉语言文学专业的必修课程，也是一门较难学的课程。

教师难教，学生难学。

“在语言学习中，语料库是例句的重要来源。

因为它们在学习的早期阶段就向学生展示了真实的交际情景中将会遇到。

基于框架的词语搭配自动抽取方法

基于框架的词语搭配自动抽取方法
曲维光;陈小荷;吉根林
【期刊名称】《计算机工程》
【年(卷),期】2004(30)23
【摘要】提出了一种基于框架的词语搭配抽取方法,可以同时获取词语搭配以及搭配结构信息.引入相对词序比(RRWR)的方法对候选搭配词语进行筛选,应用语言学中词语搭配组合规律对候选搭配的词性进行限定,利用互信息等统计学模型在大规模语料中进行词语搭配的自动抽取,抽取的搭配平均准确率为84.73%,较Xtract系统高4.7%,较国内同类工作结果高50.79%.并且在获得搭配的同时得到了词语搭配的结构信息.
【总页数】4页(P22-24,195)
【作者】曲维光;陈小荷;吉根林
【作者单位】南京师范大学文学院;南京师范大学计算机系,南京,210097;南京师范大学文学院;南京师范大学计算机系,南京,210097
【正文语种】中文
【中图分类】TP181
【相关文献】
1.基于五元组的词语搭配自动抽取 [J], 孙婷婷
2.基于词语搭配关系的一种中文分词歧义性消除方法 [J], 郭丙华;俞亚;李中华
3.基于统计模型的词语搭配自动获取方法的分析与比较 [J], 全昌勤;刘辉;何婷婷
4.基于混合语言信息的词语搭配倾向判别方法 [J], 王素格;杨安娜
5.基于语料库的词语搭配行为与语义韵研究:动向、视角与方法 [J], 支永碧;徐晓晴因版权原因，仅展示原文概要，查看原文内容请购买。

叙事生成方法研究综述

叙事生成方法研究综述诸峰;曹存根【摘要】随着人工智能和自然语言处理技术的飞速发展,近年来,关于叙事自动生成的研究逐渐被人们所关注和重视.该文介绍了叙事生成的相关概念、历史背景以及当前的研究现状,总结和归纳了目前主要的叙事生成研究方法,包括基于智能规划的方法、基于常识和知识本体的方法、基于故事文法的方法等.在此基础上,对各类方法的基本思想、相关工作及主要优缺点进行了深入的分析,并探讨了当前叙事生成研究中存在的不足及未来的发展趋势.【期刊名称】《中文信息学报》【年(卷),期】2013(027)003【总页数】8页(P33-40)【关键词】叙事生成;故事生成;叙事智能;自然语言生成【作者】诸峰;曹存根【作者单位】中国科学院计算技术研究所智能信息处理重点实验室,北京100190;中国科学院大学,北京100049;中国科学院计算技术研究所智能信息处理重点实验室,北京100190【正文语种】中文【中图分类】TP3911 引言叙事在人类生活中无处不在，它是人们将各种经验组织成有现实意义的事件的基本方式，是人们传递信息、交流感情、娱乐和教育的重要手段。

叙事的范围很广泛，一部小说、一个故事、一首诗歌、一部电影或一段对话等都可以称之为叙事，本文所讨论的叙事主要是指由事件组成的具有一定情节的故事。

所谓叙事生成，指的是利用计算机根据用户需求，生成并讲述个性化的叙事，使计算机能够在一定程度上模拟人类的叙事能力，其表现形式不仅仅局限于文本，也可以是图片、动画或影片等。

研究叙事生成，有助于我们解释和理解人类的认知、学习、创作、交流等高级智能，也有助于更好地满足人们生活娱乐、教育培训等不断增长的应用需求。

国外研究者对叙事生成的研究起步较早，早在上世纪70年代，耶鲁大学的Schank和Abelson就使用目标、规划和脚本研究叙事文本的理解，并提出了理解叙事文本的可计算模型[1]。

1976年，美国加州大学计算机与信息科学系教授Meehan开发了世界上第一个自动故事生成系统Tale-Spin，该系统中包含一些事先给定的故事人物，每个人物都有自己的目标和对其他人物的态度，在生成故事的过程中，每个人物不断尝试可以达到自身目标的操作，并对故事世界的变化做出反应，从而生成类似于伊索寓言类的故事[2]。

基于计量风格学的唐诗与宋词高频词的探究

基于计量风格学的唐诗与宋词高频词的探究1. 引言1.1 研究背景在当前信息时代，通过大数据技术对唐诗与宋词的高频词进行提取和分析，有助于我们更全面、更系统地认识古代诗词的文学特点和审美趣味。

这些研究成果不仅对于文学研究具有重要意义，还可以为语言学、计算机科学等领域提供有益借鉴和启示。

探究基于计量风格学的唐诗与宋词高频词的研究具有重要的理论和实践意义，有助于推动古代诗词研究的深入发展，丰富我们对中国文学的认识和理解。

1.2 研究意义诗词作为中国传统文化的瑰宝，承载着民族的情感和智慧。

通过对唐诗与宋词中高频词的研究，可以深入挖掘诗词中的内涵和风格特点，揭示古代诗人的创作思路和审美趣味，有助于更好地理解和传承中国文化。

基于计量风格学的研究方法结合现代技术手段进行诗词分析，可以使研究更加客观和科学。

通过大数据分析，可以找出诗词中高频出现的字词，从而揭示出唐宋诗词中的共性和特点，为文学研究提供新的视角和理论依据。

研究唐诗与宋词中的高频词，对于推动古诗词的传播和学习具有积极意义。

可以为古代文学作品的解读和翻译提供参考，使其更加深入人心，也可以为诗词教学提供案例和范本，丰富学生的文学修养和审美情趣。

通过对唐诗与宋词高频词的探究，不仅有助于加深对中国文学的理解和研究，也有助于促进文学传承与发展。

1.3 研究方法研究方法是任何一项研究的核心所在，它直接关系到研究的科学性和可靠性。

在本次研究中，我们采用了计量风格学作为主要分析工具，结合了计算机技术的支持，对唐诗与宋词中的高频词进行提取和研究。

具体而言，我们首先建立了唐诗与宋词的大型语料库，借助计算机程序对这些文本进行预处理和分析，提取出其中的高频词汇。

接着，我们运用统计学和计量学的方法，对这些高频词进行频率分布和词汇特征分析，探讨其在不同作品中的使用情况和特点。

我们还结合了诗词理论和文学批评的研究成果，对高频词汇所反映的诗歌风格和时代特征进行深入解读。

我们将通过对比分析和案例研究的方式，进一步验证计量风格学在诗词研究中的有效性和实用性，为研究成果的提升和学术发展的推动提供有力支持。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

（ "; 39JKL<=H 3MG99: 9J NB<OHC )CBPH=DBKQ，NB<OHC，.RSB<C &@"$$? ，/GBC<； !; 1CDKBKRKH 9J ,=KBJBMB<: 1CKH::BEHCMH 9J NB<OHC )CBPH=DBKQ，NB<OHC，.RSB<C &@"$$? ，/GBC<） /(%&2’;& ：5GH <CC9K<KHT M9=URD 9J 39CE VQC<DKQ U9HK=Q BD KGH J9RCT<KB9C 9J KGH M9OURKH=>W<DHT DKRTQ 9J 39CE VQC<DKQ U9HK> =Q; 1C 9R= U<UH=，LH U=9U9DH < CHL THJBCBKB9C 9J“ L9=T”BC KGH 39CE U9HK=Q <CT < CHL OHKG9T J9= KGH HDK<W:BDGOHCK 9J KGH <CC9K<KHT M9=URD; 5L9 <P<B:<W:H OHKG9TD，DK<KBDKBM<: L9=T HXK=<MKB9C <CT DHEOHCK<KB9C W<DHT 9C =R:HD <CT J9=OD，<=H K<YHC BCK9 M9CDBTH=<KB9C; 5GH J9=OH= BD <T9UKHT K9 HXK=<MK M:9DH:Q M9OWBCHT KL9>MG<=<MKH= L9=TD <CT HDK<W:BDG L9=T :BDKD M9OWBCBCE LBKG =H:<KHT =HD9R=MHD; ,CT KGH :<KKH=，M9OWBCHT LBKG KGH L9=T :BDKD，BD RDHT K9 DHEOHCK 39CE VQC<DKQ U9HK=Q; 1K BD DG9LHT WQ KGH HXUH=BOHCK<: =HDR:KD KG<K KGH OHKG9T <UU:BHT BC KGH U<UH= BD HJJHMKBPH; @#8 A-20%：M9OURKH= <UU:BM<KB9C；/GBCHDH BCJ9=O<KB9C U=9MHDDBCE；39CE 6=9DHD；<CC9K<KHT M9=URD；DK<KBDKBMD>W<DHT L9=T HXK=<MKB9C；=R:HD <CT J9=OD
!"# $%&’()*%"+#,& -. &"# /,,-&’&#0 1-234% -. 5-,6 78,’%&8 9-#&28 :’%#0 -, &"# 5&’&*%&*;’) <-20 $=&2’;&*-, ’,0 >4)#% ’,0 ?-2+%
! 3) ’BC>D9CE"，，F0() /G<CE>:H! ，-1 IB>G9CE!
［ "］果。北大计算语言所通过纯统计的方法将结合
折处，使上下句相连接，起过渡或联系作用的字。而其中的单字领字具有独立的意义，可以单独切分出来独立成词。例如： “ 过沙溪急，霜溪冷，月溪明” （作者：苏轼词牌：行香子）中的 “ 过” 就为单字领字，可以单独切分出来为词。（ ! ）诗词中含有大量的专有名词。这些字串都可以直接作为一个词汇单位，收录进词表。例如： “ 补天又笑女娲忙” （作者：辛弃疾词牌：归朝欢标题：题晋臣积翠岩）中的 “ 女娲” 为人名专有名词。（ % ）诗词中含有大量的典故。这些字串也可以直接作为一个词汇单位，收录进词表。例如： “ 骑鹤上扬州” 一句，来源于南朝梁殷芸《小说》卷六： “有客相从，各言所志，或愿为扬州刺史，或愿多赀财，或愿骑鹤上升。其一人曰： ‘ 腰缠十万贯，骑鹤上扬州。 ’ 欲兼三者。 ” 后以此比喻欲集做官、发财、成仙于一身，或形容贪婪、妄想。（ $ ）在语言发展过程中，有些字串也许刚开始不是作为一个词，但是由于它们结合紧密，使用稳定，并且往往有特定的含义，因而人们也把它们当作一个词了。对此，引入统计手段来衡量两个字之间的结合强度。如果这些相邻的二元字串结合强度足够大，则对其进行判断。例如： “ 落花、春水” 等在现代汉语中通常不被认为是词，但它们使用频度很高，具有明显的统计特征。分析发现，这类词汇一般都具有较为明确的隐喻义，完全可以将其收入进词表。另外一些词如 “ 牙床、小槽、代北” 等由于社会环境的变化，在现代汉语中已经不是词或词义发生根本变化，但在古汉语中的确是词，也要将其收入进
［ "］词表。
强度较强、使用稳定以及带有隐喻义的二字词抽取出来，为建立词表奠定了良好的基础；台湾地区元智
［ !］来切分诗大学罗凤珠教授则主要根据诗词格律
词。经过人工切分证实，这种方法的切分点绝大部分都是正确的，有助于分词。在此，本文参考以上两种方法，提出了结合以上两种方法的优点来建立宋词切分语料库。首先，对如何界定 “ 词” 提出了自己的看法；然后，分析宋词切分和格律之间的关系，建立词体格律数据库；再次，根据词体格律数据库把词句细分为子句，对子句字串进行统计，从中抽取结合强度较强的二字字串，并结合各种已有的词典资源来建立宋词词表；最后，根据古代诗词切分规则再对子句进行进一步细分，并根据词表来切分最后的子句。本文方法的主要框架流程如下：
［ +］，选择用互信息在九种常用的抽词统计量中
。
［ %］［ ’］
《钦定本文以潘慎等人编著的《词律辞典》、词谱》、龙榆生编著的《唐宋词格律》、王兆鹏等人编著的《宋词大辞典》和陆辅之编著《词旨》
［ !］
据库，该数据库共分为人名、地名、天文、时令、音乐、人伦、人事、闺阁、形体、文事、珍宝、建筑、服饰、饮食、草木百花 $’ 大类；以金启华等人编著的《全宋
［ *］和台湾地区元智大学罗凤珠教词典故考释辞典》
授的诗词典故资料数据库为基础，建立明典数据库。以上两个数据库共含有词条 ( *#% 条。 !# %" 统计抽词诗词中除了单字领字、专有名词和典故之外，有些字串结合紧密，使用稳定，并且代表特定的含义，因而也把它们当作一个词。对此，本文运用统计学的方法来抽取全宋词中的二字词。为了提高抽词的准确率，在统计抽词之前，需要对语料库进行预处理，主要包括：步骤 $ ) 查询词体句法数据库，根据对应词体句法的句法将词句细分为子句，同时标出词句中的单字领字，不参与统计抽词的计算。步骤 % ) 查询专有名词数据库和典故数据库，与词句进行匹配，标出其中含有的长度大于等于 % 的专有名词、典故，不参与统计抽词的计算。经过抽样统计，标出单字领字和长度大于等于 % 的专有名词、典故，正确率可以达到 +#, 。通过以上两个步骤，为统计抽词奠定了良好的基础。（ $ ）频率与互信息
第 !" 卷# 第 ! 期 !$$% 年 & 月
中文信息学报 ’()*+,- (. /01+232 1+.(*4,51(+ 6*(/2331+7
89:; !" ，+9; ! !$$% 4<=; ，
文章编号： "$$&>$$%% （ !$$% ） $!>$$?!>$@
基于统计抽词和格律的全宋词切分语料库建立
作者简介：苏劲松，男，硕士生，研究方向为计算语言学。万方数据（ "AZ! —）
!期
苏劲松等：基于统计抽词和格律的全宋词切分语料库建立
&%
（ " ）宋词中大量采用领字。领字是指在词意转
!" 全宋词切分语料库建立方法的提出
宋词语料库的建立必然会涉及到宋词的切分，在诗词切分方面，北大计算语言所与台湾地区元智大学都进行过相关研究并且取得了很好的研究成
不断发展，以语料库为基础的研究在语言学和计算
BC 引言
中国古代诗词是一种特殊文体的大众化文学形式，在汉语文化的成长、演变与传播中有着极重要的地位，而其中的宋词作为宋代文学的典范，赢得了众多文人骚客的青睐，成为中国古代诗词中的一颗璀璨的明珠。因此，通过对宋词进行研究进而了解宋代文化一直是语言文学研究工作者的一个研究热点。 !$ 世纪 Z$ 年代以来，随着计算机应用技术的
#" 全宋词中 “ 词” 的概念界定
要对全宋词进行分词，首先要明白如何对 “ 词” 进行界定。在研究中国古代诗词和现代汉语中对词汇的定义之后，可以发现以下 $ 种类型的字串可以万方数据切分为词：
’& 子句）。
中文信息学报
!""# 年
率，就需要建立专门的数据库来收集该类词语。
［ (］以王兆鹏等人编著的《宋词大辞典》为基础，［ !］结合前人所作的一些归纳，本文建立专有名词数
收稿日期： !$$@>$?>"$# 定稿日期： !$$@>"">"? 基金项目：国家自然科学基金资助项目（ @$&%&$Z$ ）
机科学研究中都取得了丰硕的成果。无论是在语言学研究还是自然语言处理领域，语料库都已经成为重要的基础资源，发挥了越来越重要的作用。正是基于以上认识，我们建立了全宋词语料库，结合宋词本身所具有的特点，并运用各项自然语言处理技术来进行宋词的计算机辅助研究。而这整个研究的基础就是宋词语料库的建立，可以说宋词语料库的建立具有非常重要的意义。