关于知网-中文信息结构库
- 格式:rtf
- 大小:46.42 KB
- 文档页数:3
中国知⽹介绍中国知⽹介绍⼀、知⽹系列资源1.《中国学术期刊⽹络出版总库》收录规模:全球最⼤的中⽂知识资源数据库,国家重中之重项⽬,收录学术期刊7000多种。
收录完整率:期刊种数完整率、核⼼期刊完整率、⽂献收录完整率、⽂献收录册数完整率、全⽂信息完整率均不低于99.9%。
收录年限:最早收录从1915年起,4000种期刊从创刊到⾄今全部收录,其余期刊为1994年⾄今。
出版更新:⽹络出版时间不迟于印刷版1.5个⽉,⽇均更新6000余篇。
产品标准:具有⾏业内⾸个产品标准, 2006年10⽉通过国家验收。
2.《中国博⼠学位论⽂全⽂数据库》收录范围:收录1999年以来全国具有博⼠学位授予权的博⼠学位论⽂。
⽂献总量:截⽌⽬前收录博⼠论⽂10万余篇。
论⽂质量:收录范围严格把关,对具有博⼠学位授予权的学科点的博⼠论⽂全部收录。
数据新颖:近三年数据占全部数据量的72%合作院所:合作的单位已达482家,其中设有博⼠培养点的单位373家。
与211院校合作率达到100%3.《中国优秀硕⼠学位论⽂全⽂数据库》收录范围:收录1999年以来全国具有博⼠学位授予权的硕⼠学位论⽂及全国⽆博⼠学位授予权单位的优秀硕⼠学位论⽂。
⽂献总量:截⽌⽬前收录硕⼠论⽂近70多万篇。
论⽂质量:收录范围严格把关,对具有博⼠学位授予权的学科点的硕⼠论⽂全部收录;有学科和研究特⾊的硕⼠点的硕⼠论⽂全部收录。
数据新颖:近三年数据占全部数据量的72%合作院所:合作的单位已达482家,其中设有博⼠培养点的单位373家。
与211院校合作率达到100%4.《中国重要会议论⽂全⽂数据库》资源完备:收录2000年以来⼆级以上学会、协会、⾼校和在国内召开的国际会议主办单位会议论⽂⽐例达85%以上。
2008年收录会议论⽂将达到94万篇。
内容权威:与国内90%以上⼀级学会合作,与中国科协95%以上⼀级学会合作。
数据新颖:⽹络出版时间平均不迟于会议结束之后2个⽉。
收录全⾯:收录学科全,理⼯类与⼈⽂类数据均完整收录。
1998年。
在党和国家领导以及教育部、中宣部、科技部、新闻出版广电总局、国以直接通过网络进行一次出版,出版形式多种多样,包括文本、图片、音频、视频、动画、软件、网络课程、科学数据等多种媒体方式。
目前,CNKI 已集结了7000 多种期刊、近1000 种报纸、18 万本博士/ 硕士论文、16 万册会议论文、30 万册图书以及国内外1100 多个专业数据库。
其中博士/ 硕士论文、会议论文及部分数据库为一次出版,期刊、图书、报纸等为二次出版。
如此大的网络出版规模在世界上也是绝无仅有的。
知识搜索编辑随着互联网的发展和网上信息量的增加,搜索引擎逐渐表现出自身的缺陷和不足。
一是搜索引擎对内容收录无法提出明确标准,信息质量良莠不齐,垃圾内容越来越多;二是搜索引擎主要是通过关键词匹配的简单方式查找网页,但是用户通常很难用几个孤立的关键词表达清楚自己的查询需求,而排序算法又主要基于网页的链接分析,因此,难以满足用户对内容准确检索的需求;三是用户更希望直接得到答案,而这只有深入理解文献内容后,才能实现。
针对用户的这些需求和搜索引擎的不足,CNKI 推出了知识搜索平台。
文献搜索基于对文献内容的详细标引,CNKI 文献搜索提供了对标题、作者、关键词、摘要、全文等数据项的搜索功能;文献搜索还提供了多种智能排序算法。
相关性排序考虑了文献引用关系、全文内容、文献来源等多种因素,使排序结果更合理。
被引频次排序是根据文献的被引频次进行排序;期望被引排序通过分析文献过去被引用的情况,预测未来可能受到关注的程度;作者指数排序则是根据作者发文数量、文献被引用、发文影响因子等评价作者的学术影响力,并据此对文献进行排序。
CNKI 文献搜索提供的知识聚类功能是一般搜索引擎没有的。
基于快速聚类算法,对返回结果的知识点进行聚类,并将主要知识点显示给用户,帮助用户改善搜索表达式,扩展搜索意图。
学术定义概念的定义是描述知识的一种基本单元,被称为定义型知识元。
三大中文数据库的文献类型第一家中文数据库是知网(中国知网)知网是中国最大的综合科技文献数据库,收录了各个学科领域的学术论文、期刊、博士、硕士论文、会议论文、报纸、年鉴、专利等不同类型的文献资源。
知网涵盖了从1952年至今的全文文献,拥有超过4亿篇全文文献资源,每天新增的文献达到了数以万计。
1. 学术论文:知网收录了各个学科领域的学术论文,涵盖了自然科学、工程技术、农业科学、医药卫生、哲学社会科学等众多学科领域。
学术论文是研究者发表研究成果、交流学术观点的重要形式,对于推动学术界的发展具有重要作用。
2. 期刊文献:知网收录了国内外各个学科领域的学术期刊,包括自然科学期刊、社会科学期刊、医学期刊等,涵盖了大量的学术研究成果。
期刊文献作为学术交流的重要载体,为研究者提供了一个发布和分享研究成果的平台。
3. 硕博士论文:知网收录了国内外的博士、硕士学位论文,这些论文是研究生们选择课题进行研究的成果总结,也是学术界关注的焦点。
硕博士论文的发表体现了研究生在学术研究方面的能力和造诣。
第二家中文数据库是万方数据库万方数据库是综合性的学术文献数据库,索引和提供了各个学科领域的学术论文、期刊、硕博士论文、会议论文等大量的中文文献资源。
1. 期刊文献:万方数据库收录了大量中文期刊的文献资源,包括自然科学、社会科学、医学、工程技术等学科领域的学术期刊。
期刊文献是学术交流的重要渠道,可以了解到最新的研究成果和学术动态。
2. 学术论文:万方数据库收集了各个学科领域的学术论文,包括自然科学、医学、工程技术等。
学术论文是学术研究的重要成果,可以了解到研究领域的最新进展和研究方法。
3. 硕博士论文:万方数据库收录了国内外的硕士和博士学位论文,这些论文是研究生们在特定领域进行研究的成果总结,可以了解到不同领域的研究方向和成果。
第三家中文数据库是CBM数据库CBM数据库是中国生物医学文献数据库,涵盖了生物医学领域的文献资源。
CBM数据库收录了生物医学期刊、硕博士论文、会议论文等各种类型的文献资源。
关于知网-中文信息结构库
董振东董强
《知网-中文信息结构库》的研究与建设,是《知网》这一知识系统向中文研究延伸的具体体现。
现在我们公布的中文信息结构库包含268种信息结构模式,附带着一万多实例,总字数六万余。
就其规模而言它还只能算是一个雏形,但就其所包含的模式而言应该说已趋于成熟。
中文信息结构库将是中文信息处理的重要的甚至是不可或缺的资源之一。
它也被我们称为袖珍型经典语料库,这是因为它的素材来源于实际语料,而另一方面又是经过人工精心筛选整理的,它覆盖面宽但又能避免统计价值不高的重复。
下面我们将对《知网-中文信息结构库》做出说明,
1.信息结构的描述对象
本库的基础是《知网》。
本库的信息结构的描述对象是:由中文词语所表述的、由《知网》所规定的最基本的运算单元,它们是:万物、部件、属性、属性值、事件、时间和空间等。
本库的信息结构的描述内容是:中文词语的各个组成部分之间的、由《知网》所规定的动态角色关系或属性。
通过对信息结构的揭示,我们可以认识到中文是如何描述诸如万物、部件、属性等等概念的,或如何由简及繁地表达意义的。
由此本库也将揭示中文的语言结构的规律。
2.本库现有规模
现在我们公布的中文信息结构库包含:
A. 信息结构模式:271个
B. 句法分布式:49个
C. 句法结构式:58个
D. 实例:11,000词语
E. 总字数:中文60,000字
3.说明
A. 本库可以认为是由两个文件组成的:(A)信息结构模式描述及例子;(B)信息结构模式的句法结构索引。
B.信息结构的获取
中文的信息结构将主要从大规模真实语料中抽取。
其方法简单地说其要点是:抽取虚词之间的语言片段,然后经人工选择,确定取舍。
我们的信息结构基本上是不可以包含虚词的,这有两点考虑:第一,汉语中的虚词与其他语言一样,由它们引导的短语,其自身多半可以表示相当明确的意义,如:各种介词,结构助词等。
第二,那将使结构模式的数量大大膨胀,以至难以控制,至少我们目前没有能力去建设那样大规模的语料库。
C. 术语解释
(a)信息结构
试以“走私集团”这样一个词语为例。
如果把其中的两个基本单元“走私”和“集团”,描述为定中结构,那么这是句法结构;如果把两个基本单元描述为“行为动作”和“施事”间的关系,那么这是语义关系结构;然而,如果不仅能反映“行为动作”和“施事”间的关系,
而且还能够反映出是“一个团体”“从事运送,这个运送且是一种罪行”,那么这就是我们所谓的信息结构(message structure)。
又如:“餐馆”--它的句法结构可以认为是由“餐”这一名词和“馆”这一名词构成的定中结构的词语;它的语义结构可以认为是“食物”这一概念对“场所”这一概念的限定;而信息结构不仅体现了上述语义结构表现的关系,更重要的是在这个结构中还隐性的包含一个行动的义元,并且这一行动的义元只能是“吃”,这样的结构将成为文本理解的基础。
由语言代表的信息结构是依赖于特定语言的。
(b) 句法分布式
由词性代表的词语基本单元的排列,如:“餐馆”这样的词语的排列为N1 + N2,而“走私集团”这样的词语的排列为V + N。
这里仅仅反映排列顺序,而不涉及管辖关系。
同一个句法分布式可能有多种不同的管辖关系,因此它可能是歧义的。
(c) 句法结构式
由词性代表的词语基本单元的排列以及它们之间的管辖关系。
如:“餐馆”这样的词语的句法结构式为N1 <-- N2,而“走私集团”这样的词语的句法结构式为V <-- N。
同一个句法结构式虽然只有同一的管辖关系,但由于可能会对应着不同的信息结构模式,因此它可能是歧义的。
例如,“餐馆”和“花园洋房”有着相同的句法结构式,即N1 <-- N2。
但它们的信息结构模式是不同的。
前者为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所),而后者为:(万物) [领属物] <-- (万物)。
(d) 信息结构模式
由义元代表的词语基本单元的排列以及它们之间的管辖关系。
如:“餐馆”这样的词语的信息结构模式为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所);又如“走私集团”这样的词语的信息结构模式为(事件,行动) <-- [施事] (人/拟人)。
信息结构模式跟句法分布式和句法结构式不一样,它们是没有歧义的。
不同的意义将由不同的信息结构模式来表达。
目前本库的基本状况也反映了这些特性,本库句法分布式有47个,句法结构式有57个,而信息结构模式有264个(应该还会多一些)。
D. 本库信息结构模式描述由下列部分构成:
(a) SYN_S= 表示相应的句法结构式
(b) SEM_S= 表示信息结构模式
(c) Query 和Answer:表示该信息结构模式传达的真正信息并由此可产生的问与答
(d)例子:给出符合该信息结构模式的真实语料的实例
E. 本库采用的标识
(a)词类标记:
N 名词 NUM 数词 CLAS 量词
V 动词 PREP 介词 CLASP 数量短语
A 形容词 PREFIX 前缀
ADV 副词 SUFFIX 后缀
(b)义元标记:
诸如“万物”、“事件”、“属性”、“属性值”等均来源于《知网》,这里不必赘述。
(c)动态角色和属性标记:
诸如“施事”、“经验者”、“时间”、“限定”、“发端”等均来源于《知网》,除此而
外,还有几个新增的,如:“合成”、“紧缩并列”等,它们意义明显,不必赘述。
(d)其他标识符:
(1)():其中放置义元标记如:(人,家) [修饰] <-- (人,专/专/姓);在Query中表示“或”。
(2){}:其中放置有多重套叠关系的词语或义元标记;
如:{N <-- V} <-- N
{(万物/属性) [受事/成品受事/范围/内容/对象/领属物] <-- (事件,行动)} <-- [施事] (人/组织/部件,%组织)
(3)[]:其中放置动态角色和属性标记;如:(人,家) [修饰] <-- (人,专/专/姓) (4)<>: 其中放置义元标记,这些义元标记仅出现于信息结构中,它们没有相对应的词语;如:{(事情) [受事]<-- <事件,行动,从事>}<-- [场所] (设施/组织) (5)<-- 和 -->:在句法结构和信息结构模式中应用,表示词语和义元之间的管辖关系。
标记的箭头端指向的是“受辖者(governed)”,后端指向的是“管辖
者(governor)”。
如:(人,家) [修饰] <-- (人,专/专/姓)
(6)/ :表示“或”,如:(人,专/专/姓);
(7), (英文逗号):表示“且”,如:(人,家);
(8),(中文逗号):用以间隔例子,如:夫-妇,母-女,母-子,
(9)-:用以间隔词语的各组成部分,如:猎-人,行-人,境外-毒品-走私-犯,
(10)“”:表示特定的词语而不是义元,如:(“嫌”/“员”/“局”/“队”/“处”);
在Answer中表示作答时要添加的词语,而不是可以从句法结构中直接得到
的。
(11)+:用于句法结构中或Answer中,表示“和”;
(12)词性N、V等后面的1、2、3等:表示句法结构中出现的多个N或V等的顺序;
鸣谢
知网-中文信息结构的理论研究开始于1996年。
1998年后曾得到国家语委97@YY001课题的支持,在词汇的内部结构方面进行较深入的探讨。
1999年开始得到香港大学教育资助委员会基金项目HKUST6149的支持,开展了中文信息结构库的全面建设。
在中文信息结构模式方面,有香港科技大学的颜国伟博士和汪炳蔚先生以及南洋理工大学的谭慧敏博士的积极参与。
他们的大规模真实语料的标注工作为信息结构库的检验、发现和补充做出了重要贡献。
加拿大学者Dekang Lin博士曾给我们寄来他从大规模真实语料中抽取的词语表,为信息结构库的建设提供了可贵的原始数据。
我们对上述各单位和学者表示由衷的感谢。
参考文献
(我们下面只列出在我们建设《知网-中文信息结构库》时,主要的、不可或缺的参考文献,而略去了在我们十余年研究过程中曾经参考和学习过的其他许多参考书。
)
[1] 现代汉语词典(修订本),中国社科院语言研究所词典编辑室,商务印书馆,1996
[2] 现代汉语通用字典,中国人民大学语言文字研究所,外语教学与研究出版社,1987
[3] 现代汉语语法信息词典详解,俞士汶等,清华大学出版社,1998
[4] 汉语常用词搭配词典,杨天戈等,外语教学与研究出版社,1990
[5] 汉语常用动词搭配词典,王砚农等,外语教学与研究出版社,1984
[6] 形容词用法词典,郑怀德等,湖南出版社,1991。