当前位置：文档之家› 第三章WORD简介

第三章WORD简介

WordNet发展概况

一、WordNet发展概况 ·关于WordNet的不成熟的想法可以追溯到20多年前，而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始，WordNet作为一个知识工程全面展开。不过，当时的WordNet和经过10多年后今天的WordNet还是很不一样的。 ·这一工程最初的前提之一是“可分离性假设”（Separability hypothesis），即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们，在词语水平上可以得到有用的研究成果。词库（词典，lexicon）当然不是完全独立于其他语言成分的，但它的确是可以从其他成分中分离出来的。例如，尽管语音和语法知识在一个人的早年生活中就成型了，但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。 ·另一个前提是“模式假设”（patterning hypothesis）：一个人不可能掌握他运用一种语言所需的所有词汇，除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问，现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论，并以20到50个英语单词为例来展示他的理论，而留下另外10万个单词让读者去做练习。 ·第三个前提就是所谓的“广泛性假设”（comprehensiveness hypothesis）：计算语言学如果希望能像人那样处理自然语言，就需要像人那样储存尽可能多的词汇知识。 ·建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学（componential lexical semantics）的方法（也可译为义素分析法）。这种方式把一个词的意义分析为更小的概念原子的组合。不过，定义一套概念原子却非易事。事实上，WordNet主帅https://www.doczj.com/doc/d312901716.html,ler在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法，但直到1985年，仍然没有能够出笼一个完整的定义清晰的清单，在上面列举出所有的概念原子。 ·到1985年，许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如：“桌子”（table）和“家具”（furniture）代表两个节点（node），而这两个节点之间有一个箭头（dart）来表示这样的命题：桌子是一种家具（a table is a kind of furniture），即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多，越来越多的人自觉地意识到：除了利用语义成分（义素分析法）表示语义，还可以利用关系来表示语义（基于关系的词汇语义学relational lexical semantics），而且后者有可能替代前者。 ·在WordNet的早期阶段，研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用，而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候，他们就编制了应用软件来把想法变成现实。实际上，在早期，Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点，并探索其中的语义关系模式。当时的想法是，如果得到了正确的语义关系模式，词语的定义就能从中推理出来，因此，对于一个有关词义的关系网来说，词义的定义是多余的。 ·在1978年的时候，Miller描述了一种“自动化词典”（automated dictionary）的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会，Spencer基金会，IBM 公司沃盛研究中心（Watson Research Center）的支持，Miller得以一直保持着他的想法，而没有中途放弃。到1984年的时候，Miller甚至在IBM PC机上做出了45个名词的小型语义网，他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在

亚马逊kindle 3使用技巧(使用前必读)

亚马逊kindle 3 3G版使用技巧（霓裳爱读原创）一、使用中的一些小技巧（使用前最好看一下）： 1、为了让机器在多看系统下看书时间更长，从原系统切换到多看系统的时候最好把3G信号关闭，方法：按home键——menu键——选择turn wareless off 就可以了。选择这个选项就把3G和wifi信号都关闭了。 2、如果想在多看系统下看书的时候翻页不黑屏，按home键——menu 键——选择“系统设置”——翻页方式里面选择“瞬翻”，这样翻页就不会黑屏了。系统默认是翻10页黑一次，可以自由设定其他翻页次数。 3、如何从原系统切换到多看系统按home键——menu键——选择settings——然后再按menu键——选择restart 就可以了。 4、如何从多看系统切换到原系统按home键——menu键——选择“系统设置”——第一页最上方有个“切换到kindle系统”，选择这一项就可以了。 5、保护屏幕注意事项：不要把钥匙和其他尖锐物体和机器一起放在包里，套上皮套也不行。在床上看书一定要注意看完之后把机器放到盒子或者桌子上，否则一翻身很容易压到屏幕。油墨屏很薄，并且背面蒙了一层玻璃，不能受太大的压强，千万要注意！！！

6、千万不要用机器下载亚马逊官网的免费书，因为注册的是美国地址，但是到亚马逊官网下载图书的时候服务器显示的IP地址是中国的，他们会发确认信，所以千万不要这样做。

一、原系统使用技巧 1、原系统支持图书格式： Pdf、txt（utf-8格式）、mobi、prc 2、原系统上网教程：按home键-然后按menu键-选择search 就会出现网页输入框。输入网址之后，选择go to web 就行了。 3、原系统上网技巧：在机器网页输入框输入https://www.doczj.com/doc/d312901716.html,网站，然后注册一下，登录之后在浏览设置里面设置好适合自己的网页大小。这样就可以解决亚马逊只能单网页浏览和网页字体小等问题。土豆详细视频教程： https://www.doczj.com/doc/d312901716.html,/programs/view/euUYpSYMff0/?resourceId=5 8836300_06_11_99&rpid=58836300 4、kindle 3资源盘附赠20部字典目录（支持划词翻译） 1.Collaborative International Dictionary 2.Webster's Revised unabridged Dictionary 3. NCCE-EC 新世纪英汉科技大词典 https://www.doczj.com/doc/d312901716.html,ngDao-EC-GB 朗道英汉字典 5.21shiji 21世纪英汉汉英双向词典 6.Merriam Wester Colegiate 7.OALD4-CN 牛津高阶英汉双解词典 8.法汉字典

基于Wiki的本体构建方法

第30卷第8期通化师范学院学报Vol.30№8 2009年8月JOURNAL OF T ONGHUA TEACHERS COLLEGE Aug.2009 基于W iki的本体构建方法于江涛,毛慧珍 (通化师范学院计算机科学系,吉林通化134002) 摘　要:该文提出一种本体构造环境方案,在W iki pedia的基础上加入本体构造用户接口,降低用户构造本体的门槛,使用户在建立概念的同时创建本体.系统以OWL本体形式存储、管理和共享知识,还可以以系统已有概念为字典,对相关本体领域相关文本进行本体学习,自动建立本体. 关键词:本体构建;W iki;用户驱动;本体学习中图分类号:TP311　文献标志码:A　文章编号:1008-7974(2009)08-0019-02 收稿日期:2009-06-01 作者简介:于江涛(1969-),男,硕士,通化师范学院计算机科学系副教授. 1　引言本体(Ont ol ogy)是当前人工智能研究领域的热点,是解决知识工程中一些问题的有效方法.它的优势体现在可以用于不同领域内的人之间的交流和知识共享,可用于语义网进行语义判断,还可对知识进行管理.本体的构建是本体应用的前提,一直是个烦琐的过程.传统上为了保证本体的正确性,领域本体的构建都需要领域专家的参与.然而仅靠少数领域专家的参与难以实现领域本体构建的繁重任务[1],更不用说实现本体工程. 仅有少部分人来构建本体,主要存在两个问题:①本体的创建过程不在其用户的完全控制之内,一旦被发现有错误,发现者往往不能自已修改,而要求助于少部分人的本体建造者;②本体使用者不能抓住本体的重要性质,本体不能更好的满足用户的需要.因此,在允许少量误差前提下,我们需要更快捷的方法得到大范围的领域本体.这便需要降低本体产生和维护工具的使用门槛,使更多人的参与进来. 本文提出了基于W iki技术的本体构建方法,用户可以通过模仿自然语言中词汇的出现过程来完成本体的建立,就像任何人都能发明一个自然语言中的词汇,任何人都可以依靠W iki技术建立自己的本体.经过一次次的修改最终成为最完善和满足用户需要的本体.该方法以OWL本体来存储概念,在W iki pedia的基础上加入本体构件的用户接口,用户在建立概念的同时就建立了本体. 2　基于W iki的本体构造方法设计界面类似于Platypus W iki(Platypus W iki 是一个Sem antic W iki W iki W eb工程[2]),但提供更丰富的OWL Full抽象语法,需要用自然语言的名称,以期不需要高的应用门槛.当使用W iki 建立一个新的概念(C lass)时,会提示记录父类(subC lass O f),当然也可以新建父类.如果其父类已经存在就取其父类的属性(Property)来指导该类属性的建立.继而对属性建立dom ain,range等等.同时对概念给出解释性自然语言描述,最终产生OWL交换语法描述和解析树.OWL本体可供修改和共享. 虽然任何人都可以对概念或者本体进行修改甚至删除,但W iki引入版本控制概念,所以任何版本的信息都会被保存下来.引入用户投票机制,让相关概念的使用者以自己的评价权重对已有本体进行评价,得到评价最高的本体作为相关概念的系统推荐本体.本体的评价高低又反过来决定其作者的评价权重. 当系统的本体规模足够大时,可以依托这些本体作为基本概念的字典,对欲建立的某新概念,指定相关领域网站,利用网络爬虫抽取与之链接网站中的文本,从相关文本中抽取对概念的描述语句,不断进行本体学习,自动建立相关概念的本体.该本体的准确性虽然略低,但可以作为用户建立相关本体时的参考,有指导作用,至少可以减少欲建立该本体的用户的工作量.当前在本体自动构建方面做的比较好的是Ont o W are Pr oject的text2ont o,它以WordNet 为字典,利用text m ining从大量文本资源中得到相关概念的描述信息,自动建立出该领域的本体[3,4]. ? 9 1 ?

wordnet关系词

English Chinese list of wordnet-related terms 3.3.1 A 各类词网| B 词义关系| C 词类及其他术语| D 语意属性A 各类词网 Bilingual Wordnet (Bi-WN) 双语词网 Chinese Wordnet (CWN) 汉语词网 EuroWordNet (EWN) 欧语词网 WordNet (WN) 词网（特指Princeton WN） B 词义关系 antonym 【反义词】 antonymy反义关系 autoantonymy反义多义（关系） autohyponymy下位多义（关系） hypernym【上位词】泛称词 hypernymy上位关系 hyponym 【下位词】特指词 hyponymy 下位关系 holonym整体词 holonymy整体－部份关系 meronym部份词 meronymy部份－整体关系 metonym 转指词 metonymy 转指关系 near-synonym 近义词 near-synonymy 近义关系 polysemy 【多义性】 synonym 【同义词】 synonymy同义关系 taxonomy 分类架构 troponym方式词 troponymy方式关系 C 词类及其他术语 adjective 【形容词】 adverb 【副词】 agreement 【对谐】，一致性

algorithm 【算法／算法】 ambiguity 歧义 associations 关联 attributes 【属性】 auxiliary verbs 助动词 basic-level categories 基层范畴，底层范畴 buffers 【缓冲区】 case propagation 格位相沿，格位沿袭 categories 范畴 causative 【使动】 cause relation 因果关系 cause 原因 change-of-state verbs 易态动词 collocations 【连用语】 common nouns 普通名词 component-object meronyms组成部份（关系）compounds 复合词 concepts概念 conceptual semantic relation 概念语意关系concordances【关键词（前后文）排序】，汇编connectivity 连结性 constraints 【限制】 context 【语境】，上下文 co-occurrence 共现 count nouns 可数名词 cousins in hyponyms 特指亲属，下位亲属 data mining 数据挖掘 database 数据库 decomposition 分解 derived adverbs 衍生副词 descriptive adjectives 描述性形容词 determiners 限定符 dictionaries 辞典 disambiguation 排歧 distance in lexical trees 词汇树间距 domain-specific knowledge 特定领域知识，领域知识encyclopedic knowledge 百科全书知识，通识知识entail 蕴涵 entailment 【蕴涵】 entry 词条 euphemisms 委婉用法 exceptions 例外 factive叙实 familiarity index 熟悉度索引

知网学习阶段总结--高梦娇

这段时间主要做的是对知网（Hownet）的全面了解，以及对本体建设工具protégé的简单应用。通过对知网和WordNet的了解，我发现知网和WordNet的建设方式是截然不同的。知网对每个概念的定义是通过这个概念使用时的具体的语义环境来加以限制的。通过限制概念使用时所需要的其他语义来定义每个概念。而WordNet则是通过对词语的解释，以及概念的上下位关系，同义反义关系等关系来定义每个词语。学会使用protégé，可以用他来建设自己的词汇本体的时候，我觉得可以结合知网和WordNet，对每个概念的定义中，既要体现它的各种关系词，同时还要用每个概念使用时的具体的语义环境对概念加以限定。下一步的任务就是进一步学习protégé，掌握它的具体功能，争取尽快建立一种新的结合了知网思想和WordNet思想的词汇本体。主要参考资料是知网中文版官方网站https://www.doczj.com/doc/d312901716.html,/html/c_index.html，另外还有一些文章包括《知网简介》，《知网的理论发现》，《KDML-知网知识系统描述语言》，《建设中文词汇语义资源中的一些问题和我们的对策》，《一个基于概念的中文文本分类模型》，《基于知网的词汇语义相似度计算》，《WordNet与hownet之关系比较》等。下面是我对知网和protégé应用的具体总结。一．对知网的全面了解的总结 1.关于知网的基本介绍知网是一种词汇本体。知网（英文名称为Hownet）是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是知网的最基本的构成单位，同时也是知网中不能分割的最小单位。知网知识描述语言（KDML）是用来描述知网系统中所有概念的特定语言。知网中每一个概念都是通过KDML，利用义原进行逐一的、孤立的定义的。例如：以概念“打”的定义为例： W_C=打//中文词语 G_C=V //中文词语词性 E_C=~酱油，~张票，~饭，去~瓶酒，醋~来了//中文词语例子 W_E=buy //英文词语 G_E=V // 英文词语词性 E_E= //英文词语例子 DEF=buy|买// 概念定义 2.知网义原的选取首先，知网中义原的选择和取舍是基于主观选择的。义原是从4000个汉字的义项（一个词往往具有几个意义，每一个意义就是一个义项）中抽取，经过人工的观察，挑选，合并同类项最终得到的。知网中的义原一共有2199个。选取出来的义原又被分为实体类（如“human|人”），事件类（如“lose|失去”），属性类（如“form|形状”），属性值类（如“fragrant|香”）。这部分知识可以通过《知网简介》和《知网的理论发现》进行进一步了解。 3.知网知识描述语言（KDML） KDML语言规则中详细规定了事件类、实体类、属性类、属性值类概念的描述方法，同时还规定了几种特定的标识符（如“，”“；”“=”）、几种特殊的指示符号（如“~”“？”“$”）和各种动态角色（如“agent”“host of”）的使用方法。

WordNet_的同义词典实现同义词检索(C#版)

同义词检索应该很多时候会用得上的，举个简单的例子，我们搜索关键字good 的时候，与well 和fine 等的词条也可能是你想要的结果。这里我们不自己建立同义词库，直接使用WordNet 的同义词库，本篇介绍C# 版的实现步骤，还会有续篇--Java 版。由于Lucene 是发源于Java，所以C# 的应用者就没有Java 的那么幸福了，Java 版已经有3.0.2 可下载，C# 的版本还必须从SVN 库里：https://https://www.doczj.com/doc/d312901716.html,/repos/asf/lucene/https://www.doczj.com/doc/d312901716.html,/tags/https://www.doczj.com/doc/d312901716.html,_2_9_2/ 才能取到最新的 2.9.2 的源码，二制包还只有 2.0 的。接下来就是用VS 来编译它的，不多说。只是注意到在contrib 目录中有https://www.doczj.com/doc/d312901716.html, 解决方案，这是我们想要的，编译https://www.doczj.com/doc/d312901716.html, 可得到三个可执行文件： 1. Syns2Index.exe 用来根据WordNet 的同义词库建立同义词索引文件，同义词本身也是通过Lucene 来查询到的 2. SynLookup.exe 从同义词索引中查找某个词有哪些同义词 3. SynExpand.exe 与SynLookup 差不多，只是多了个权重值，大概就是同义程度好啦，有了https://www.doczj.com/doc/d312901716.html,.dll 和上面那三个文件，我们下面来说进一步的步骤：二. 下载WordNet 的同义词库可以从https://www.doczj.com/doc/d312901716.html,/3.0/ 下载WNprolog-3.0.tar.gz 文件。然后解压到某个目录，如D:\WNprolog-3.0，其中子目录prolog 中有许多的pl 文件，下面要用到的就是wn_s.pl 三. 生成同义词Lucene 索引使用命令 Syns2Index.exe d:\WNprolog-3.0\prolog\wn_s.pl syn_index 第二个参数是生成索引的目录，由它来帮你创建该目录，执行时间大约40 秒。这是顺利的时候，也许你也会根本无法成功，执行Syns2Index.exe 的时候出现下面的错误： Unhandled Exception: System.ArgumentException: maxBufferedDocs must at least be 2 when enabled at https://www.doczj.com/doc/d312901716.html,.Index.IndexWriter.SetMaxBufferedDocs(Int32 maxBufferedDocs) at https://www.doczj.com/doc/d312901716.html,.Syns2Index.Index(String indexDir, IDictionary word2Nums, IDictionary num2Words) at https://www.doczj.com/doc/d312901716.html,.Syns2Index.Main(String[] args) 莫急，手中有源码，心里不用慌，只要找到Syns2Index 工程，改动Syns2Index.cs 文件中的

WordNet. An electronic lexical database.

WordNet. An electronic lexical database. Edited by Christiane Fellbaum, with a preface by George Miller. Cambridge, MA: MIT Press; 1998. 422 p. $50.00 This is a landmark book. For anyone interested in language, in dictionaries and thesauri, or natural language processing, the introduction, Chapters 1- 4, and Chapter 16 are must reading. (Select other chapters according to your special interests; see the chapter-by-chapter review). These chapters provide a thorough introduction to the preeminent electronic lexical database of today in terms of accessibility and usage in a wide range of applications. But what does that have to do with digital libraries? Natural language processing is essential for dealing efficiently with the large quantities of text now available online: fact extraction and summarization, automated indexing and text categorization, and machine translation. Another essential function is helping the user with query formulation through synonym relationships between words and hierarchical and other relationships between concepts. WordNet supports both of these functions and thus deserves careful study by the digital library community. The introduction and part I, which take almost a third of the book, give a very clear and very readable overview of the content, structure, and implementation of WordNet, of what is in WordNet and what is not; these chapters are meant to replace Five papers on WordNet (ftp://https://www.doczj.com/doc/d312901716.html,/pub/WordNet/5papers.ps), which by now are partially outdated. However, I did not throw out my copy of the Five papers; they give more detail and interesting discussions not found in the book. Chapter 16 provides a very useful complement; it includes a very good overview of WordNet relations (with examples and statistics) and describes possible extensions of content and structure. Part II, about 15% of the book, describes "extensions, enhancements, and new perspectives on WordNet", with chapters on the automatic discovery of lexical and semantic relations through analysis of text, on the inclusion of information on the syntactic patterns in which verbs occur, and on formal mathematical analysis of the WordNet structure. Part III, about half the book, deals with representative applications of WordNet, from creating a "semantic concordance" (a text corpus in which words are tagged with their proper sense), to automated word sense disambiguation, to information retrieval, to conceptual modeling. These are good examples of pure knowledge-based approaches and of approaches where statistical processing is informed by knowledge from WordNet. As one might expect, the papers in this collection (which are reviewed individually below), are of varying quality; Chapters 5, 12, and 16 stand out. Many of the authors pay insufficient heed to the simple principle that the reader needs to understand the overall purpose of work being discussed in order to best assimilate the detail. Repeatedly, one finds small differences in performance discussed as if they meant something, when it is clear that they are not statistically significant (or at least it is not shown that they are), a problem that afflicts much of information retrieval and related research. The application papers demonstrate the many uses of WordNet but also make a number of suggestions for expanding the types of information included in WordNet to make it even more useful. They also uncover weaknesses in the content of WordNet by tracing performance problems to their ultimate causes.

wordnet使用教程

Wordnet是一个词典。每个词语(word)可能有多个不同的语义，对应不同的sense。而每个不同的语义（sense）又可能对应多个词，如topic和subject在某些情况下是同义的，一个sense中的多个消除了多义性的词语叫做lemma。例如，“publish”是一个word，它可能有多个sense：

1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news should not be printed") 2. (14) publish, bring out, put out, issue, release -- (prepare and issue for public distribution or sale; "publish a magazine or newspaper") 3. (4) publish, write -- (have (one's written work) issued for publication; "How many books did Georges Simenon write?"; "She published 25 books during her long career") 在第一个sense中，print和publish都是lemma。Sense 1括号内的数字39表示publish以sense 1在某外部语料中出现的次数。显然，publish大多数时候以sense 1出现，很少以sense 3出现。 WordNet的具体用法 NLTK是python的一个自然语言处理工具，其中提供了访问wordnet各种功能的函数。下面简单列举一些常用功能：得到wordnet本身： from nltk.corpus import wordnet

wordnetsimilarity介绍

本文利用WordNet Similarity 工具包进行词义相似度的计算以下十种相似度计算方法： ①Path方法该方法主要依据Rada提出的基于最短路径的相似度度量方法[126]，将两个词义概念在WordNet层次结构树上最短路径长度的倒数作为两者的相似度。 ②Hso方法该方法即Hirst与St-Onge所提出的基于词汇链的相似度计算方法[128]，如2.4节公式 (2.5)所示。两个词义概念之间的词汇链越长，发生的转向次数越多，则相似度越低。 ③Lch方法该方法由Leacock与Chodorow提出，其对Rada的最短路径方法作了改进，引入了两者在WordNet层次结构树上的深度，如公式(3.2)所示[172]。其中，表示两个概念在WordNet层次结构树上最短路径的距离，D表示两者在WordNet 概念层次结构树中深度的较大值。12 (, )dss ④Lesk方法该方法即2.4节介绍的Lesk所提出的基于释义重叠的相似度计算方法，将两个词义概念的释义的重合词语数量作为两者的相似度[13]。 ⑤Lin方法 Lin从信息论的角度来考虑词义概念的相似度，认为相似度取决于不同词义概念所包含信息的共有性（Commonality）和差别性（Difference）[136]。该方法将相似度定义为公式(3.3)：其中c表示s1与s2在WordNet层次结构树上的最深父结点，P(s)表示任选一个词义概念属于类别s的概率。 ⑥Jcn方法该方法由Jiang和Conrath提出，将词义概念层次结构与语料统计数据结合，将基于最短路径的方法[126]和基于概念结点信息量[133]的方法融合，计算方法如2.4节公式(2.12)所示[135]。 ⑦Random方法该方法将随机生成数作为两个词义概念之间的相似度，仅作为一种基线对照方法。 ⑧Resnik方法该方法为由Resnik提出的基于概念结点信息量的相似度计算方法，根据两个概念所共有的最深父结点的信息量，衡量两者的相似度[133]。计算方法如2.4节公式(2.9)所示。 ⑨Wup方法该方法是由Wu与Palmer提出的基于路径结构的相似度度量方法[173]，综合考虑了

Word排版素材_长文档草稿

一、绪论............................................................................................................. II （一）课题的背景和意义......................................................................... II 1．研究的背景................................................................................... II 2．研究的目的和意义....................................................................... II （二）国内外研究现状............................................................................ I V 1．主题图和主题图融合研究现状.................................................. I V 2．词汇相似性度量研究现状........................................................... V 3．句子相似性度量研究现状.......................................................... V I （三）本文的研究content .................................................................... VIII 1．研究content .............................................................................. VIII 2．研究方法及技术路线............................................................... VIII （四）扩展主题图的融合......................................................................... X 1．扩展主题图融合定义及原则....................................................... X 2．扩展主题图融合过程................................................................ XII （五）语义冲突..................................................................................... XIII 1．语义异构的原因....................................................................... XIII 2．语义冲突的定义及类型........................................................... X IV （六）语义相似度在扩展主题图融合中的使用................................XVII 1．简单文本分类的应用..............................................................XVII 2．扩展主题图融合中的文本分类技术应用............................ XVIII 3．主题融合与词语语义相似度................................................... X XI 4．知识元融合与句子语义相似度..............................................XXII （七）本章小结.................................................................................. XXIV

JAVA Lucene in Action教程完整版

Lucene in Action（简体中文版）共10部分第一部分 Lucene核心 1. 接触Lucene 2. 索引 3. 为程序添加搜索 4. 分析 5. 高极搜索技术 6. 扩展搜索第二部分 Lucene应用 7. 分析常用文档格式 8. 工具和扩充 9. Lucene其它版本 10. 案例学习 [序章] Lucene开始是做为私有项目。在1997年末，因为工作不稳定，我寻找自己的一些东西来卖。Java是比较热门的编程语言，我需要一个理由来学习它。我已经了解如何来编写搜索软件，所以我想我可以通过用Java 写搜索软件来维持生计。所以我写了Lucene。几年以后，在2000年，我意识到我没有销售天赋。我对谈判许可和合同没有任何兴趣，并且我也不想雇人开一家公司。我喜欢做软件，而不是出售它。所以我把Lucene放在SourceForge上，看看是不是开源能让我继续我想做的。有些人马上开始使用Lucene。大约一年后，在2001年，Apache提出要采纳Lucene。Lucene邮件列表中的消息每天都稳定地增长。也有人开始贡献代码，大多是围绕Lucene的边缘补充：我依然是仅有的理解它的核心的开发者。尽管如些，Lucene开始成为真正的合作项目。

现在，2004年，Lucene有一群积极的深刻理解其核心的开发者。我早已不再每天作开发，这个强有力的工作组在进行实质性的增加与改进。这些年来，Lucene已经翻译成很多其它的语言包括C++、C#、Perl和Python。在最开始的Java和其它这些语言中，Lucene的应用比我预想的要广泛地多。它为不同的应用(如财富100公司讨论组、商业Bug跟踪、Microsoft提供的邮件搜索和100页面范围的Web搜索引擎)提供搜索动力。在业内，我被介绍为“Lucene 人”。很多人告诉我他们在项目中使用到Lucene。我依然认为我只听说了使用Lucene的程序的小部分。如果我当初只是出售它，Lucene应用得不会这么广泛。程序开发人员看来更喜欢开源。他们在有问题时不用联系技术支持而只需查看一下源代码。如果这还不够，邮件列表中的免费支持比大多商业支持要好得多。类似Lucene的开源项目使得程序开发人员更加有效率。 Lucene通过开源已经变得比我想象的伟大的多。我见证了它的发展，是Lucene社区的努力才使得它如此兴旺。 Lucene的未来怎样？我无法回答。有了这本书，你现在也是Lucene社区的一员，现在由您将Lucene带往新的高地。旅途顺利! DOUG CUTTING Lucene和Nutch的作者前言来自Erik Hatcher 在Internet早期我就对搜索和索引感兴趣。我已经建立了用majordomo、MUSH(Mail User’s Shell)和少量Perl、awk及shell脚本来管理邮件列表的存储结构。我实现了一个CGI的web接口，允许用户搜索这个列表和其它用户的信息，其内部使用了grep。然后相继出现了Yahoo!、AltaVista和Excite，这些我都经常访问。在我有了第一个儿子Jakob之后，我开始了数字照片档案的设计。我想开发一套管理图片的系统，可以给图片附加元数据，如关键字、拍摄日期。当然用我选择的尺寸定位图片是很容易的。在19世纪90年代末，我构建了基于文件系统的原型，使用了Microsoft的技术，包括Microsoft Index Server、Action Server

WordNet-InfoContent_自然语言处理_科研数据集

WordNet-InfoContent 英文关键词： WordNet,InfoContent ,Similarity package,nlp, 中文关键词： WordNet,InfoContent ,Similarity package,nlp, 数据格式： TEXT 数据介绍： This directory contains information content files created for use with the WordNet::Similarity package. LIST OF IC FILES PROVIDED: ic-bnc-add1.dat ic-bnc.dat ic-bnc-resnik.dat ic-bnc-resnik-add1.dat ic-brown-add1.dat

ic-brown.dat ic-brown-resnik-add1.dat ic-brown-resnik.dat ic-semcor-add1.dat ic-semcor.dat ic-semcorraw-add1.dat ic-semcorraw-resnik-add1.dat ic-semcorraw-resnik.dat ic-semcorraw.dat ic-shaks-add1.dat ic-shaks.dat ic-shaks-resnik.dat ic-shaks-resnink-add1.dat ic-treebank-add1.dat ic-treebank.dat ic-treebank-resnik-add1.dat ic-treebank-resnik.dat 点此下载完整数据集