当前位置:文档之家› 中文博客主题情感句自动抽取研究

中文博客主题情感句自动抽取研究

中文博客主题情感句自动抽取研究
中文博客主题情感句自动抽取研究

2008,44(20)

1引言

自从1997年JornBarger第一次使用“Weblog”以来,博客(blog)借助互联网的日益普及以及自身的优势而迅速发展壮大。由于博客使用简单、个性化强、实时性好,越来越多的民众开始创建、使用自己的博客。截至2005年全球博客用户已经突破1亿用户,中国用户超过1600万,这标志着博客正式从精英走向了大众,开启了互联网发展到真正个人化时代的帷幕,而互联网也从商业化进入社会化阶段。由这种互联网应用所创造的动态的网络空间也逐渐成为了一种崭新的草根文化载体[1]。据统计,在博客内容方面,37%的博客用户会写一些与自身生活和经历相关的信息;11%的博客作者倾向于对公共热点问题发表观点[2]。由于博客空间的信息丰富、更新速度快且源于广大民众等特点,开始受到许多政府部门和社会团体越来越多的关注。其中,如何获得博客中广大民众的情感倾向便是一个值得关注的问题。

2004年AAAI(AssociationfortheAdvancementofArtifi-cialIntelligence)组织了一次相关的研讨会EAAT(ExploringAt-titudeandAffectinText)。会议主要目的就是探讨文本中情感分类、文本主观性、态度等相关问题[4]。TREC2006中也加入了一项新的测评内容blog-track,新内容包括两部分,其中重要的一部分就是博客观点搜索(opinionretrieval),也就是搜寻对某一特定主题阐述观点的博客搜索准确度很多程度上依赖于博客内容情感分析的准确度。

文本情感分析所采用的方法主要有两种。第一种方法,首先将具有情感色彩的词分成是正例和负例,然后以词频统计基础,建立一个二元的分类器,从而进行简单的情感分类;另一种

中文博客主题情感句自动抽取研究

孙宏纲,陆余良

SUNHong-gang,LUYu-liang

合肥电子工程学院604实验室,合肥230037

No.604Lab,HefeiElectronicEngineeringInstitute,Hefei230037,China

E-mail:navysun1977@163.com

SUNHong-gang,LUYu-liang.Studyoftopicsentimentsentencesauto-extractioninChineseblogs.ComputerEngineeringandApplications,2008,44(20):165-168.

Abstract:InthefieldofChineseblogsentimentanalysis,previousresearchersputmostenergyonthepolarityanalysisofword,butnotallthewordanalyzedisrelativewiththetopic,andword-levelgranularityforsentimentanalysisistoosmall.Wetrytousesentimentsentences,asentence-levelmodel,forsentimentanalysis.Inthispaper,itonlyfocusesontopicsentimentsentencesauto-extraction.Inordertoextractingtopicsentimentsentences,itdesignsanovelBi-segmentmethodtoextractthemaintopicwords,andusesTFIDFtoextractmoretopicwords.Withthesewords,itrecombinesoriginalsentences,whichcontainthetopicwords.Soaslongastopicsentimentsentencesexist,theymustinthesetofrecombinedsentences.Then,basedontheanalysisofChineseblogs,itconvertstheproblemofextractionintoChinesechunkingbyCRFsandhasagoodperformanceinextractionexperiment.

Keywords:Chineseblogs;sentimentanalysis;ConditionalRandomFields(CRFs)

摘要:博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。

关键词:中文博客;情感分析;CRFs

DOI:10.3778/j.issn.1002-8331.2008.20.050文章编号:1002-8331(2008)20-0165-04文献标识码:A中图分类号:TP391

作者简介:孙宏纲(1977-),男,博士生,主要研究领域为计算机应用,Web信息挖掘;陆余良(1964-),男,教授,博士生导师,主要研究领域为计算机应用,信息挖掘。

收稿日期:2007-09-26修回日期:2007-12-21

ComputerEngineeringandApplications计算机工程与应用165

2008,44(20)ComputerEngineeringandApplications计算机工程与应用

方法是相关词的语义倾向分析,然后计算整个文本的情感倾向指标[5],这也是目前较为有效的一种方法。

这些方法多是单纯从词的倾向性分析入手[6-8],但是以词为粒度的情感分析,不能保证所有被分析的词汇都是主题相关的,这种不确定性将直接影响文本情感分析准确性。解决词汇主题相关不确定性的一个很好的途径就是首先提取主题情感句(TopicSentimentSentences,TSS),以句子为分析粒度进行情感分析。本文主要研究了在中文博客中,如何有效提取主题情感句。为了提取准确获得相关的主题情感句,针对博客的形式特点,设计了一个新颖的,基于二元切分的关键主题词提取方法,同时采用TFIDF算法获得次要主题词。在此基础上对包含主题词的原始句进行重组和简化,并且认为,只要主题相关情感句存在,那么它一定在这些有主题词构成的主题句集合中。最后,结合汉语语法知识对中文博客的结构和内容进行了分析,将主题情感句提取问题转化为中文chunking问题,并通过CRFs(ConditionalRandomFields)算法进行了实验,取得了很好的效果。

2中文博客主题词提取

2.1相关分析

在创作博客时,博客内容通常是作者的自我表达,通过博客这个平台,博客作者们可以自由地、广泛地抒发自己的感情,讨论热点事件等等。因此,可以将博客视为一个私人的新闻中心,每天博客作者都会在上面发布新的内容。除了更新速度,博客在内容形式上也接近新闻。博客的内容往往都很短小精炼,同时为了吸引更多的读者,博客的标题也像新闻标题一样是内容的精炼。因此,总可以在标题中找到与博客内容相关的主题词。

在现代汉语中,40%的词汇是单字词汇,但大多数在单独出现时都没有实际的意义;60%的词汇是双字词,这一部分占据了汉语词汇的主体[9]。通过对博客内容的统计,得到了一些有用的特征:每一篇博客通常只有一个主题;标题中的主题词通常只有两个;主题词在博客内容中至少出现一次。

从语言学角度,可以得到:如果在标题和内容中连续词串A和B,且满足A包含B,那么词串A的特指性要高于词串B。2.2基于二元切分的主题词提取

目前主题词的提取往往都依赖于字典和大规模的词频统计。对于中文来讲,主题词的提取尤为困难。因为不同于西方语言,汉语在形式上是一个连续的词串,词与词之间没有天然的断开。如果利用专业字典来进行中文博客的主题词提取,那么就需要一个非常完善的字典,否则就可能有一些主题词由于是未登录词,而被忽略掉;另一方面,单纯利用词频统计,也会丢掉一些低频的主题词。

为了简单有效地获得中文博客中的关键主题词,设计了一个基于二元切分的主题词提取方法,也就是将博客中的汉语词串全部划分成二元词汇,并建立倒排索引。例如:输入词串S=“abcde”,经过二元切分,将输出二元词串O=“abbccdde”。因此,无论查找词串O中的任何二元词汇,都可以很快定位到词串S。

具体实施时,首先,把标题和内容中的每一个字按顺序编号,然后根据标点符号把标题和内容划分成子串,并将子串保存在对应的向量T和C中。然后按照下面步骤进行提取:

(1)把所有标题和内容当中的子串进行二元切分,并将二元词汇保存在相应队列Tq和Cq中;

(2)从Tq中逐个取出切分后的二元词汇,然后在Cq中检索该词。如果Cq中包含该二元词,则把该词加入到倒排索引G=<二元词,(pos

,…,pos

,…),频率>;

(3)如果不同词汇在倒排索引G中的位置标记pos是连续的,则认为这些pos连续的二元词构成了一个复合词。不断重复步骤(2)和(3),直到找到所有位置标记连续的词汇;

(4)对于每一个由二元词构成的复合词,采用一组策略来判断该复合词是否是博客的主题词。

根据2.1节中所分析的博客特征,定义了如下策略用于判断主题词:

如果复合词串S是由多个复合词串构成,且在博客中出现的次数多于1;

如果复合词串s包含于复合词串S中;

如果复合词串s在博客中的词频多于X;

如果复合词串的结尾是名词;

如果复合词串的开头是名词;

……

若经过第一轮匹配,标题中没有发现显著的关键主题词,而只是出现了多个长度接近,且词长较短的次关键主题词,如果这些次关键主题词不超过两个,则视为关键主题词;如果多于两个,则首先根据词串在标题中所处的位置,进行判断:破折号引出的、处在双引号、书名号中的词串重要性高;其次,词串长的重要性高;特殊情况下,如果仍无法选出关键主题词,则将重要性接近的前n个次关键主题词,同时作为关键主题词。

对该方法我们进行了抽取测试,测试数据从网站http://blog.sina.com.cn/下载。测试结果表明,该方法的抽取准确度达到92%。

3主题句重组

3.1博客信息分析

任何一篇文档可以用一个由关键词构成的向量D=<w

Word

……,w

Word

>表示[10]。理论上,不同文档的文档向量是不同的,这一特点对于句子重组非常有用。

假设一个博客标题和博客内容是一一对应的,则可以在标题和内容之间建立映射关系B=<title,Doc>。在2.1节中曾讨论过,博客在形式上具有新闻的特性,因此,可以把标题概括为相关的主题词,同时在建立映射T=<title,topicwords>。利用映射B和T可以建立主题词和文档之间的映射TD=<topicwords,Doc>,并且计算主题词和文档向量的相关性。因此可以得到结论,博客内容和主题词是一一对应的。

实验发现,文档向量中参与相似度计算的有效词主要包括名词、动词、形容词和副词。由这些关键元素组成的子向量可以很好地表示博客内容。根据这些词汇在博客中的位置信息,可以将它们还原成“句子”,当然这些“句子”已不是原来完整的句子,它只包含子向量中的关键元素。

通过以上分析,可以认为由子向量中关键元素重组的句子都是主题相关的,因此,如果博客中存在主题相关情感句,那么它们一定存在于这些重组的主题相关句中。

3.2情感句重组

为了有效获得主题相关情感句,需要将子向量中的关键元

166

2008,44(20)

素(名、

动词、形容词和副词)进行重组,获得主题相关句。子向量中的每一个元素都有相同的结构<word,weight,Sentencei,

Positionij>,其中Sentencei和Positionij表示某一关键词的具体位

置是句子i,绝对位置j。

通过这种索引结构,很容易就将主题句重组。接下来就可以计算句子和主题之间的相关性了。句子与主题的相关度定义如下:

Cor

(T,Sj)=i

!

!W

MiI

=i

!

!W

Mi*I

!!W

*I

,i∈I(a,ab,v,n)

其中I表示同一句子中不同词性标记的数量,

!Wi

表示具有

相同词性标记i的所有单词的权重和,Mi表示具有相同词性标记i的单词的数量。在计算句子的主题相关度时,主要利用了词的权重,如果一个句子都是由高权重的词组成,那么该句子的主题相关性就高,反之则低。按相关度Cor(T,Sj)的大小对句子进行排序,这样就可以根据需要获得不同相关度的主题句。

4基于CRFs的主题情感句提取

4.1条件随机场

(ConditionalRandomFields,CRFs)CRFs

(ConditionalRandomFields)是一种用于词性标记、命名实体识别的较为有效的概率模型[11]。它在形式上类似于

HMM模型,不仅具有MEMM模型的优点,同时有效解决了la-

belbias问题。CRFs可以看作是一个无向图模型,设G=

(V,E)是一个无向图,其中V是无向图的顶点,E是无向图的边。X是一组被观察的随机变量,Y是一组由V确定的需要预测的输出变量。当以X为输入,且Y遵循马尔科夫性质,则(X,Y)是由X决定的无向图G,称为条件随机场(CRFs)。

将CRFs模型用于自然语言理解时,根据语言的特性可以简化为一个线形模型,线性模型是CRFs的一个很重要的应用。假设X=

(X1,X2,…,Xn)是自然语言的一个随机的观察序列,Y=(Y1,Y2,…,Yn)是需要标记的状态序列,那么X条件下Y的概率是[11]

(Y|X)=!

(Yi,Xi)Z

(X)(1)

其中!(Yi,Xi)是势函数,Z(X)是归一化因子:

(X)=Y

!!(Yi,Xi)(2)

通常势函数!(Yi,Xi)由形如fk(Yi,Xi)的二选特征构成:

!

(Yi,Xi)=exp(T

!k

!γk

fk

Yi,Xi))

(3)

γk

是权重系数。如果从条件分布定义的角度理解线性CRFs,首先考察给

定X、Y时,它们的联合分布:

(Y,X)=!(Y,X)=exp(T

!k

!γk

fk

Yi,Xi))

(4)

根据条件概率的定义,给定X情况下,Y的条件概率,可以表示为:

(Y|X)=p(Y,X)Y

!p

(Y,X)

exp

(T

!k

!γk

fk

Yi,Xi))

!exp

(Ti

!k

!γk

fk

(Yi,Xi))

(5)

其中,分母

!p

(Y,X)是X的边缘分布。

根据势函数定义,可以将!(Yi,Xi)分解为!

(Yi,Xi)=exp(k

!λktk

Yi-1,Yi,X,i))+j

!μjsj(Yi,X,i

)(6)其中tk(Yi-1,Yi,X,i)是在输入X情况下,标记状态在位置i和

i-1时的二选特征值;sj(Yi,X,i

)是标记状态在位置i时,相对于X的二选特征值。λk和μj

分别是它们的权重每一个t和s都是一个二选的特征函数,s可以视为是状态特征。

(X,i)=1

如果在X中,位置i处是一个名词0

其它情#况

而t则是传递特征,所有的状态和传递特征函数都具有类似的定义形式。

t(Yi-1,Yi,X,i)=

如果Yi-1和Yi存在某种关系0

其它情#况

4.2参数估计

给定训练集T=<Oi,Si>,0≤i≤n,参数估计就是寻找适当

的参数向量λ和μ使得对数似然(7)取得最大值。

L!=ni=1!logP!(Si|Oi)-K

k=1

!

γ2

k2σ

i=1

!

(k

!γk

fk

(Si,Oi)-logZ

(Oi))-K

k=1

!γ2

k2σ

(7)

其中,等式右边的第二项是均值为0,协方差为σ2牛顿先验值,Z

(Oi)和式(2)具有相同的形式。CRFs具有MaxEnt模型的所有特性[11],L!在定义域内是一

个凸函数,这就保证了局部最优点便是全局最优点。在此使用了拟牛顿算法和BFGS修正对L!进行最优化。同牛顿法相比,拟牛顿法利用函数的一阶信息建立一个近似的Hessian矩阵,从而大大提高了拟牛顿法的优化效率。

4.3情感句分析

目前的文本情感分析研究主要利用Wordnet、Hownet[7,8]这

样的语义词典进行词的极性分析。但是以词为粒度的分析,并不能保证被分析的词汇确实是主题相关情感词。因此,在情感分析时不能单纯依赖词汇的极性分析,这一点在中文情感分析中存在跟多的问题。在汉语中相同的词语在不同的句子形式中表示不同的含义;相同的句子但是标点符合不同表达的意思也截然不同。

在现代汉语中,基本上包含8种简单句式和10种复合句式。虽然几乎所有的句式都可以用来表达情感,但是在表达习惯上,却往往只用其中的几种句式。

经过分析发现,大概只有一半数量的句式被经常用来表达情感。在简单句中形容词词组、动词词组、一些成语都是表达感情的重要元素;在复句中除了上述词语以外,某些连词也是必不可少的。

总之,对于有效的情感表达来说词汇,尤其是形容词、动词以及某些具体的句型都是不可缺少的。因此,要对博客进行情感分析,提取出博客中包含有上述元素组成的主题情感句是必要的。通过第3章的句子重组,可以准确地获得博客地主题相关句,只要从这些主题相关句中找到主题相关情感句,便可进行博客的情感分析。

孙宏纲,陆余良:中文博客主题情感句自动抽取研究

167

2008,44(20)ComputerEngineeringandApplications计算机工程与应用

ChunksVPADJPADVPCP

解释动词词组形容词词组副词词组连词

成功,支持,反对正义,美丽非常,特别,值得虽然,但是

表1

情感词组块

ChunksVPADJPADVPCP

precision0.97820.92660.99250.9809

recall0.98690.91351.00000.9518

表2

中文Chunking结果

4.4基于CRFs的主题情感句提取

之前许多学者利用CRFs和其它方法对汉语的浅层分析

进行了研究[12-14],这里把主题情感句的提取也看作是一个浅层分析的过程。具体来说它是一个中文Chunking的过程,由于划分的对象是重组的主题句,而不是原始的句子,因此,并不是涉及所有的组块划分,重点放在动词、

形容词、副词以及连词组块的划分。根据Abney在它的文章中对英文Chunk的定义[15],结合主题情感句提取的特点,定义了4个不同的中文情感词组块,每一个组块都采用了IOB2[14]

的标记形式。表1列出了情感

词组块。

在应用CRFs进行主题情感句提取时,就是最优化似然对数L!,找到它的解向量λ和μ使得似然对数最大。L!中的二选特征函数fk(Yi,Xi)通过定义重组主题句中情感词组块之间的关系得到。

5实验

5.1实验设计

实验所用的博客集合是从网站http://blog.sina.com.cn/中下载的。由于不是所有的博客都包含主题情感句,因此在训练时,从博客中选择了一些典型的主题情感句作为训练集,然后用整个博客集合作为测试集合。在整个博客集合中,包括两个子集,一个子集由500个包含主题情感句的博客组成,称之为正例集合;另一个子集由500个普通的博客组成,称之为负例集合。

在训练集合中之所以只包含句子,主要因为在一篇博客中只包含少量的主题情感句,甚至不包括,而大量的其它信息对于训练是没有帮助的。通过简化训练集合,可以节省大量的训练时间。测试集合由博客组成,是因为主题情感句提取的最终目的是要分析博客的情感倾向,因此用博客作为最终的测试单元是必要的。

5.2性能指标

性能指标的选择方面,选择了两套不同的指标。中文

Chunking采用了分类中常用的正确率(precision)和召回率

(recall)。在评估主题情感句提取时,采用了经过调整的正确率(Precisionadjust)和召回率(Recalladjust):

Precisionadjust=

!f(

n)

Np(8)

Recalladjust=

!f(

n)

Nr

(9)

其中f(n)的定义如式(10):

(n)=1

如果博客中包含的主题情感句多于n个0

其它情"况

(10)

Np输出的包含主题情感句的博客;Nr是正例集合中博客的数

量,N

r=500;通过调整,可以很容易判断主题情感句提取的性能。

5.3结果分析

首先对中文Chunking进行了实验,涉及动词词组、形容词

词组、副词词组和连词结构。表2列出了实验的结果,同其它系统相比[13],实验结果在数值上略高,主要是因为本实验中所分析的组块数量少且易于划分。高性能的组块划分结果将有利于后面有效的提取主题情感句。

图1是主题情感句提取的结果,横坐标是Precisionadjust和

Recalladjust中参数n的取值,纵坐标分别是Precisionadjust和Recalladjust。

在式(10)中,n是一个判断被分析博客是否包含主题情感句阈值。如图1,当n=3时,如果一个博客包含等于或多于3个主题情感句,则认为该博客属于正例集合。从图中可以发现,当

n=1时,虽然Precisionadjust=0.55,但是Recalladjust=1,这是一个非

常好的结果。由于可用于分析的博客信息相对较少,因此高的召回率,可以尽可能减少有用信息的损失,而后期的处理可以补偿低精度值带来的损失。相反,当n=1时,如果召回率低,而精度高,则会直接丢掉许多有用的博客信息,这种损失在后期的处理过程中是无法弥补的。

很幸运的是,当n=4时,召回率和精度都取得了一个不错的数值,Recalladjust=0.88,Precisionadjust=0.9。

图1中的结果是严格按照实验设计得到的,只有当输出的满足阈值的结果在正例集合中才认为该博客包含主题情感句,但是在对正例和负例集合进行分类时,由于人为的疏忽,会漏掉某些正例。这一点在实验中得到了证实。在实际中这种错误也是很那避免的,对情感内容进行分类本身就是一种主观的行

为,不可能得到一个标准的结果。尽管如此,实验的结果还是很令人满意的,对下一步进行有效的情感分析产生很大帮助。

6下一步的工作

中文博客的情感分析是建立在Web信息挖掘、信息抽取

基础上的一项非常有意义的研究。本文所研究的主要涉及主题

情感句进行博客情感分析的前期准备工作,下一步的工作将进一步完善本文的研究,并在此基础上进行基于句子粒度和词汇粒度的中文博客情感分析。

(下转221页)

168

2008,44(20)

目标坐标位置多模态控制时间

PID控制时间1

2,-3.5120131

21.5,2.56674

3-2.5,36985

4-6,-5137161

50,-153

1006

2,066957

-5,01061128

0,3

69

78

表1

实验数据

4.2静态目标导航

利用前述介绍的方法,在Matlab6.5下,建立了静态目标导

航仿真框架,如图5所示。主要由感知反馈、控制器(包括多模态控制和PID控制)、

机器人车体、动画显示等几部分构成。机器人所处的场地宽12m,高8m,以中心点为坐标原点。通过将目标放置在场地的不同位置,进行了95次实验,观察在PID控制和多模态控制下机器人的运动情况,并记录每次运行所用的时间,如图6所示。表1给出了8组测试数据,图7给出了表1中后4组测试情况下,多模态控制与PID控制的运动轨迹情况。其中,图7(a)、(c)、(e)和(g)为多模态控制运动轨迹。

由实验结果可知,当目标物处于机器人的前方时,多模态

控制和PID控制的效果相差不大。但如果目标物在机器人的后方,其运动轨迹和所花去的仿真时间差异变得比较明显。完成同一任务,多模态控制所花费的时间要比PID小,运动轨迹优于PID控制。

5结论

本文充分模拟人类智能,提出多模态控制方法,用于机器

人路径规划。并以静态目标路径规划为例,在仿真环境下,与传统的PID控制方法进行了大量实验对比。实验结果表明,本文提出的方法能快速响应,并具有较优的运动轨迹。

参考文献:

[1]陈宁.智能体机器人动态路径规划研究[D].武汉:华中科技大学,

2005.

[2]于芳.基于动觉图式的仿人智能控制在移动机器人路径规划中的研

究[D].重庆:重庆大学,2007.

[3]李祖枢.仿人智能控制[M].北京:国防工业出版社,2003:90-94.[4]Frontier-I全自主移动机器人使用说明书.上海交通大学,2004:18-30.

邵桂芳,李祖枢,于芳:多模态控制在机器人路径规划中的应用

(上接168页)

参考文献:

[1]IadhOunis,MaartendeRijke,CraigMacdonald,etal.Overviewof

theTREC-2006blogtrack.

[2]AmandaLenhart,SusannahFox.Bloggers:aportraitoftheInternet’s

newstorytellers[C]//PewInternet&AmericanLifeProject,July,2006.[3]HatzivassiloglouV,McKeownKR.Predictingthesemanticorienta-

tionofadjectives[C]//ProceedingsofACL-97,35thAnnualMeetingoftheAssociationforComputationalLinguistics,Madrid,ES,1997:174-181.

[4]http://www.clairvoyancecorp.com/research/workshops/AAAI-EAAT-

2004/home.html.

[5]CaseyWhitelaw,NavenduGarg,ShlomoArgamon.Usingappraisal

groupsforsentimentanalysis.CIKM,2005:625-631.

[6]Hatzivassiloglou,Vasileios,Wiebe,Janyce.Effectsofadjectiveorien-

tationandgradabilityonsentencesubjectivity[C]//InternationalConferenceonComputationalLinguistics

(COLING-2000).[7]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾向计算[J].中

文信息学报,2006(1).

[8]金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].

情报学报,2005,24(5).

[9]李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息

学报,2006,20(5):31-39.

[10]SaltonG,WongA,YangCS.Avectorspacemodelforautomatic

indexing[J].CommunicationofACM,1975,18

(11):613-620.[11]LaffertyJ,McCallumA,PereiraF.Conditionalrandomfields:

Probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proc18thInternationalConfonMachineLearning,2001.[12]ZhangLe,LvXue-qiang,ShenYan-na,etal.Astatisticalap-

proachtoextractchinesechunkcandidatesfromlargecorpora[C]//Proceedingofthe20thInternationalConferenceonComputerProcessingofOrientalLanguages

(ICCPOL’03).[13]TanYong-mei,YaoTian-shun,ChenQing,etal.Applyingcondi-

tionalrandomfieldstoChineseshallowparsing[C]//CICLing-2005,2005:167-176.

[14]TjongEF,SangK,VeenstraJ.Representingtextingchunks[C]//

Proceedingsofthe7thConferenceoftheEuropeanAssociationforComputationalLinguistics:EACL-1999,Bergen,Norway,1999:173-179.

[15]AbneyS.Parsingbychunks[C]//BerwickR,AbneyS,TennyC.Prin-

ciple-BasedParsing.Dordrecht:KluwerAcademicPublishers.1991.

221

2019经典爱情感悟句子大全_人生感悟

2019 最新经典爱情感悟句子大全对你有爱也有痛。爱是一种甜蜜,痛是一种无奈。对你的爱与痛加起来,那叫—爱情!有爱就有痛——我心甘情愿 无数个思念你的夜晚,想起与你共度的欢乐时光,我祈求流星,让我下世能够与你相遇,相爱,直到天荒地老! 我怕黑要你安慰,我很憔悴我要你抚慰,没有你呵护我不能入睡,没有你明天我不能面对,不想你我永远也学不会 假如生活重新开始,我的爱人依然是一条风雨的长途,依然不知疲倦的奔走让我们紧紧地拉住手! 亲爱的你睡着了,我唯有把你的爱存进你的手机;等你醒了,我就把我的爱存进你的心里; 等你见到我,我就把整个人都存进你的怀里啦! 如果有来世,让我们做一对小小的老鼠,笨笨的相爱,呆呆的过日子,拙拙的相恋,即使大雪封山,还可以窝在草堆里,紧紧地抱着你,轻轻地咬你的耳朵… 一份执着,两颗真心,拌三份糊涂,四分怜惜,加五钱眼泪,六两柔情,配浪漫七杯,用八分爱火,九经考验,煲成十全十美正果。 最想听到的是你的笑声,最想看到的是你的快乐,愿幸福永远陪伴你,这是我最真心的祝福! 爱没有对与错。哪怕是一场感情游戏,也要记住游戏曾给你带来 的快乐。哪怕他临走时咬你一口,也不要因爱生恨。要知道,你恨的是别人,但伤的是自己; 恨得越深,伤得越重。 1 / 6

真正的爱情,是在能爱的时候,懂得珍惜; 真正的爱情,是在无法爱的时候,懂得放手! 到老的幸福。爱情对于生命又是何等的重要,没有爱情的生命,犹如没有雨露的花草,永远无法绽放出绚丽的光彩,生命可也又是因为爱情而变得多姿多彩。 真爱需要等待,但太长的等待,对爱情都是一种摧残。漫漫人生,滚滚红尘,年年岁岁花相似,岁岁年年人不同。今生等不了,就别再寄望来生。奈何桥一过,又成陌路。所以,珍惜相见,珍惜相爱,珍惜拥有,珍惜身边的人。毕竟,没有谁经得起时间的改变,也没有谁可以等到来世再爱。 爱情的滋味,是甜是苦,是酸是辣。有人爱你,你却不懂得去珍惜,却去追求自己所爱的; 爱别人却总被自己所深爱的的人伤害。“多情不似无情苦,一寸还成千万缕。天涯地角有穷时,只有相思无尽处。古代的爱情,现代的爱情,真实里见到过多少能和自己所深爱的人一起白头。 用心去感悟感知生活。在锅碗瓢盆的碰撞中完成柴米油盐酱醋茶的过程。爱情就是包容! 平淡中见真爱。 用理智和现实去衡量爱情,没有什么爱情是可以值得去努力奋斗,所有的爱情在理智和现实面前都显的那么可笑幼稚,爱情在现实面前又是那么的脆弱,经不起考验和诱惑; 爱情在理智面前又显的那么渺小,经不起分析解剖。 一语道尽爱情的残酷。情到深处人孤。痛苦使人成熟,坚强的人会感悟爱的真谛,而脆弱的人徒生怨恨。 2 / 6

工作感悟经典语句心情说说

工作感悟经典语句心情说说 个人工作心语(热门篇) 1. 爱人要选温柔似水甜如蜜的。同事要选埋头苦干没脾气的。朋友要选猪头狗脑流鼻涕的。时间差不多了,快把鼻涕擦了好好上班吧。 2. 把每个睡醒后的早晨当成一件礼物,把每个开心后的微笑当成一个习惯。朋友,短信祝你早上好,愿你微笑今天,快乐永远! 3. 把弯路走直的人是聪明的,因为找到了捷径;把直路走弯的人是豁达的,因为可以多看几道风景;路不在脚下,路在心里。早安,愿好! 4. 把我的心情心思心肠心声心扉心怀心疼心爱心神心灵心肝心语心动心跳心愿一并送给你!愿你从今晨开始一切顺心安心爽心欢心永远开心! 5. 伴着清晨的第一缕阳光,拿起手机,编辑短信,毫不犹豫,发送给你,送上一句,懒猪起床,祝愿今天,开开心心,对待工作,勤勤奋奋,最后要说,一句早安。 6. 伴着昨夜美梦,呼吸舒爽晨风,亲吻美丽曙光,带着美好渴望,为了心中理想,喜迎新的一天,暗呼一声加油,赶紧穿衣起

床,祝你精神抖擞,激情常伴心房。朋友,早安! 7. 保留再多,也是一种缺失;播撒多了,才会拥有。有舍才有得,与其有所保留,不如大方给予,浇灌万物的同时,也浇灌了自己。早安! 8. 别笑乌龟傻,人家懂八卦;别笑蜗牛笨,人家有房又有家;别说自己跑得快,依然慢过cpi;还好你有朋友我,一早逗你乐开怀!早安。 9. 不求锁定结局,只求曾经努力;不求事事顺意,只求心情美丽;不求左右别人,只求善待自己;不求马到成功,只求坚定不移。早安! 10. 不要害怕做错什么,即使错了,也不必懊恼,人生就是对对错错,何况有许多事,回头看来,对错已经无所谓了。早安。 个人工作心语(最新篇) 1. 点击崭新的日历,翻开新的日记,保存真心的祝福,删除所有的委屈,复制阳光的魔力,粘贴到我的信息,愿你早起就能收到我的祝福,感受阳光的神奇魔力,清晨如此清新美丽,心情永远快乐无敌!早安! 2. 惦记你的头发花白,惦记你的时间苍白,惦记你的经典对白,惦记你的勇敢坦白,岁月匆匆,一清二白,简简单单,无悔黑

中文分词技术的研究

3 2009209218收到,2010201203改回 33 基金项目:国家级课题资助项目(30800446)。 333刘红芝,女,1980年生,硕士,研究方向:电子信息咨询与服务,计算机网络及数据库技术。 文章编号:100325850(2010)0320001203 中文分词技术的研究 Research on Ch i nese W ord Segm en ta tion Techn iques 刘红芝 (徐州医学院图书馆 江苏徐州 221004) 【摘 要】对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。 【关键词】中文分词,算法,歧义,未登录词,停用词 中图分类号:T P 391 文献标识码:A ABSTRACT T h is paper analyzes the m ain am biguities of Ch inese w o rd segm entati on ,elabo rates difficulties in Ch inese w o rd segm entati on and their so luti ons ,and finally po ints out the existing p roblem s in Ch inese w o rd segm entati on and the future research w o rk 1 KEYWOR D S ch inese w o rd segm entati on ,algo ris m ,am biguity ,unknow n w o rd ,stop 2w o rd 随着因特网上信息给人们带来方便的同时,也存在信息查找不便、不良信息过多等弊端,信息过滤技术应运而生。信息过滤[1]就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。目前很多信息过滤系统的设计都是基于内容的过滤,即查找信息文本中是否含有特征词库中设置的关键词。这种设计思想符合人们正常的思维习惯,比较容易实现。但是在实际应用中,特别是在处理中文信息的时候由于缺乏中文策略,处理结果很难让人满意。 因此,进行中文信息过滤,首先就要对文本预处理,进行中文分词,将其表示成可计算和推理的模型。中文分词是中文文本过滤的首要基础性工作、难点问题,也是自然语言信息处理中最基本的一步。 1 中文分词技术 将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词;中文分词就是把中文的汉字序列分成有意义的词[2]。分词只是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术。 2 中文分词的必要性 如何让计算机更好地读懂人类的语言,理解人类的思想,更好地让用户快速方便地搜索到自己所需要的资源,中文分词技术的产生是中文搜索质量提高的 至关重要的因素。众所周知,中文文本与英文文本的表示方法有所不同,英文文本中词与词中间都由空格或标点符号隔开,因而词与词之间的界限很明显,可以很容易地获取关键词,而中文文本中词与词则无明显的界限,这就影响了关键词的获取和匹配[3]。 3 分词的主要算法 中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。 现有的分词算法按照是否使用分词词典来分,可分为基于词典的分词算法和基于无词典的分词算法[4]。基于词典的分词算法的分词精度在很大程度上依赖于分词词典的好坏,基于无词典的分词算法不需要利用词典信息,它通过对大规模的生语料库进行统计分析,自动地发现和学习词汇,从分词精度来看,基于词典的分词算法要大大优于无词典的分词算法。311 基于词典的分词算法 基于词典的分词算法主要基于一个词典和一个基本的切分评估规则。早期主要采取机械匹配的方法,但由于缺乏歧义切分的处理,故切分的精度较低,后来随着研究的发展,加入了规则的切分,但规则的制订不仅需要大量的人力而且对系统的开放性有很大的局限,因此后来又引入了从基于统计的分词方法,不仅统计 ? 1? 第23卷 第3期 电脑开发与应用(总173)

人生情感与生活感悟经典语录

人生情感与生活感悟经典语录人生如烟花,不可能永远悬挂天际,没有人是完美的,顺其自然,别轻易埋怨,世间清浊不由你;莫动辄自弃,众人醉醒由他去。任何时候,别以为自己是谁,也别把自己当成谁,你就是你。如下是小编给大家整理的人生情感与生活感悟经典语录,希望对大家有所作用。 1、何不让它顺其自然呢,该留的不会走,该走的留也留不住。心态好,一切都好……这就是人生! 2、每个人生命里都会有那么一个人,让自己期待新一天的到来。人生如戏,演技全靠你自己,无论杯具,洗具或餐具,都是你自己定的。也许,风雨过后没有期待已久的彩虹。也许努力过后没能得到相应的回报,可毕竟我们都曾努力过。或许彩虹已不远,回报也在前方不远处等着你。请认真过好每一天,相信明天会更好。 3、我们一生所寻求的,不外乎就是有人疼,有人懂。眼中有笑,心中有暖,于人生就是简单的幸福! 4、在人生的旅途中,最糟糕的境遇往往不是贫困,不是厄运,而是精神和心境处于一种无知无觉的疲惫状态:感动过你的一切不能再感动你,吸引过你的一切不能再吸引你,甚至激怒过你的一切不能再激怒你。这时,人需要寻找另一片风景。

5、有一种爱,明明是深爱,却表达不完美。有一种爱,明知道要放弃,却不甘心就此离开。有一种爱,明知是煎熬,却又躲不掉。有一种爱,明知无前路,心却收不回来。 6、每个人心里,都住着这么一个人,遥远的爱着。这辈子也许都无法在一起,也许都没有说过几句话,也没有一起吃饭看电影,可是就是这个遥远的人支撑了青春里最重要,最灿烂的那些日子。以至于让以后的我们,想起来,没有遗憾后悔,只是暖暖的回忆。 7、红尘一醉,愿得一人心。烟火夫妻,白首不相离。弱水三千,我只取一瓢饮。红颜易逝,伊不离君不弃。相濡以沫,执子之手偕老。青色烟雨,孤影等你归来。 8、原来,路,没有错,错的只是选择。爱,没有错,错的只是缘分。自己要相信,无论何地,一路风景总无限,无论何时,我们的年华总会盛开,无论何时何地,我们的爱情会永久。相信自己的心。 9、时间,会沉淀最真的情感;风雨,会考验最暖的陪伴。走远的,只是过眼云烟;留下的,才是值得珍惜的情缘。来得热烈,未必守得长久;爱得平淡,未必无情无义。眼睛看到的许是假象,心的感受才最真实;耳朵听到的许是虚幻,心的聆听才最重要。时间会告诉我们,简单的喜欢,最长远。 10、幸福,其实很简单。当我失落、当我伤心、当我洛泪,你会走到我身边给我一个拥抱,毫不犹豫。说一万句爱,

10条感悟爱情的经典哲理句子-爱情句子

10条感悟爱情的经典哲理句子_爱情句子 1、初恋的人大多都不懂爱,所以初恋失败的多。成功的少。结婚应该找个未婚的,因为谁都喜欢原装。而恋爱,还是找个恋爱过的人才好。因为经历过恋爱的人才知道什么是爱,怎么去爱。 2、人生,没有永远的爱情,没有结局的感情,总要结束;不能拥有的人,总会忘记。人生,没有永远的伤痛,再深的痛,伤口总会痊愈。人生,没有过不去的坎,你不可以坐在坎边等它消失,你只能想办法穿过它。人生,没有轻易的放弃,只要坚持,就可以完成优雅的转身,创造永远的辉煌。 3、爱一个人需要的,是倾诉,而不是控诉;是难忘,而不是遗忘;是彼此交流,而不是凡事交代;是为对方默默祈求,而不是向对方诸多要求;可以浪漫,但不要浪费;不要随便牵手,更不要随便放手。请记住要珍惜眼前的幸福。 4、你总是天真地以为,你把我看得很透彻。其实,我把快乐挂在脸上,把伤痛藏在心里,我的表情可以表达千种心情,但那最伤最痛的部分,不是你轻易就能看得到的。你说的无心的一句话,做的不经意的一件事,或许就是致我伤痛的利刃。因为在乎,所以受伤。 5、我们或许会爱错人、或许会为不值得的事痛哭流涕,但有一点是确信无疑的,那就是错误能帮助我们找到对的那个人,那也是能让我们下次做得更好。有谁是不犯错的呢?我们都有过痛苦的经历,只是为了找到最后的归宿。 6、对于爱情来说,年龄不是差距,财富不是障碍,距离不是问题。心里有爱的人,什么都可以跨越的。但要让女人等待,就必须给她勇气。如果你认为女人只迷恋高富帅熟,只钟爱别墅豪车,那你就错了,她要的只是一份单纯的执着,一个确定的希望。 7、人生,是一场盛大的遇见。漫长的光阴里,你不会只走过一个人的生命,也不会只有一个人走过你的生命。缘来时,猝不及防;缘去时,无力阻止。唯一能做的就是,遇见时,紧握手中珍惜;离别后,深藏心底铭记。 8、拥有忧伤没什么不好,它让你学会成长,学会歌唱;懂得美丽,懂得珍惜;变得优雅,变得善良;享受爱情,承受爱情。不要拒绝它,不要逃避它,不要把

情感分析简述

情感分析简述 分类:NLP2012-04-08 12:38 1022人阅读评论(3) 收藏举报情感classification算法测试translationmatrix 情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文基本上是ACL 和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处 (https://www.doczj.com/doc/c911344368.html,/s/blog_48f3f8b10100irhl.html)。 概述 情感分析自从2002年由Bo Pang提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然Bo Pang实验用的电影评论数据集(https://www.doczj.com/doc/c911344368.html,/people/pabo/movie-review-data/)以及Theresa Wilson等建立的MPQA(https://www.doczj.com/doc/c911344368.html,/mpqa/)是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。 目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题,N元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。 由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。 在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。 以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。 起源 虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于(Pang et al., 2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感情感倾向性分类的研究。(Pang et al., 2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes),最大熵(Maximum Entropy)和支持向量机(Support Vector Machine,SVM)将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney ,2002)基于点互信息(Pointwise Mutual Information,PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。 在此之后的大部分都是基于(Pang et al., 2002)的研究。而相对来说,(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。 监督学习 目前,基于监督学习的情感分析仍然是主流,除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization),(Abbasi et al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯,k最近邻(k-Nearest Neighbor,k-NN),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。 一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。(Pang et al., 2004)基于文本中的主观句的选择和(Wilson el al.,2009)基于文本中的中性实例(neutral instances)的分析,都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain,IG)的方法来选择大量特征集中对于情感分析有益的特征。 而对于特征选择,除了N元语法和词类特征之外,(Wilson el al.,2009)提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,(Abbasi et al.,2008)提出混合句子的句法(N元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。 除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。(Melville et al., 2009)和(Li et al.,2009)提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。(Taboada et al.,2009)提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。(Tsutsumi et al.,2007)提出利用多分类器融合技术来对文本情感分类。(Wan, 2008)和(Wan, 2009)提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。 基于规则/无监督学习

感悟工作的经典句子

感悟工作的经典句子 本文是关于经典语录的,仅供参考,如果觉得很不错,欢迎点评和分享。 感悟工作的经典句子 1、每天所做工作对你没有丝毫快乐,没有一点满足感,对工作有喋喋不休地不满,牢骚满腹地抱怨,会把所有事情做的一团糟,是失败的先兆,更不会使我们得到快乐。 2、一个人应尽自己最大的努力,挖掘自己所有的潜力来实现自己的梦想,努力可能会失败,但放弃则意味着你根本不可能成功。 3、一个人要不断提升自己的境界,从而看得更高、更远,做事也更有效率,这要求人学会自觉地学习和积极的思考,只要能力提高,对环境变化的适应性加强,人一定能够在人群中居于优势地位。 4、人都是感性的,但是在工作中千万别带感情,除非是激情。随着感情工作的人是没有智慧的,它会让你辛辛苦苦积累的形象在一瞬间毁灭。 5、当我们在一起进行工作时,就组成了一个团队。而自己不再是一个人在工作,而是一个团队在齐心协力同心同德忘我的工作。工作做得好,只能反映一个人的工作能力。会做事而不懂得做人,无疑在一个团队中是很孤独的。 6、人有一种能力叫潜能,它像一粒种子能发挥人的超常遐想,只要我们努力在知识的宇宙中探索寻求,挖掘出自身潜能,充分发挥

自己的创新能力,对待工作一丝不苟。积极地面对自己人生,就会开始察觉自己,理解自己,接受自己,再去激励自己,发展自己,从而活出最好的自己。 7、做事重要,做人也重要。在工作过程中,人们所理解和看到的,是一个能够埋头苦干,热心帮助同事,有着良好的人际关系魅力的人,这才是成功之处。 8、我们每个人都需要工作,我想工作应该是一种创造的过程,创造自身价值的过程,用爱去创造,在创造中寻找乐趣和意义才是工作的最高境界。 9、工作不仅是为了拿份薪水,还为了成长和快乐。不要仅仅为了薪水而工作,还应该为梦想而工作,为自己的前途而工作,在以后的工作中只有踏踏实实的干,用心去干,有责任感,才能把工作做得更好。 10、我的工作,我的努力,我的付出,以及我的生活,我爱你们,我更爱我自己。 11、工作中要有“螺丝钉精神”,要培养工作兴趣,学会享受工作过程,学会积累知识,学会把握创新,提高自身技能。 12、生命是没有意义的,除非有工作;所有的工作都是辛苦的,除非有知识;所有的知识是空虚的,除非有热望;所有的热望是盲目的,除非有爱。有爱的工作才是生命的具体化,那么让我们怀着爱工作吧! 13、对待工作要像一颗永不生锈螺丝钉,干一行、爱一行、钻

国内中文分词技术研究新进展

国内中文分词技术研究新进展 冯书晓 徐 新 杨春梅 (石河子大学药学院 乌鲁木齐 832002) 摘 要 就开发中文搜索引擎在汉语语言方面的关键技术之一,即中文分词技术进行综述。 关键词 中文搜索引擎 中文分词 文献检索 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大减轻了用户与计算机的工作量;相对来讲,中文的情形就复杂得多。中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术被称之为 汉语词语切分技术 。根据是否采用词语切分技术,中文搜索引擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊性和复杂性,中文搜索引擎技术还很不成熟,开发中文搜索引擎决不像西文软件的汉化那样简单。在实现中文搜索引擎时,不能照搬国外现成的技术,需要对中文的信息处理技术作专门地研究。自然语言理解领域的应用已经越来越广,但是几乎任何一个基于汉语的系统,都必须经过分词这一步。自动分词系统是中文信息处理中的一个主要组成部分,是中文自然语言理解、文献检索、机器翻译即语音合成系统中最基本的一部分。在搜索引擎中,为了进行中文信息小型化,需要提取关键知识,也就是说首先要分隔出单个的中文词语,然后进行词频统计得到关键词。要开发中文搜索引擎,快速的汉语分词算法和可靠的汉化技术是至关重要的。本文将针对中文分词技术及近年来中文分词技术的发展作一综述。 1 中文分词技术 1.1 中文词的特点 与英文不同,字是汉语的基本独立单位,但是具有一定语义的最小单位却是词。词由单个或多个字构成,一般用得最多的是二字词,其次是单字词,另外还有一些多字词(如成语、专有名词等)。 1.1.1 数量多。汉语中常用的词有 几万条, 现代汉语词典 中收录的词就达 6万个之多。而且,随着社会的发展,不断 地有新词产生。 1.1.2 使用灵活、变化多样,容易产 生歧义。例如同样的两个连续汉字,在有 的句子中构成一个词,而在另外的句子环 境中,却可能不构成词。这给计算机的词 法分析工作带来了极大的困难。 1.1.3 书写习惯。在英文系统中, 词与词之间在书写上用空格隔开,计算机 处理时可以非常容易地从文档中识别出 一个一个的词。而在汉语系统中,书写以 句子为单位,句间有标点隔开,在句内,字 和词则是连续排列的,它们之间没有任何 分隔。这样,如果要对中文文档进行基于 词的处理,必须先要进行词的切分处理, 以正确地识别出每一个词。 1.1.4 其它特点。诸如汉字同音 字、同音异形字等等。 1.2 一般分词方法 目前采用的分词 方法主要有以下几种:最大匹配法、反向 最大匹配方法、逐词遍历法、设立切分标 志法、最佳匹配法、有穷多层次列举法、二 次扫描法、邻接约束方法、邻接知识约束 方法、专家系统方法、最少分词词频选择 方法、神经网络方法等等。除了这些,许 多基于统计的方法也引入到分词过程中。 例如分词与词性标注一体化方法,随机有 限状态算法用于分词,模拟物理研究中结 晶过程的统计方法也被尝试于分词过程。 此外,还有大量的基于统计或规则的汉语 未登录词识别的研究,这里不能一一列 举。但归纳起来不外乎两类:一类是理解 式切词法,即利用汉语的语法知识和语义 知识以及心理学知识进行分词,需要建立 分词数据库、知识库和推理机;另一类是 机械式分词法,一般以分词词典为依据, 通过文档中的汉字串和词表中的词逐一 匹配来完成词的切分。下面笔者就以此 对近年来中文分词技术的进展分类作一 综述。 2 中文分词技术的进展 目前的分词算法多种多样,基本上可 分为两大类:机械性分词和理解性分词 法。后者可谓理想的方法,但在语法分 析、语义分析乃至篇章理解还没有得到解 决之前,其分词实用系统主要采用机械分 词法,但实际上纯机械性分词也无人在 用,一般都使用介于二者之间的某种分词 法。在此,本人称之为综合式分词法,收 录了由作者本人明确指出同时采用了机 械式分词法和理解式分词法的文章。 2.1 机械式分词法 邹海山等在现有 分词技术的基础上,提出了一种基于词典 的正向最大匹配和逆向最大匹配相结合 的中文分词方案,可以高效、准确地实现 中文文档的主题词条的抽取和词频统计。 应志伟等基于一个实际的文语转换系统, 介绍了它的一些处理方法,采用了一种改 进的最大匹配法,可以切分出所有的交集 歧义,提出了一种基于统计模型的算法来 处理其中的多交集歧义字段,并用穷举法 和一些简单的规则相组合的方法从实用 角度解决多音字的异读问题以及中文姓 名的自动识别问题,达到实现文语转换的 目的。陈桂林等首先介绍了一种高效的 中文电子词表数据结构,它支持首字Hasb 和标准的二分查找,且不限词条长度,然 后提出了一种改进的快速分词算法。在 快速查找两字词的基础上,利用近邻匹配 方法来查找多字词,明显提高了分词效 情报杂志2002年第11期 情报检索

关于人生道路的感悟句子

人生道路的感悟句子 世界上最永恒的幸福就是平凡,人生中最长久的拥有就是珍惜。一起来看看关于人生感悟句子,仅供大家参考!谢谢! 人生道路的感悟句子1 1.人生就是一幕戏,每个人都是主角。得是一种短暂,而失是一种境界;使人成熟的不是岁月,而是经历。别把人生想的太难。风总会被雨赶走,何必让身外之物、无聊之事困扰终生?人生犹如一个百味瓶,任你怎么闻辨终不知其味。 2.人生,顺其自然就好,心安自然快乐。事在人为是一种积极的人生态度,随遇而安是一种乐观的处世妙方,顺其自然是一种达观的生存之道人生不易,珍惜拥有,感谢经历!学会妥协,退一步海阔天空;有一种愉悦叫欣然;有一种释怀叫惠然;有一种幸福叫淡然。 3.生容易,活容易,但是生活不容易。每个人都有自己的角色,只是看你怎么扮演这个角色。爱情不是强扭的,幸福终究不是天赐的。人生在于感悟,生活在于领悟。人这一辈子,怎么都是过,与其皱眉头,不如偷着乐。一点点语录网 4.年轻时候,以为坚持是永不动摇;到这个年纪,明白了,坚持就是犹疑着退缩着心猿意马着一步三停着,还在往

前走。最珍贵的宝藏不是金银珠宝,也不是艺术品,不能握在手里,只能用心去感受。 5.岁月使身体长出了皱纹,而放弃梦想则会使灵魂生出皱纹。在你奔跑的时候,风景在变、你追逐的东西也在改变。每一条岔路、每一个山坡与低谷、每一场突如其来的暴风雨,都是锻炼. 6.人生路上常有风雨,凡事需要坚强不屈。要时时调整你的心态,沉淀你的情绪,让心宁静,让心情平和。人生,顺其自然就好,心安自然快乐。我们每天都会接触很多人和事,难免因为外界事物而影响自己心境。 7.平淡是心静如水,人这一辈子,年轻时所受的苦,都不过是一块跳板。生活教会我们,每个人都会有自己的特长。一个人做某些事会比其他事做的更好。 8.不要盘算太多,要顺其自然,人生,选择了复杂,就是选择痛苦;选择了简单,就是选择快乐。失去的风景,走散的人群,等不来的渴望,全都停靠在缘分的尽头。何必太执着,该来的自然来,要走的留不住,放开执念,随缘是最好的生活。 9.幸福不需要太花哨,平凡中带点快乐也好。人生,在心淡中求满足,在尽责中求心安,在奉献中求快乐,在忠诚中求幸福。人生,顺其自然就好,心安自然快乐。你的目光所及,就是你的人生境界。

感悟生活的经典句子

感悟生活的经典句子 1、除了看开点我还能做什么顺其自然会让自己好过。 2、活在别人的掌声中,是禁不起考验的人。 3、假如可以选择时光,我想回到过去。那里有我的怀念,和爱我的你。 4、君子的力量永远是行动的力量,而不是语言的力量。 5、来是偶然的,走是必然的。所以你必须,随缘不变,不变随缘。 6、蓝天下便是阳光,艰苦后便是甘甜,失败就当经验,成功时便是灿烂。 7、没有离不开,只有不想离开;没有舍不得,只有放不下。 8、每个人都有无数个面具,最后却忘了究竟把自己放在了哪里。 9、哪里会有人喜欢孤独,不过是不喜欢失望。 10、你什么时候放下,什么时候就没有烦恼。 11、你真的走了,而我也感觉到累了,是你离开了,剩我一个人了。 12、陪着你快乐的是红颜;伴着你悲伤的是知己。 13、其实爱美的人,只是与自己谈恋爱罢了。 14、人和爱情一样,错过了爱情就错过了人生。

15、人们声称最美好的岁月其实都是最痛苦的,只是事后回忆起来才那么幸福。 16、家,一个温馨的字眼;一个让不如意的人重新获得信心,获取勇气的地方;一个让经历了大风大浪的人酣然入梦的避风港。 17、快乐是一天,不快乐也是一天,为什么不天天快了呢? 18、两个人在一起能做最多的事,就是陪伴。我干我的,你干你的,有两三个小时的晚间黄金时间,他们都是独享的。但你知道一个空间里有另一个人坐在那儿,你就感到很踏实这就是所谓的“个人空间”。虽然那两三个小时他们都在自己的世界里,但不同的是,身边伴着另一个人这就是爱情,最常态的爱情。 19、每个人都有历史,你也有,我也有,我们再遇见对方之前,都有自己的经历,过去没有办法改变,也因为过去变成了现在的你和我。我们遇见、相爱,我们能改变的只有将来。现在的每一刻都决定着将来,将来的每一刻都在我们的手心里。 20、每个人都有一段悲伤,想隐藏却欲盖弥彰。 21、男人需要信任、接受、感激、赞美、认可和鼓励,而女人更需要的是关心、理解、尊重、忠诚、体贴和安慰。

基于深度学习的中文短文本情感分析

基于深度学习的中文短文本情感分析 随着互联网不断发展,网络评论平台不断增加,用户评论数量也 爆发式增长。利用情感分析技术能够有效的挖掘文本包含的情感信息,目前已成为社会舆情监督和厂家获取反馈信息的重要途径,具有很高的研究价值。本文的研究目的是探究中文短文本中所包含的情感信息,主要解决文本情感极性褒贬义分类问题。传统的情感分析方法主要有两种:基于情感词典的方法和基于机器学习的方法。但由于文本语料简短,含有大量未登录词使得上述方法存在数据稀疏问题,且过分依 赖领域专家的标注。近年来出现的深度学习技术能够很好的解决上述问题。因此,本文采用深度学习的方法对中文短文本进行情感分析。主要研究内容如下:首先,在文本数据预处理过程,针对目前网络上存在的大量未登录词,设计了一种新词发现方法,主要是利用词语的内 部凝固度、边界自由度及语言规则对候选新词进行过滤。将识别的新词加入词库,提高分词的准确率。其次,传统的词向量仅考虑了文本中的语义语法信息,会将语义相近,情感极性却相反的词语映射到相邻 的位置,导致最终分类结果错误。为了解决此问题,本文在传统词向量的基础上融合了情感信息,提出一种情感词向量的生成方法。最后, 针对循环神经网络在处理时序信息发生的梯度消失问题,本文提出基于GRU(Gated Recurrent Unit)的情感分析模型,将循环神经网络的隐层节点替换为GRU单元,用于情感分析。本文利用Python中的Keras 深度学习库构建提出的GRU情感分析模型,通过实验,找到模型最佳 参数,并在最佳参数下进行情感分析,其分类的准确率达到92.01%。

将其与机器学习模型SVM及深度学习模型LSTM,CNN进行对比实验,结果表明,在所有指标下,本文提出的以情感词向量作为输入的情感分析模型明显优于其他模型。

感悟工作的经典句子

感悟工作的经典句子 1、做事重要,做人也重要。在工作过程中,人们所理解和看到的,是一个能够埋头苦干,热心帮助同事,有着良好的人际关系魅力的人,这才是成功之处。 2、在一个工作环境里,在完成自己工作任务的同时,也会尽自己所能去帮助身边的同事,而绝不是只顾做好自己手头的工作而忘了自己是属于工作团队的一分子。 3、一个人应尽自己最大的努力,挖掘自己所有的潜力来实现自己的梦想,努力可能会失败,但放弃则意味着你根本不可能成功。 4、工作中只有用心做事,才能学到更多,学到的任何技能和知识都可能成为自己未来的生存工具,工作是一个人生存的手段,是幸福人生的保障,没有工作生活会变得怎样?用心工作,过好每一天,干好每一件事,总有天会有所收获,对自己没有坏处。 5、路是走出来的,可你是否知道,路是土地的伤痕,哪怕再好走,我们每前进一步,都会觉察到一种人生的隐痛。走在别人走过的路上,演绎的是大家熟视无睹的痛,于是也就不觉得痛了。人生最痛的是,始终如一地走自己的路,那其实是没有路的,只为了坚持做心中的自己,我们决绝地固守着这份执着。 6、每天所做工作对你没有丝毫快乐,没有一点满足感,

对工作有喋喋不休地不满,牢骚满腹地抱怨,会把所有事情做的一团糟,是失败的先兆,更不会使我们得到快乐。 7、人都是感性的,但是在工作中千万别带感情,除非是激情。随着感情工作的人是没有智慧的,它会让你辛辛苦苦积累的形象在一瞬间毁灭。 8、我们每个人都需要工作,我想工作应该是一种创造的过程,创造自身价值的过程,用爱去创造,在创造中寻找乐趣和意义才是工作的最高境界。 9、一个人,真正能做出些东西的地方其实是很有限的,他或许不必看许多书,但是对一些相关重要的知识或者经典文献要沉思潜玩,吟咏默存。真正的工作经验一定是长时间一点一点积累出来的。通过媒体炒作和舆论引导推出的职场明星,不论他有怎样的名声和地位,他的做事能力和事业成就都值得打折扣。工作的时候不需要张扬,甚至不需要赶着向人展示自己,它有自己自足的价值。 10、我们都愿意相信,只要去努力,会有好前程。有许多人都在忙碌着,有的就是明明白白地为着那个美好的前程。就他们对自己的活动有自觉的认识、对自己的未来有明确的规划而言,他们是值得钦佩的。因为,各人有各人寻找快乐的方法,有自己享受快乐的形式。我学会了在一个更加宽泛的意义上理解生活,并且尊重别人对快乐的理解和选择。他们,和我一样,在用自己的方式体悟生活的真谛。

自然语言检索中的中文分词技术研究进展及应用_何莘

自然语言检索中的中文分词技术研究进展及应用 何 莘1 ,王琬芜 2 (1.西安石油大学机械工程学院,陕西西安710065;2.浙江大学信息科学与工程学院,浙江杭州310058)摘 要:中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 关键词:中文分词;自动分词;分词算法 中图分类号:TP391,G354 文献标识码:A 文章编号:1007-7634(2008)05-0787-05 Research and Application of Chinese Word Segmentation Technical Based on Natural Language Information Retrieval HE Xin 1 ,W ANG Wan -wu 2 (1.School o f Mechanical Engineering ,Xi p an Shiyou University ,Xi p an 710065,China ;2.School o f In f o rmation Science and Engineering ,Zhejiang University ,Hangzhou 310058,China )Abstract :Chinese word segmentation technique is the important foundation that realize the natural language re -trieval,also is the key topic of the research in information retrieval domain.Professional information retrieval sys -te m and search engine both depend on the research achievements of word segmentation technique.This paper in -dexes in the domestic and international famous database,then Chinese word segmentation technique has been ana -lyzed in fa mous search engines is sum marized. Key words :Chinese word segmentation;automatic word se gmentation;word segmentation algorithm 收稿日期:2007-10-23 作者简介:何 莘(1968-),女,河北保定人,工程师,从事信息存储与检索技术、数字资源管理、搜索引擎技术等研究. 1 分词及分词算法 从中文自然语言句子中划分出有独立意义词的过程被称为分词。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位。由于中文词与词之间没有明确的边界,因此,中文分词技术中文信息处理的基础是机器翻译、分类、搜索引擎以及信息检索。中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。现有的分 词算法可分为三大类:基于字符串匹配的分词方 法、基于理解的分词方法和基于统计的分词方法。 111 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个/充分大的0机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 (1)正向最大匹配法(MM 法)。其基本思想 第26卷第5期2008年5月 情 报 科 学 Vol.26,No.5May,2008

感情感悟的经典句子

感情感悟的经典句子 【篇一感情感悟的经典句子】感悟感情的1、愿得一人心,白首不相离。 那些与你心心相携的日子是我中最快乐的时光。 在我心中开出最美的繁花。 今生与你,唯爱相依,唯你相依。 爱染流年,许下一个不悔。 希望在生命的下一个轮回里,还能这样的等着你,爱着你,守候着你。 一季花开,遇到爱,便是圆满。 一次回眸,遇到你,便是幸福。 2、看完此剧后,心许久不能平静,似乎把我带进了剧情里,也为我们更好的诠释了,爱情的城堡里,有彼此的思念与牵挂,有彼此的位置,这个位置无人能代替。 在这部剧里我能体会到建新与静秋不见面时的那种内心揪结,那个时代的爱情不能随着自己的意志而转移。 3、我一直相信有一种相遇可以在灵魂里,有一种爱可以深入骨髓。 爱是梦醒时分对你深深的思念,爱是不经意间对你的牵挂,爱是想与你朝朝暮暮的期盼。 爱是那场想与你天涯海角永相随的梦。 爱是一生一世不离不弃的真情。

爱是痛着你的痛快乐着你的快乐的付出,爱是想你时的微笑和挂在脸上的泪珠。 4、我在想世上真的有永恒的爱情,真的有至死不渝的爱情爱出自于内心深处,当心里有一个人的时候,能感受到对方的情感世界,处处为他担心劳神。 爱有几何,付出的一切都是为自己心爱的人。 付出的是真心,付出的是生命。 5、今生为你,我愿用牵念将流年望穿。 今生为你,我愿用思念诠释爱情不老的传奇。 红尘深处,握着一路相随的暖意,浅浅相遇,深深相惜,心心相携,长相厮守。 就算有一天青春故去,岁月老去,年华逝去,我们依然永如初见,深深相爱,温暖相望,回眸处,浅笑如初。 6、爱情的童话里,还好你遇到了我,还好我遇到了你。 只是路过也如此美丽,美丽得连心疼都多余。 只是这样看你微笑,一辈子,就够了。 7、其实,我很想告诉他,要把每一个爱情,当成所要追寻的幸福童话,那样,当我们对待爱情时,才不会那么盲目,那么无措。 只要相信爱情,那么心中就能够放得下童话,我们只有相信童话式的爱情,才会爱得单纯,爱的平淡,爱的长久。 8、是谁说的,爱情里没有童话又是谁说的,爱情不过是宿

关于感情的经典句子 爱情感悟经典句子大全

关于感情的经典句子爱情感悟经典句子大 全 关于感情的经典句子1、没钱没房不要愁,人气旺旺就是宝。点点积攒在平时,付出真心最重要。行善修来好福气,危难时刻贵人助。发你一张好人卡,好人必有好人福。此卡一出,万事顺畅。 2、好色和风流是两个不同的事情。无论男人女人都有好色的一面。只是喜欢看美女帅哥,又不真干点什么,这是人之常情。而风流则是有贼心又有贼胆,不止好色,还真的要去找人发生点什么。好色不会出轨,风流才会劈腿。所以找爱人可以找好色的,却切不可找风流的。--陆琪 3、幸运不会永远眷顾,幸福不会永远守护,生活本来就充满变数,不必为烦恼哭诉,用坦荡潇洒的态度,看清人生里的迷雾,用随心随缘的心情,放松命运里的困难,愿你的世界精彩无限。 4、既然这人间肯定了各种欲望都可以达到最多的满足,为什么(多可笑的事)单单不使恋爱发展到丰富的极致 5、突然就难过了,不知道是为了从前,还是因为现在! 6、抱怨怨不来好运相伴,苦叹叹不来辉煌灿烂,怨恨恨不完人生苦烦,发泄泄不尽不公责难;人生只有踏实上进,迎难踏险,才有最终的美好缠绵;愿你遇事不抱怨,待事心平淡,做事要努力,成败顺自然! 7、错爱,是喜欢却不合适的鞋,穿了脚疼,扔了心疼。

8、有些人在婚姻上的失败,并不是找错了对象,而是从一开始就没弄明白:在选择爱情的同时,也就选择了一种生活方式。 9、愈害怕失去的人,愈容易失去。愈想得到,就愈要放手。放手是很难的,但是别无选择。世上有很多东西是可以挽回的,比如良知,比如体重。但不可挽回的东西更多,譬如旧梦,譬如岁月,譬如对一个人的感觉。放弃一个很爱你的人并不痛苦,放弃一个你很爱的人才是痛苦。 10、我的小情绪在慢慢堆积,堆积成了一座高楼,每天夜里我纵身一跃,梦总会惊醒。 11、拼命对一个人好,怕做错一点对方就不喜欢你,这不是爱,而是取悦。分手后更爱对方,没他就活不下去,这不是爱情,是不甘心。 12、有些人看起来毫不在乎你,其实你不知道他忍住了多少次想要联系你的冲动。 13、真爱不是无微不至的呵护和关怀,不是鲜花与掌声铺垫的一路坦途,不是执子之手信誓旦旦的承诺,不是填满人性无穷无尽的欲壑。真爱是荆棘和险滩,是放手让你自己闯出成功的快乐,让你学会自己走路,让你在无数的经历和挫折中成长并成熟。 14、"静静的想你是一种知足,耐心的等待是一种幸福,真诚的为你是一种感悟,拥抱的心情是一种归宿.让我们静静的耐心的真诚的拥抱走上爱情之路。" 15、流过的泪说过的话仍在我心中虽然已经失去你 16、如果哪一天我爱的人跟着别人走了,那么我唯一的心愿,是请上苍赐给我一个好一点的情敌,让我输得心甘情愿痛快淋漓。

相关主题
文本预览
相关文档 最新文档