列表问答系统中的答案聚类重排序

格式：pdf
大小：684.42 KB
文档页数：3

下载文档原格式

/ 3

基于人工智能的智能问答系统设计与实现

基于人工智能的智能问答系统设计与实现一、引言随着人工智能技术的不断发展，智能问答系统在各个领域得到了广泛的应用。

智能问答系统是一种能够理解用户提出的问题，并给出相应答案的人工智能系统。

本文将介绍基于人工智能的智能问答系统的设计与实现过程，包括系统架构、核心技术和实际案例分析。

二、系统架构1. 数据采集与处理智能问答系统首先需要建立一个庞大的知识库，以支持对用户问题的回答。

数据采集可以通过网络爬虫等方式获取各种文本数据，然后进行处理和清洗，构建结构化的知识图谱。

2. 自然语言处理自然语言处理是智能问答系统中至关重要的一环，包括分词、词性标注、句法分析等技术。

通过自然语言处理技术，系统可以理解用户提出的问题，并将其转化为计算机可处理的形式。

3. 问题匹配与检索在接收到用户问题后，系统需要进行问题匹配与检索，找到最相关的答案。

这一过程通常包括倒排索引、相似度计算等技术，以提高检索效率和准确性。

4. 答案生成与展示根据检索到的结果，系统需要生成符合用户需求的答案，并以易懂的方式展示给用户。

这可能涉及到文本生成、知识推理等技术，以确保答案的准确性和可读性。

三、核心技术1. 机器学习机器学习是智能问答系统中常用的核心技术之一，包括分类、聚类、回归等算法。

通过机器学习，系统可以从海量数据中学习规律，并不断优化自身的表现。

2. 深度学习深度学习是近年来备受关注的人工智能技术，在智能问答系统中也有广泛应用。

深度学习模型如神经网络可以帮助系统更好地理解复杂问题，并给出更精准的答案。

3. 强化学习强化学习是一种通过试错来优化决策的方法，在智能问答系统中可以用于优化问题匹配和答案生成过程。

通过强化学习，系统可以不断改进自身的表现。

四、实际案例分析以目前比较知名的智能问答系统小冰为例，它基于微软亚洲研究院开发的人工智能技术，可以回答各种类型的问题，并且具有较高的准确率和流畅度。

小冰通过不断学习用户反馈和数据更新，逐渐提升了自身的智能水平。

上下文聚合模块的作用

上下文聚合模块的作用1.数据收集：首先，系统需要收集大量的原始文本数据，包括新闻文章、论文、博客、社交媒体帖子等。

这些数据可以从公共数据库或互联网上进行获取。

2.文本预处理：在进行上下文聚合之前，必须对原始文本数据进行预处理。

通常包括去除噪声、分词、词性标注、语义分析等步骤，以便对文本进行更好的理解和处理。

3.上下文建模：在上下文聚合过程中，需要将文本数据转化为计算机可处理的形式。

这就需要使用一些统计和机器学习算法，构建上下文模型。

上下文模型可以使用向量空间模型、主题模型、图模型等方法来表示文本的语义和关联性。

4.相似性计算：在上下文聚合过程中，需要计算文本之间的相似性。

这些相似性可以基于词语相似性、句子相似性、文档相似性等进行计算。

通过计算相似性，可以找到相关的文本或子集，以用于后续的聚合和分析。

5.聚合和过滤：在上下文聚合过程中，需要进行聚合和过滤操作，将相关的文本聚合在一起，并剔除不相关或重复的文本。

这可以通过聚类、匹配、排名等算法来实现。

6.结果展示：最后，上下文聚合模块需要将结果以易于理解和使用的方式进行展示。

这可以是文本摘要、关键词提取、结果排序等形式。

1.信息检索：上下文聚合可以为用户提供更准确、有用的结果。

通过将相关的文本聚合在一起，可以提供更全面的信息，以满足用户查询的需求。

此外，通过计算相似性，可以将与用户查询有关的文本筛选出来，以提供更准确的结果。

2.问答系统：上下文聚合对于问答系统很重要。

在回答用户的问题时，系统需要从大量的文本数据中找到相关的信息，并将其合并为一个准确的答案。

通过上下文聚合，系统可以找到与问题相关的文本，并将其聚合在一起，以便提供一个综合的答案。

3.情感分析：上下文聚合可以用于情感分析任务。

通过将与其中一主题或事件相关的文本聚合在一起，可以对该主题或事件的情感进行分析。

这可以帮助企业了解用户对其产品、服务、品牌等的情感倾向，以便制定相应的市场策略。

4.舆情分析：上下文聚合可以用于分析公众对其中一事件或话题的态度和观点。

问答系统—问题分类PPT演示文稿

去掉停用词，得到如下形式：Q1 Q2……Qn。 qc为问题类型的变量 ▪ 我们的目标：
am rq g P c a ( q|x Q c 1 ,Q 2 ,.Q n .) .a ,m rq g P c a ( P q ( Q ,x Q 1 ,1 c Q ,Q 2 ,2 ,.Q .Q n .) n .) ..,,
▪ 2.如果一个词在集合中很多问题类型中都出现多次，那么它对分类的贡献就小。
▪ 基于此，我们采用了tf-idf进行权值处理。
14
Tf-idf公式
▪ Tf-idf公式
P 2 (q,tc e) rP 1 m (q,tc e)* r lo m M N g 0 0 ..1 5 ()
▪ 参数含义： ▪ 其中N和上面的一样，N=65，M表示term在
18
Tf-idf二次处理(续)
▪ 例如在考虑DES_OTHER类型中的“什么/r” ▪ counter(DES_OTHER, 什么/r)= ▪ counter(DES_OTHER, 什么/r)*log X
Y
▪ X为语料库中DES_OTHER的问题实例数目， Y为“什么/r”在DES_OTHER出现的次数，即通过这样的降低权值以后，性能有了一定的提高。
• (2)杨利伟是第一个进入太空的中国人，第431位进入太空的地球人。. 当飞船绕地球运行第八圈时 ……
▪ 5. 答案抽取(世奇讲解) ▪ 6. 答案排序和选择(根据编辑距离进行聚类) ▪ 7. 系统输出：杨利伟
5
问题分类
▪ 我所用的两种算法
• SVM算法(用的是 .tw/~cjlin/libsvm/所提供的libsvm-2.6程序包 )
• 简化贝叶斯算法
6
利用布尔权值的SVM

人工智能单选练习题库含参考答案

人工智能单选练习题库含参考答案一、单选题（共100题，每题1分，共100分）1、人工智能诞生在1955年，50年代末第一款神经网络-（）将人工智能推向了第一个高潮。

A、感知机B、无人机C、费曼机D、机器人正确答案：A2、GooLeNet中使用较多小tricks，其中全局平局池化GAP就是一个，使用GAP的优点是（）A、加速模型收敛B、提供更好的分类C、增加网络深度D、减少参数量，实现任意大小的输入正确答案：D3、学习器的实际预测输出与样本的真实输出之间的差异称为(___)。

A、误差B、精度C、查准率D、错误率正确答案：A4、华为的芯片支持 HUAWEI HiAI 的哪一个模块?A、HiAI FrameworkB、HiAI ServiceC、HiAI FoundationD、HiAI Engine正确答案：C5、有统计显示，在未来，非结构化数据的占比将达到（）以上。

A、$0.90B、0.8C、0.6D、0.7正确答案：A6、我国人工智能的发展战略是（）。

A、12320工业互联B、“1438”战略C、新一代人工智能发展规划D、国家制造创新正确答案：C7、()就是指分类任务中不同类别的训练样例数目差别很大的情况A、类别不相同B、类别不对等C、类别不平衡D、类别数不同正确答案：C8、以下哪个关键字是与 try 语句一起使用来处理异常的？A、&catch(a)&B、catch&C、&exception&D、&except正确答案：D9、深度学习中的“深度”是指()A、计算机对问题的处理更加灵活B、中间神经元网络的层次很多C、计算机的求解更加精准D、计算机理解的深度正确答案：B10、增强现实领域（AR）大量应用了（）,典型的就是微软的HoLolens。

A、计算机视觉B、语音识别C、图像处理D、虚拟现实技术正确答案：A11、DBSCAN在最坏情况下的时间复杂度是（）A、O(m2)B、O(m*logm)C、O(logm)D、O(m)正确答案：A12、多义现象可以被定义为在文本对象中一个单词或短语的多种含义共存。

rerank重排算法

rerank重排算法rerank重排算法是一种常用的排序算法，可以根据特定的规则对数据进行重新排序。

在实际应用中，rerank重排算法通常用于搜索引擎、推荐系统和排序系统等场景中，以提供更准确、个性化的排序结果。

在搜索引擎中，rerank重排算法可以根据用户的搜索意图和搜索历史等信息，对搜索结果进行重新排序，以呈现用户最相关的搜索结果。

在传统的搜索引擎中，通常会使用TF-IDF等算法对文档进行排序，但这种排序方式往往无法考虑到用户的个性化需求。

而rerank 重排算法可以通过分析用户的点击行为、浏览历史和社交网络等信息，对搜索结果进行个性化的重排，提高搜索结果的相关性和用户满意度。

在推荐系统中，rerank重排算法可以根据用户的兴趣和行为等信息，对推荐结果进行重新排序。

传统的推荐算法往往只考虑用户的历史行为和兴趣偏好，无法很好地适应用户的动态兴趣和个性化需求。

而rerank重排算法可以根据用户的实时行为和上下文信息，对推荐结果进行实时的个性化重排，提高推荐的准确性和用户的满意度。

在排序系统中，rerank重排算法可以根据特定的排序规则，对数据进行重新排序。

在电商平台中，rerank重排算法可以根据商品的销量、评价、价格等信息，对搜索结果进行重排，以提供最符合用户需求的商品。

在新闻推荐中，rerank重排算法可以根据新闻的热度、时效性、用户兴趣等信息，对新闻进行重新排序，以提供最相关和最有价值的新闻。

rerank重排算法的实现通常包括以下几个步骤：数据预处理、特征提取、模型训练和结果重排序。

首先，需要对原始数据进行预处理，包括数据清洗、去重、归一化等操作。

然后，需要从原始数据中提取相关的特征，可以包括文本特征、图像特征、用户特征等。

接下来，需要使用机器学习或深度学习等方法，对提取到的特征进行模型训练。

最后，根据得到的模型和特征，对数据进行重排序，以得到最终的排序结果。

在rerank重排算法的实现过程中，需要考虑多个因素。

基于NLP技术的智能问答系统设计与开发

基于NLP技术的智能问答系统设计与开发智能问答系统是一种能够模拟人类问答过程的计算机程序，通过利用自然语言处理（NLP）技术，能够理解用户问题并提供准确、有价值的回答。

随着人工智能和自然语言处理技术的快速发展，智能问答系统在各个领域得到广泛应用，如医疗健康咨询、在线客服、智能助手等。

本文将介绍基于NLP技术的智能问答系统的设计与开发，包括需要考虑的关键步骤、技术工具和常见挑战。

首先，对于智能问答系统的设计与开发，需要进行以下关键步骤：1. 数据收集和预处理：收集相关领域的问题和答案数据集，并进行数据清洗和预处理。

预处理包括去除标点符号、停用词和非关键词，进行分词和词性标注等。

2. 问题理解和匹配：利用机器学习和自然语言处理技术，对用户的问题进行理解和匹配。

这包括识别问题的类型，提取问题的关键信息，并将问题与数据库或知识图谱进行匹配。

3. 答案生成和排序：根据匹配到的问题，生成准确的回答，并对多个可能的答案进行排序。

答案生成可以基于知识图谱、检索式方法或深度学习模型进行。

4. 用户界面设计：设计一个友好、直观的用户界面，使用户可以方便地提问并获得答案。

用户界面可以是一个网页、移动应用或者聊天机器人等。

其次，为了实现智能问答系统，需要使用一系列的技术工具和算法：1. 机器学习算法：可以使用分类算法、聚类算法和序列模型等对问题进行分类和匹配。

2. 自然语言处理工具：如NLTK、SpaCy和Stanford CoreNLP等，可以用于分词、词性标注、实体识别和句法分析等任务。

3. 知识图谱和数据库：建立一个包含领域相关知识的数据库或知识图谱，以便对问题进行匹配和答案生成。

4. 文本检索引擎：如Elasticsearch和Solr等，可以用于根据问题进行答案检索和排序。

在实际的智能问答系统设计与开发中，也会遇到一些常见的挑战：1. 理解多义性问题：由于自然语言的多义性，同一句话可能有多个不同的含义。

因此，需要设计合适的算法来解决这个问题，如基于上下文的理解和语境处理。

人工智能及其在工程领域的应用考试

人工智能及其在工程领域的应用考试单选题（共30题，每题2分）1 ．人工智能诞生于【】。

•A．达特茅斯(Dartmouth)•B．伦敦(London)•C．纽约(New York)•D．拉斯维加斯(Las Vegas)••••••••••••••••5 ．1977年，美国斯坦福大学计算机科学家费根鲍姆在第五届国际人工智能联合会议上提出【】的概念。

•A．专家系统•B．知识工程•C．深度学习•D．数据挖掘•••••••••••••••••••••••••••••••••••••••C．完全代替人•D．模拟、延伸和扩展人的智能•••••••••••••••••••B．图像识别•C．语音识别•D．逆向识别•••••••••••••••••A．Web数据发现•B．Web网络布局发现•C．Web结构发现•D．Web体系结构发现••••••••••••••••29 ．【】从表示目标的谓词或命题出发，使用一组产生式规则证明事实谓词或命题成立，即首先提出一批假设目标，然后逐一验证这些假设。

•A．因果推理•B．正向推理•C．逆向推理•D．逻辑推理••••多选题（共10题，每题3分）1 ．人类视觉系统由【】、【】、【】三部分组成。

•A．神经传输系统•B．脑垂体•C．大脑的视觉中枢•D．眼球•••••••C．从智能体的目标、意图和规划等心智态度出发来研究多智能体间的协作•D．从智能体的发展研究出发来研究多智能体间的协作••••••••••••••••••••D．以合适的计算机编程语言实现••••••••判断题（共10题，每题1分）1 ．“端到端”式的问答系统就是通过深度学习方法利用神经网络直接计算问题和候选答案对的匹配程度，然后以匹配度最高的问题答案对作为问题的最佳答案。

对错4 ．正向推理由事实（数据）驱动，从一组事实出发推导结论。

对错。

Pythonlist排序方法reverse、sort、sorted详解

Pythonlist排序⽅法reverse、sort、sorted详解python语⾔中的列表排序⽅法有三个：reverse反转/倒序排序、sort正序排序、sorted可以获取排序后的列表。

在更⾼级列表排序中，后两中⽅法还可以加⼊条件参数进⾏排序。

reverse()⽅法将列表中元素反转排序，⽐如下⾯这样>>> x = [1,5,2,3,4]>>> x.reverse()>>> x[4, 3, 2, 5, 1]reverse列表反转排序：是把原列表中的元素顺序从左⾄右的重新存放，⽽不会对列表中的参数进⾏排序整理。

如果需要对列表中的参数进⾏整理，就需要⽤到列表的另⼀种排序⽅式sort正序排序。

sort()排序⽅法此函数⽅法对列表内容进⾏正向排序，排序后的新列表会覆盖原列表（id不变），也就是sort排序⽅法是直接修改原列表list排序⽅法。

>>> a = [5,7,6,3,4,1,2]>>> a.sort()>>> a[1, 2, 3, 4, 5, 6, 7]许多python初学者，对sort()⽅法⽐较糊涂。

有的时候会需要⼀个排序好的列表，⽽⼜想保存原有未排序列表，他们会这么操作：>>> a = [5,7,6,3,4,1,2]>>> b = a.sort()>>> print bNone这个时候问题出现了，变量b得到的是⼀个空值。

那么想要得到排序好的列表，⼜想保留原列表怎么办呢？列表sorted()⽅法可以帮你实现。

sorted()⽅法即可以保留原列表，⼜能得到已经排序好的列表sorted()操作⽅法如下：>>> a = [5,7,6,3,4,1,2]>>> b = sorted(a)>>> a[5, 7, 6, 3, 4, 1, 2]>>> b[1, 2, 3, 4, 5, 6, 7]sorted()⽅法可以⽤在任何数据类型的序列中，返回的总是⼀个列表形式：>>> sorted('')['.', 'a', 'c', 'h', 'i', 'l', 'm', 'n', 'o', 'o', 'p', 'p', 't', 'y', 'y']三者的区别sort()是可变对象(字典、列表)的⽅法，⽆参数，⽆返回值，sort()会改变可变对象，因此⽆需返回值。

语义相似度计算及其应用研究

语义相似度计算及其应用研究一、本文概述本文旨在深入探讨语义相似度计算的理论基础、实现方法以及其在多个领域的应用实践。

我们将首先介绍语义相似度计算的基本概念，阐述其在信息处理和自然语言处理领域中的重要性。

随后，我们将详细介绍几种主流的语义相似度计算方法，包括基于词向量的方法、基于深度学习的方法等，并对比它们的优缺点。

在此基础上，我们将进一步探讨语义相似度计算在多个领域，如信息检索、机器翻译、问答系统、情感分析等中的应用，并通过实例分析展示其在这些领域中的实际效果。

我们将对语义相似度计算未来的发展趋势进行展望，以期能为相关领域的研究和实践提供有益的参考。

二、语义相似度计算的理论基础语义相似度计算，作为自然语言处理（NLP）领域的重要分支，其理论基础主要建立在语言学、信息论、概率统计和机器学习等多个学科交叉融合的基础之上。

其核心目标在于度量两个文本片段在语义层面上的相近程度，从而实现对文本深层含义的理解和比较。

语言学理论为语义相似度计算提供了基本的分析框架。

根据词汇语义学的观点，词语的意义是由其在不同上下文中的使用方式决定的。

因此，在计算语义相似度时，需要考虑词语在特定语境中的含义，而不仅仅是孤立的词汇本身。

句法结构和篇章结构等语言学知识也为语义相似度的计算提供了重要的线索。

信息论为语义相似度计算提供了量化分析的工具。

在信息论中，信息被视为一种减少不确定性的度量。

语义相似度可以被理解为两个文本片段所传递信息的重合程度。

通过计算两个文本片段之间的互信息、条件概率等信息论指标，可以量化地评估它们的语义相似度。

概率统计方法也为语义相似度计算提供了有效的手段。

在概率框架下，语义相似度可以通过比较两个文本片段的概率分布来计算。

例如，潜在语义分析（Latent Semantic Analysis, LSA）和潜在狄利克雷分布（Latent Dirichlet Allocation, LDA）等概率模型，通过挖掘文本中隐含的主题信息，可以实现对文本语义的有效表示和比较。

聚类结果排序

聚类结果排序一、引言聚类是一种常用的数据分析技术，用于将数据集划分为具有相似特征的组。

聚类结果排序则是对聚类结果进行排序，即按照某种规则对聚类结果中的簇进行排列。

在本文中，我们将探讨聚类结果排序的意义、常用的排序方法以及相关应用等方面内容。

二、聚类结果排序的意义聚类结果排序对于进一步分析和理解数据集中的结构和特征非常重要。

通过对簇进行排序，我们可以获得以下好处：1.发现重要特征：通过排序，我们可以从聚类结果中找到重要的特征。

例如，某些簇可能具有更高的平均值或更小的方差，表明该簇中的数据点在某个特征上具有显著差异。

这些重要特征可能对于我们理解数据集中的模式和规律至关重要。

2.可视化和解读结果：排序后的聚类结果更容易可视化和解读。

通过对簇进行排序，我们可以将相似的簇放在一起，更好地理解数据集中的分组结构。

这样的可视化结果能够帮助我们快速理解和解读聚类结果。

3.指导后续分析：聚类结果排序也可以作为后续分析的重要指导。

例如，我们可以根据排序结果选择具有代表性的簇进行进一步分析，或者将排序结果用于分类、异常检测等任务中。

三、常用的聚类结果排序方法以下是常用的聚类结果排序方法：1. 基于平均值的排序基于平均值的排序方法根据每个簇的平均值进行排序。

平均值可以代表簇中数据点的特征。

较高的平均值说明簇中的数据点在某些特征上具有较高的值，而较低的平均值则相反。

通过对簇的平均值进行排序，我们可以发现具有显著特征的簇。

2. 基于方差的排序基于方差的排序方法根据每个簇的方差进行排序。

方差可以反映簇中数据点的分布情况。

较大的方差表明簇中的数据点在某些特征上存在较大的差异，而较小的方差则相反。

通过对簇的方差进行排序，我们可以发现具有显著差异的簇。

3. 基于密度的排序基于密度的排序方法根据每个簇的密度进行排序。

密度可以反映簇中数据点的紧密程度。

较高的密度说明簇中的数据点之间存在较强的关联性，而较低的密度则相反。

通过对簇的密度进行排序，我们可以发现具有不同关联性的簇。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第27卷第7期计算机应用与软件Vo l 27No .72010年7月 Co m puter Applicati o ns and Soft w are Ju.l 2010列表问答系统中的答案聚类重排序潘炜沈超(复旦大学计算机科学与工程系上海200433)收稿日期:2009-02-08。

潘炜,硕士,主研领域:自然语言处理,语义网。

摘要列表问题是自动问答系统中非常重要的一类问题,返回多少个答案是处理好该类问题的关键之一。

在现有系统的基础上,把候选答案转换成对应的语义向量表示,然后利用高斯混合模型进行聚类并输出得分均值最高的一类。

该方法能自动适应问题,而且实现简单。

实验表明,这样的答案重排序取得了显著的性能提升。

关键词问答系统列表问题语义向量表示高斯混合模型聚类CLUSTERI NG BASED ANS W ER RE RANK I NG I N L I ST QA S YSTEMPan W e i Shen Chao(De part men t of Co mpu te r S cie n ce and T ec hnology,Fudan Un iversit y,S hangha i200433,Ch ina )Abstrac t L ist questi ons are a great i m po rtant k i nd o f questi on i n autom ated questi on ans we ri ng syste m and the nu m ber o f output ans w ers to these questi ons i s one of t he key i ssues to tackle such prob l em s .The paper i ntroduces a new me t hod on t he bas i s o f current sy stem s ,wh ichfirst translates cand i date ans w ers i nto co rresponding se m antic vector representa ti ons before perfor m i ng G aussian m i x ture m ode l based c l uste ri ng ,and then ou t puts the cl uster w it h h i ghest average score .T he m e t hod is v ery easy to i m p le m ent wh ile adaptive to ind i v i dua l li st questi ons .Exper i m ents show that t he c l ustering based ans w er re rank i ng he l ps to ach ieve t he s i gnificant i m provement on ove ra ll perfor m ance .K eywords QA syste m L i st questi on Se m anti c ans we r vecto r G aussian m ixture m ode l C l usteri ng0 引言由于网络的高速发展及其庞大的数据量,互联网已经逐渐成为信息的主要来源。

搜索引擎就是一种方便用户取得所需信息的技术。

然而传统的搜索引擎存在不足:返回信息过多;关键词的逻辑组合难以精确表达检索意图;用关键词匹配的检索算法尽管简单易行,却停留在语言表面,没有触及语义[1]。

而自动问答系统集知识表示、信息检索和自然语言处理为一体,能克服上述这些缺点,成为了国际上研究的一个新热点。

文本检索会议TREC 中问答系统的任务一直是最受关注的项目之一,一方面是因为它的前景,另一方面是因为当前的问答系统的性能还有很大的提升空间。

TREC 评测中问答系统任务的问题可以分为三类:事实类问题、列表类问题和其它问题[2]。

目前,参与评测的相对成熟的问答系统,通常包括三个部分:问题分析、信息检索和答案抽取,如图1所示。

对于列表类问题,一个非常重要的问题是如何确定输出答案的个数。

输出答案越多,召回率越高,但准确率难免会下降,因此需要在两者之间取得平衡。

通常的方法是根据训练语料上的测试结果来确定选择最前面几个。

这类方法对所有列表问题都一视同仁,选择相同个数的答案进行输出,而没有考虑到问题个体之间的差异。

在本文中,我们会通过在问题的上下文背景下,对候选答案进行聚类,然后挑选出最好的一个答案类作为输出。

实验证明,该方法可以自动根据问题的特性输出不同个数的答案,取得了很好的效果。

图1 自动问答系统结构1 答案聚类我们对TREC 评测中2003年到2006年的所有列表问题和其标准答案进行了统计分析,结果如表1所示。

表1 TREC 列表问题统计TREC 2003200420052006列表问题个数37559389平均答案个数14.98.812.510.1从表中数据可以看到,TREC 每年评测的列表问题的平均答案个数存在相当大的差异。

通常所采用的在往届数据上训练得到的返回答案个数,在新的数据集上并不适合。

从现实应用的角度上讲,问题的正确答案个数也往往是无法预测的。

为此,最佳的方法应该能根据不同的问题输出不同个数的答案,很自然的,我们想到了聚类算法[3]。

聚类算法的目标是将一组对象划分成若干组或类别,简单260计算机应用与软件2010年地说就是相似元素同组、相异元素不同组的划分过程,它不限制每个类中的元素个数。

聚类算法需要解决两个基本问题:一是定义两个元素的相似度,通常把输入数据转换成对应的向量表示,那么向量的点积就可看作是两者的相似度;二是根据具体应用选择合适的聚类算法。

1.1 答案的语义向量表示列表问题的侯选答案通常是短文本片段。

比如问题N a m e all the countries i n the wo rld .的侯选答案可能为U n ited States 、F rance 和U n ited N a tions 。

如果我们直接把传统的文档或句子相似度比如余弦距离照搬过来,那么在聚类时U nited States 就会和U n ited N ations 结合起来,因为两者都包含了单词U n ited 。

这样的结果并不是我们所期望的。

从语义的角度讲,F rance 和U n ited States 要相似得多,因为两者都是国家,而U n ited N a ti ons 是一个组织机构。

这个问题的根本原因是短文本片段仅包含为数不多的几个词,而传统的相似度定义却局限在这几个词上。

解决该问题的一个直观方法就是用文档来表示短文本片段的语义含义[4]。

对任意给定的短文本片段x,其语义向量SV (x )定义如下:(1)把x 放到搜索引擎如G oog l e 中去。

(2)令D (x )表示返回的文档d 1,d 2, ,d n 的集合,参数n 控制返回文档的个数。

(3)对每个d i D (x ),计算它的TF I D F 向量v i 。

(4)对每个v i ,把前m 个最大分量之外的分量全部置为0。

这个步骤目的是除去文档中的噪声,同时降低计算量。

(5)令C (x )表示这n 个向量v i 标准化后的重心为:C (x )=1n!ni=1v i∀v i ∀(6)最后,令SV (x )为C (x )标准化:SV (x )=C (x )∀C (x )∀通常情况下,m 和n 分别设置为50和200就可以保证在足够精度的同时只需较小的计算代价。

有了上述短文本片段的语义向量表示,则任意两个短文本之间的相似度为:S i m (x,y )=SV (x )#SV (y )在计算答案的语义向量表示前,我们还需要为侯选答案自动生成合适的短文本片段,也就是放到搜索引擎中去的检索关键字。

最简单的方法是直接使用答案本身。

然而考虑到我们其实是在问题的上下文背景下考虑候选答案的相似程度,如侯选答案集是Apple 、O range 和D ell 的时候,只有根据具体问题才能决定A pple 同哪个在语义上比较接近。

因此,我们的关键字使用的是答案和从问题中抽取的关键字这两者的组合。

1.2 聚类算法聚类算法很多,目前流行的有:K m eans 、模糊C m eans 、层次聚类和高斯混合聚类等。

高斯混合聚类是一种基于模型的聚类方法,即使用特定的模型聚类,并试图优化实际数据与模型的适配度。

高斯混合模型是该聚类方法中的常用模型。

高斯混合模型认为数据中蕴含的每一类符合某个布。

假设有n 个高斯分布,从中产生m 个样本y 1,y 2, ,一个y j 所从属的分布用z j 表示,z j {1,2, ,n}。

对于y,其来自第i 个高斯分布的概率为:P (y |z =i , )=N (u i , i )我们的任务是估计未知的模型参数:={u 1,u 2, ,u n , 1, 2, , n ,P (z =1),P (z =2), ,P (z =n)}其中u i 、 i 和P (z =i)分别是第i 个高斯分布的均值向量、协方差矩阵和先验概率。

模型参数可以通过EM 算法来估计。

每一个参数与类别数目n 的组合情况相应于不同的概率模型,用贝叶斯信息准则(B I C )估计在每一种模型下数据被观测到的概率,计算相应的B I C 得分,最后选择BIC 得分最大的模型和参数对该样本进行分类。

与其它的聚类算法比较,高斯混合模型方法具有的最大优点是无需使用严格的方法来确定类的数目或最佳的聚类参数,但其不足是计算量非常大,对于大量数据的分析比较困难。

但是,高斯混合模型却刚好适合答案聚类的任务。

第一,我们仅仅期望所有正确的答案都能聚在一起,而对类的总数目并没有任何先验知识。

第二,需要重排序的候选答案的数量不会太多,即使太多的话,也可以只选择那些得分比较靠前的侯选答案进行重排。

2 选择答案类在通过聚类产生的若干答案类中,我们还需要选择一个类作为最后的输出。

选择的指标使用该类中所有答案原来得分的算术平均,最后选取均值最大的那个类作为输出。

3 实验本文使用的实验数据是来自TREC 评测问答系统任务中2003-2006中的所有列表问题。

答案聚类算法的输入由FDU QA 系统产生,该问题回答系统可以设置参数输出得分最高的任意个答案,并且曾经在2006年TREC 评测中位列同类第四名,是个不错的性能基准线系统。

各系统的评价指标采用常用的准确率P 、召回率R 和F 指数。