一种基于语义分析的主题爬虫算法

格式：pdf
大小：227.02 KB
文档页数：4

下载文档原格式

/ 4

详解4种类型的爬虫技术

■傅一平4聚焦爬虫技术聚焦网络爬虫也就是主题网络爬虫，它增加了链接评价和内容评价模块，其爬行策略实现要点就是评价页面内容以及链接的重要性。

基于链接评价的爬行策略，主要是以Web页面作为半结构化文档，其中拥有很多结构信息可用于评价链接重要性。

还有一个是利用Web结构来评价链接价值的方法，也就是HITS法，通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。

而基于内容评价的爬行策略，主要是将与文本相似的计算法加以应用。

Fish-Search算法就是把用户输入查询词当作主题，在算法的进一步改进后，通过Shark-Search算法就能利用空间向量模型计算页面和主题相关度大小。

而面向主题爬虫与面向需求爬虫会针对某种特定的内容去爬取信息，而且会保证信息和需求尽可能相关。

通用爬虫技术通用爬虫技术也就是全网爬虫，其实现过程如下。

第一，获取初始URL。

初始URL地址可以由用户人为指定，也可以由用户指定的某个或某几个初始爬取网页决定。

第二，根据初始的URL爬取页面并获得新的URL。

获得初始的URL地址之后，需要先爬取对应URL地址中的网页，接着将网页存储到原始数据库中，并且在爬取网页的同时，发现新的URL地址，并将已爬取的URL地址存放到一个URL 列表中，用于去重及判断爬取的进程。

第三，将新的URL放到URL队列中，再于第二步内获取下一个新的URL地址之后，再将新的URL地址放到URL队列中。

第四，从URL队列中读取新的URL，并依据新的URL爬取网页，同时从新的网页中获取新的URL并重复上述的爬取过程。

第五，满足爬虫系统设置的停止条件时，停止爬取。

在编写爬虫的时候，一般会设置相应的停止条件。

如果没有设置停止条件，爬虫便会一直爬取下去，一直到无法获取新的URL 地址为止，若设置了停止条件，爬虫则会在停止条件满足时停止爬取。

通用爬虫技术应用有着不同的爬取策略，其中的广度优先策略以及深度优先策略都比较关键，深度优先策略的实施是依照深度从低到高的顺序来访问下一级网页链接。

计算机复习信息检索

计算机复习信息检索信息检索是指通过计算机技术，根据用户的需求，在大规模的信息资源中准确、快速地找到相关的信息。

在当今信息爆炸的时代，信息检索的重要性不言而喻。

本文将介绍信息检索的基本概念、技术和应用，并附带答案和解析。

一、信息检索概述信息检索是指通过计算机对大规模信息资源进行全文检索、关键词检索等方式，根据用户需求提供相关信息的过程。

其目标是提高检索准确性和检索效率，帮助用户快速获取所需信息。

信息检索系统由信息资源、检索模型、检索方法和用户界面等组成。

其中，信息资源包括数据库、文档集合等；检索模型包括向量空间模型、布尔模型等；检索方法包括倒排索引、词频统计等；用户界面提供检索接口供用户输入查询词，并显示检索结果。

信息检索的基本流程包括：用户输入查询词->检索系统进行查询处理->检索系统返回相关文档。

二、信息检索技术1. 关键词检索关键词检索是最常见的信息检索方式，用户通过输入关键词，检索系统根据关键词在信息资源中进行匹配，并返回相关文档。

关键词检索常用的算法有向量空间模型、TF-IDF算法等。

全文检索是指对文档集合中的全部文本进行检索，而不仅仅是关键词。

全文检索主要通过分词、建立倒排索引等技术来实现。

用户输入的查询词可以是一个短语或一句话。

3. 自然语言查询自然语言查询是指用户使用自然语言进行查询，而不是像关键词查询那样只输入几个词。

自然语言查询需要将用户的自然语言转化为计算机可处理的查询语言，如SQL语句。

4. 语义检索语义检索是一种基于语义理解的检索方法，通过对查询词的语义进行分析，实现更精准、准确的检索。

语义检索常用的技术有词义消歧、词向量模型等。

三、信息检索应用1. 搜索引擎搜索引擎是信息检索的最常见应用之一，在互联网上广泛使用。

搜索引擎通过爬虫程序对互联网进行爬取，建立庞大的索引库，并通过用户输入的查询词返回相关页面。

2. 文献检索在学术界和科研领域，文献检索是非常重要的工作。

关于爬虫的毕业设计课题

关于爬虫的毕业设计课题摘要：本课题旨在使用爬虫技术设计和开发一个用于爬取互联网数据的应用程序。

通过爬取各种网站和在线信息源，该应用程序可以提供包括新闻、论坛帖子、商品信息等多个领域的数据收集服务。

该应用程序的设计将以Python编程语言为基础，并利用多个开源库和框架，如BeautifulSoup、Scrapy等，来实现数据的采集、处理和存储。

关键词：爬虫技术，互联网数据，应用程序，Python，BeautifulSoup，Scrapy1. 研究背景随着互联网的飞速发展，网络上的信息数量呈现爆炸性增长。

如何高效地获取和处理这些信息成为了一个重要的问题。

而爬虫技术作为一种自动化数据采集方法，凭借其高效、灵活的特性，得到了广泛的应用。

2. 目标与意义本课题的目标是设计和开发一个可用于爬取互联网数据的应用程序。

通过该应用程序，用户可以方便地获取各种网站和在线信息源中的数据。

此外，通过该应用程序，还可以实现对数据的清洗、整合和存储，从而提供给用户更加方便和实用的数据服务。

3. 设计方案本课题的设计方案基于Python编程语言，利用其丰富的开源库和框架来实现爬虫功能。

具体来说，将采用BeautifulSoup库来解析HTML页面，获取数据的关键信息。

同时，使用Scrapy框架来组织和管理整个爬虫过程，并实现对多个网站的同时爬取。

4. 实施步骤（1）确定需要爬取的目标网站和在线信息源；（2）使用BeautifulSoup解析HTML页面，提取有用的数据；（3）使用Scrapy框架设计和实现爬虫程序；（4）通过爬虫程序获取并存储数据；（5）对爬取的数据进行清洗、整合和存储。

5. 预期成果本课题预期实现一个功能完善的爬虫应用程序，该程序具备以下特点：（1）能够方便地定义和配置爬取目标；（2）能够高效地爬取各种网站和在线信息源的数据；（3）能够自动处理爬取的数据，包括清洗、整合和存储。

6. 创新点本课题的创新点主要体现在以下几个方面：（1）结合使用BeautifulSoup和Scrapy，实现对HTML页面的解析和爬取目标的高度灵活性；（2）通过对爬取的数据进行清洗和整合，提供给用户更加方便和实用的数据服务。

Python网络爬虫中的文本分析与情感分析方法

Python网络爬虫中的文本分析与情感分析方法在Python网络爬虫中的文本分析与情感分析方法近年来，随着互联网的快速发展，网络爬虫成为了一种常用的数据采集方法。

而在爬取到的海量文本数据中，如何进行文本分析与情感分析，以便更好地理解和应用这些数据，成为了研究的重要问题。

本文将介绍Python网络爬虫中的文本分析与情感分析方法，并探讨它们的应用领域与价值。

一、文本分析方法1. 文本清洗在进行文本分析之前，我们首先需要对爬取到的文本数据进行清洗。

这包括去除HTML标签、特殊字符和停用词等，保留有意义的文本内容。

Python中常用的文本清洗工具包括BeautifulSoup和re等。

2. 文本切割与词频统计文本切割是将长文本切分成短句子或词语的过程。

Python中的nltk和jieba等库常被用于文本切割。

而通过对切割后的文本进行词频统计，我们可以了解到在爬取到的文本数据中，哪些词语出现的频率最高，从而为后续的文本分析提供参考。

3. 关键词提取与主题模型关键词提取是指从一段文本中自动提取出最能代表这段文本内容的关键词。

而主题模型则是一种能够自动从文本中识别出潜在主题的模型。

Python中的gensim和sklearn等库提供了一系列用于关键词提取与主题模型的算法和工具函数。

二、情感分析方法情感分析是对文本数据中的情感倾向进行判断和分析的过程。

在Python网络爬虫中应用情感分析方法，可以从大量的文本数据中挖掘出人们对不同事物的感受和态度，提供决策支持和舆情分析等方面的参考。

1. 构建情感词典情感词典是指包含正向情感词和负向情感词的词典。

在进行情感分析之前，我们需要建立一个适用于所研究领域的情感词典。

Python中的nltk和jieba库可以用于构建和管理情感词典。

2. 情感倾向判断情感倾向判断是指通过对文本中的词语进行情感分析，判断文本的整体情感倾向是正向、负向还是中性。

Python中的TextBlob和snownlp等库提供了一些常用的情感分析算法和函数，可用于情感倾向判断。

一种基于语义相似度的信息检索方法

一种基于语义相似度的信息检索方法
语义相似度的信息检索，是一种智能信息检索方法，也称为语义检索。

它降低了传统
文本检索和关键词检索等方法的局限性，并充分利用了句法和语义结构等语言特性，可更
好地从海量文本中提取用户所关注的信息。

语义相似度检索的原理是，在查询之前，将用户问题进行解析，建立一个等价的语义
表达，然后将这个表达与文本库中的文本进行比较，从而得出问题与文本之间的相似程度，从而实现信息检索。

在此过程中，语义表示的建立关键在于自然语言分析，一般分为三步：词法分析、句
法分析和语义分析。

词法分析是针对查询文本进行分词，将用户问题拆分为单词或术语；
句法分析是针对单词或术语，分析句子的词类，确定句子的基本句子结构；语义分析是确
定句子的实际意义，根据词的上下文确定句子的意思。

语义分析常用的方法有—弹性匹配法、语义网络索引法、情景索引法等。

弹性匹配法
是将采集到的文本库依据语义标签，将查询涉及到的问题语句进行匹配；语义网络索引法
建立起一个语义网络，运用网络搜索技术进行概念文本理解；情景索引法是以具体发生的
场景为检索条件来检索相应的文本。

基于语义相似度的信息检索，可以更好地发现和提取出文档中的语义知识，从而帮助
用户更有效地获取所需信息。

然而，该方法仍存在一定问题，如语义表示的准确性、主观
性和时效性等方面存在一些不足。

因此，将语义检索与其他技术如机器学习、模式识别等
进行结合，以提高检索结果的准确性，才能有效提升检索效率，满足用户不断变化的需求。

基于共现词查询的主题爬虫研究

［ｙｗｒｓｏｉｃａｌｒｃ—ｃｕｅｃｏｄ；ＤＣｔｐｃｍｏｅ；ＤＣＴｐｃＳｎｉｖａｅａｋａｏｉｍＫｅｏｄ］ｔｐｃｒｗｅ；ｏｏｃｌｎｅｗｒｓＦｉｄｌＦ — ｏｉｅｓｉｅＰｇＲｎｌｒｔＴｏｔｇｈ
１概述
ｓｓｅｗｈｃｍｐｏｓｔｐｉｅｓｔｅＦＤＣ— ｇＲａｋｔｒｄｃｈｒｏｉｙｏｅａｅｉｅｉｎｄａｄｉｌｍｅｔｄ．ｐｒｍｅｔｈｗｈｙｔｍｉｈｅｌｙｏｃｓｎｉｖｉＰａｅｎＯｐｅｉｔｔｅｐｉｒｔｆＷｂｐｇｓｄｓｇｅｎｍｐｅｎｅＥｘｅｉｎｓｓｏｔｅｓｓｅｐｒｏｍｓｗｅ１ｙｔｍｅｆｒｌ．
先级。
２主题爬虫系统框架
主题爬虫根据一定的网页分析算法，过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的ＵＬ队列中。Ｒ
然后，根据一定的搜索策略从队列中选择下一步要抓取的网
页ＵＲ并重复以上过程，到达到系统的某一条件时停止。Ｌ，直
相对通用搜索引擎，主题搜索引擎的检索范围较小，所需计算机资源较少，查准率和查全率易于保证。主题爬虫是主题搜索引擎的基础与核心。基本思想是在爬行过程中按预先定义好的主题有选择地收集相关网页。其核心技术是网页的主题相关性预测与网页优先级的计算，通过对待爬网页的
主题相关度的预测，赋予不同优先级，并对其进行排序、过
Ｒｅｅｒｈｏ－ｃｕｒｎｅＷｏｄｅｒｈ— ａｅｐｃＣｒｗｌｒｓａｃｆＣｏ－ｃｒｅｃｒｓＳａｃ－ｓｄＴｏｉａｅｏｂ

基于VSM主题爬虫爬行策略的研究

２０１４年第２期（总第１３４期）
信息通信
ＩＮＦＯＲＭＡＴＩＯＮ＆Ｃ０ＭＭＵＮＩＣＡＴ１０ＮＳ
２Ｏ１４
（Ｓｕｍ．Ｎｏ１３４）
基于ＶＳＭ主题爬虫爬行策略的研究
张锦，罗钊
（兰州交通大学电信学院，甘肃兰州７３００７０）
块和ＵＲＬ主题相关度评价模块。对主题爬虫进行的研究大
部分都是针对这两个模块进行的对于如何控制抓取的网页是和主题相关的，常用的解决思路有四种。第一种最简单，通常指一些行业搜素。例如机票搜索，抓取的是各大航空公司网站和代理人网站上面的数据，而
航空公司和代理人的数量是有限的，因此抓取的时候可以根据
＝
这些网站做定制抓取。这种方法适合小型的行业搜索引擎。第二种是根据得到的网页内容，判断网页的内容和主题是否相关。如果一个网页和主题是相关的，在网页中的标题、正文、超链接中通常会有一些与主题相关的关键词。可以给每个关键词设定一个权重，再优先访问与主题相关的ＵＲＬ。对于关键词权重的设置有两种：一是人工经验手工设置；二是对样例网页进行特征提取。第三种思路是针对网页链接进行评分。该方法只根据之前爬虫爬取的信息对当前ＵＲＬ进行评分，不涉及当前网页的内容。第四种链接描述文本分析。当爬虫处理当前网页的时候，会遇到许多描述文本。由于描述文本通常与所指向的网页相关。因此，处理描述文本需要频繁切换当前处理页面，从而影响到爬虫速度。

基于语义概念背景图的主题爬虫的研究与实现

基于语义概念背景图的主题爬虫的研究与实现
李小雷;海宇峰;向模军;于春
【期刊名称】《信息与电脑》
【年(卷),期】2017(000)001
【摘要】为了提高主题爬虫的性能,在概念背景图(CCG)的基础上加以改进提出了语义概念背景图(SCCG).从谷歌返回相关主题的网页链接列表中精选出一定数量的网页,根据形式概念分析的知识构建主题形式背景和概念格并最终生成SCCG.通过SCCG指导主题爬虫,将访问页面处理为虚拟形式概念(Virtual Formal Concept,VFC)来计算其与核心概念的概念相关度进行主题相关度预测.通过实验表明,SCCG指导主题爬虫有效提高了网页的F-Measure值,具有较高的可行性.【总页数】4页(P60-62,65)
【作者】李小雷;海宇峰;向模军;于春
【作者单位】西华大学计算机与软件工程学院,四川成都 610039;西华大学计算机与软件工程学院,四川成都 610039;成都农业科技职业学院信息技术分院,四川成都 611130;西华大学计算机与软件工程学院,四川成都 610039
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于主题网络爬虫的创业政策信息采集研究与实现 [J], 郑正;赵飞;周昕旸
2.基于概念背景图的主题爬虫设计与实现 [J], 关卫国;骆永成
3.基于Context Graphs的主题爬虫的研究与实现 [J], 陈星
4.基于统计模型的主题爬虫的研究与实现 [J], 金明珠;丁岳伟
5.基于主题相关概念和网页分块的主题爬虫研究 [J], 黄仁;王良伟
因版权原因，仅展示原文概要，查看原文内容请购买。

基于网络语义分析的朱家角古镇公众感知分析

月),2014(12):141-143.
结合段进行厂内焊接，焊缝均为平焊和
品的识别标记，下道工序施工者应负责
记录），对检验状态不明者不施工，并向
陈俊明,杜操,李施展,等 . 秭归长江公路
大桥钢箱桁架推力拱合龙测量关键技术
方法，在胎架上多次翻身的方法，对拱梁
在总装、涂装过程中注意保护好产
周云岗,洪慧卿,鄢余文 . 大跨径钢箱系杆
家角古镇的中心词汇，所有的评论都由
日常活动提供了便利，也为各类景点注
文章探究了大量来自社交媒体（点
入新的活力，于是出现了“网红”景点。
评网站、旅游网站、社交平台等）基于朱
在社交平台分享各类旅游景点的游览体
家角古镇一定时间内的评价数据，通过
验及评论，也影响着即将计划出行的人
网络文本分析法，对文本的具体内容进
词频统计
其中放生桥为朱家角古镇著名的石拱
1
古镇
2361
26
游客
168
桥，已有约 500 年历史；大清邮局始建于
2
朱家角
1661
27
上海市
167
20 世纪初，为二层小楼建筑，现一楼仍
3
上海
956
28
文化
166
在运营中，布置为古色古香的历史风貌，
4
江南
748
29
粽子
165
置有邮柜、邮橱等，二楼布置为关于古代
共计 3089 条评论数据。通过 ROST
景观资源、古镇运营与管理、公众感知体
化发展规划中，朱家角古镇地处长三角
Content Mining 软件进行数据初筛，去
验。基于以上指标，对朱家角古镇网络

使用AI技术进行语义分析的步骤

使用AI技术进行语义分析的步骤一、引言在当今信息爆炸的时代，处理和理解大量文本信息变得越发困难。

为了更好地抽取文本中隐藏的有用信息，许多研究者和工程师开始关注自然语言处理（NLP）领域，其中语义分析是一个重要的子领域。

通过使用AI技术进行语义分析，我们能够深入挖掘文本背后的意思和情感。

本文将介绍使用AI技术进行语义分析的步骤，以及每个步骤所涉及到的关键内容。

二、数据收集与预处理1. 收集数据：首先，需要对感兴趣或特定领域的文本数据进行收集。

可以通过网络爬虫等方式获取大量文本数据，并确保数据集代表性和多样性。

2. 数据清洗与标准化：在进行进一步分析之前，需要对原始数据进行清洗和标准化处理。

这包括去除无效字符、标点符号等噪音，并将所有文本转换成统一格式（如小写字母）以方便后续分析。

三、词汇分析与特征提取1. 分词：将整段文字划分成单个词语单位。

中文通常采用基于规则或概率模型的分词方法，而英文则可以通过空格进行简单的分割。

2. 词性标注：为每个词语确定其在句子中的词性，如名词、动词等。

这有助于后续更准确地理解句子结构和语义关系。

3. 停用词过滤：去除常见但无实际意义的停用词，如“的”、“了”等。

这样可以提高后续处理速度，并减少对无用信息的干扰。

4. 特征提取：从文本中提取有意义或具有区分性的特征。

例如，可以使用TF-IDF（Term Frequency-Inverse Document Frequency）算法计算每个词语在整个数据集中重要程度。

四、语义建模与表示1. 句法分析：构建句子结构树以捕捉单词之间的依存关系和修饰关系。

这有助于理解句子内部的成分逻辑和上下文关联。

2. 实体命名识别：将句子中出现的实体（人名、地名等）进行标记和分类。

这可使我们更好地分析与实体相关的话题和事件。

3. 情感分析：判断文本表达者在情感上持什么样的态度，如喜、怒、哀、乐等。

通过情感分析，我们可以更好地理解用户反馈或社交媒体评论的情感倾向和态度。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

图 1 支持向量机从图 1 可以看出, 左右两种情况下的分划超平面都可以将两类数据点分开, 但很明显右边的超平面的划分更加合理, 因为在右图中与分划超平面平行并与两类数据点相接触的超平面间的距离要比左边的大很多。因此, 问题归结为我们如何为数据点选择一个像图 1 右侧这样的超平面, 使得与分划超平面平行并与两类数据点相接触的超平面间的距离最大化。进一步地, 可以转化为如何寻找一个合理的超平面的法线方向, 使得超平面能将两类数据点完美地分开。用如下式子进行描述。设与分划超平面平行并与两类数据点相接触的超平面分别为 ( w * x ) + b = 1 和( w * x ) + b = - 1, 则分划超平面为 ( w * x ) + b = 0。所以, 与分划超平面平行并与两类数据点相接触的超平面间的距离为 2 / # w # , 最大化与分划超平面平行并与两类数据点相接触的超平面间的距离即最大化 2/ # w # 。同时, 由于要满足分划超平面, 可以将两类数据点分
文献标识码: A
1 引言
爬虫是搜索引擎的重要组成部分, 其作用是从网上下载网页, 为搜索引擎采集资源。主题爬虫是限定主题在一定领域范围内下载网页的爬虫, 其运作流程是: 根据一定的文本分析算法过滤掉与主题无关的链接, 将与主题相关的链接保留下来放入待抓取的 U RL 队列中; 然后根据一定的策略从队列中选择下一个要抓取的 U RL , 重复此过程, 直到达到系统的停止条件。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 建立索引。
首先将给定的训练集合进行预处理, 得到训练集合的词 % C=
Cm1
C mn
它的行对应文档, 列对应特征词。
然后对原始词 % % % 文档矩阵 CT 按列进行中心化, 以便
将坐标原点移动到文档集的质心, 本文仍然用 CT 表示按照
列中心化处理后的矩阵。经过奇异值分解得到其 k 阶近似
mechanism and suppor t vector machine, w e desig n and im plement an efficient to pic cr awler. Ex per iments show that o ur al
g or ithm has g oo d accuracy and efficiency .
145
有 n 个数据点{ x i | i = 1, 2, , n ) , 这些数据点分别属于 m 个特定的类别{ Ck| i = 1, 2, , m} , 即, 对于 x i Rd , ! k , 1 ! k ! m, x i Ck 。
朴素贝叶斯分类器将某个样本 S 划分到某个类别 Cj , 当且仅当 P( Cj | S) > P( Ck | S) , 1 ! k ! m 且 k ∀ j , 所以朴素贝叶斯方法需要计算 P( Cj | S ) ( j = 1, 2, , m) 。
关键词: 主题爬虫; 子空间; 语义分析; 支持向量机
Key words: topic craw ler ; subspace; semantic analy sis; suppor t vector machine
doi: 10. 3969/ j. issn. 1007 130X. 2010. 09. 038 中图分类号: T P391
由贝叶斯公式, 有: P (Cj | S) = (P (S | Cj ) P(Cj ) ) / P( S)
在实际计算过程中, 经常假设组成每个训练数据点的各个属性间是相互独立的, 这样可以在很大程度上简化 P ( S | Cj )的计算, 即:
P( S | Cj ) = P ( s1 | Cj ) P ( s2 | Cj ) P ( sd | Cj ) 其中, si ( i = 1, 2, , d) 为数据点的各个属性值。P ( s1 | Cj ) , P( s2 | Cj ) , , P( sd | Cj ) 可以由训练数据很容易地计算出来。
有很多研究成果。例如, 傅向华等[ 1] 将 W eb 爬行看作是执行序列动作的过程, 结合改进的快速 Q 学习和半监督贝叶斯分类器, 提出了一种新的具有在线增量自学习能力的聚焦爬行方法; Chakrabar ti S 等[ 2 ] 第一次提出基于朴素贝叶斯分类模型[ 3] 引导主题 Web 爬虫; Johnso n 等[ 4] 提出了基于支持向量机( Suppor t Vecto r M achine, 简称 SV M ) 分类模型来进行主题爬行。本文算法是在文献[ 5] 算法的基础上进行改进得到的, 文献 [ 5] 算法用于检索, 而在本文算法中使用基于子空间的语义分析来进行主题预测, 同时结合朴素贝叶斯以及支持向量机算法, 构成一个完整的主题爬虫算法。
2. 2 支持向量机
按照主题相关与否, Rd 空间中的数据点被分成两类, 数据点 x i Rd 的相关分类用 y i 表示, y i { 1, - 1} : ( x i , yi ) , i = 1, 2, , n。当 y i = 1 时, 表示 x i 属于主题相关的, 当 yi = - 1 时, 表示 x i 属于主题不相关的。我们希望在 Rd 中找到一个分化超平面将这两类数据点完全分开, 使得两类点分别位于分化超平面的两侧, 如图 1 所示。
sit y i ( w * x i + b) ∃ 1 其中, i = 1, 2, , n。
2. 3 子空间语义分析以及基于语义分析的主题爬虫算法
子空间分析算法的基本思想是根据给定文档中包含的
词与其最相似的文档的所属类别关系来确定相应文档的所属类别。和其他机器学习算法一样, 首先需要使用训练样本进行训练, 得到一个分类模型, 并用模型进行后续的分类, 其基本原理如下:
14 6
开, 所以要加上一个约束条件, 即: y i ( w * x i + b) ∃ 1, i = 1, 2, , n
支持向量机可以归纳为如下最优化问题: M ax 2/ # w #
sit yi ( w * x i + b) ∃ 1 其中, i = 1, 2, , n。
或者表述为如下形式 : M in 1/ 2 * # w # 2
和通用爬虫相比, 主题爬虫最明显的特点是需对待爬取的网页内容进行主题相似性分析, 而如何判断一篇网页和一个主题的相似性关系则成为一个主题爬虫设计的关键。研究者已经提出了多种判别主题相关性的方法, 其中包括基于 Web 超级链接、基于内容、基于文本分类器等方法。本文主要讨论基于文本分类器的方法。这类方法已经
矩阵 CTk = UkQk VTk 。将原始特征空间中的每一个特征词投影到语义空间。计算这些特征词在语义空间中的两两相似
度, 存于矩阵 SI 中。将文档表示成它所包含的主题特征的质心, 即它所包含的主题特征向量的均值。
具体的计算过程如下 : 将特征词 I 、J 分别表示成向量 I = ( 0, 0, , 0, i, 0, 0) 和 J = ( 0, 0, , 0, j , 0, 0) , I ∀ J 时, i 和 j 不在同一维上, 唯一的非 0 元代表特征词关于这篇& 文档∋ 的权重。这样, 可以得到特征词 I 、J 在语义空间中的表示形式, 如式 ( 1) 和式( 2) 所示:
同样, P( Cj ) ( j = 1, 2, , m) 也可以由训练数据简便地计算出来。又由于 P( S) 对于各个类别是一样的, 所以实际计算过程中可以不予考虑。
这样, 对某一个数据 S , 其所属类别可按如下方法决定, 即 S 属于 C j 当且仅当 P( S | Cj ) P (Cj ) > P(S | Ck ) P ( Ck) , 1 ! k! m 且k ∀ j 。
2 主题预测算法
2. 1 朴素贝叶斯
朴素贝叶斯( N a ve Bayes, 简称 NB) [ 6,7] : 设 Rd 空间中
* 收稿日期: 2010 03 12; 修订日期: 2010 06 17 作者简介: 蒋宗礼( 1956 ) , 男, 河南南阳人, 教授, CCF 会员( E200005392s) , 研究方向为网络信息处理和并行计算; 田晓燕, 硕士生, 研究方向为网络信息处理和机器学习; 赵旭, 硕士生, 研究方向为网络信息处理和机器学习。通讯地址: 100124 北京市北京工业大学计算机学院信息楼北楼 214 室; T el: ( 010) 67392508; E mail : jian gzl@ bjut . edu. cn Address: Room 214, N ort h Inf ormat ion Building, School of Comput er Science, Beijing U niversity of Technology , Beijing 100124, P. R. China
ject , to significantly r educe the amount of w eb pag es dealing . By assessing the degr ee o f W eb pages, it g iv es prio rity to the
cr aw ling pag es related to a higher degr ee. U sing a subspace based semantic analy sis t echnique, combined w ith the Bayesian