当前位置:文档之家› 论坛正文内容提取通用方法的研究

论坛正文内容提取通用方法的研究

龙源期刊网 https://www.doczj.com/doc/208524880.html,

论坛正文内容提取通用方法的研究

作者:范媚琳司明皎孟媛

来源:《科技风》2017年第14期

DOI:10.19392/https://www.doczj.com/doc/208524880.html,ki.16717341.201714071

摘要:本文提出了一种新颖的通用论坛信息的提取算法。针对标题,利用论坛标题与网页标题相同这一特征提取。针对回帖模块的定位,我们提出了一种称为基于相似性度量和最低公共父节点的边界确定(BDBSL)的算法。针对回帖内容的提取,我们利用该标签所采用的css 样式绝大多数都含有minheight属性这一特点进行提取。针对主题帖,利用主题帖独有的分享模块进行单独提取。

关键词:论坛正文提取;BDBSL算法;dom树;html

1 标题的提取

通过查看网页的源代码我们发现,论坛标题总是用来做网页标题,而网页的标题在标签下面的

在100个样例数据中进行验证,成功率高达98%,所以我们采用固定的xpath来提取标题。

2 BD-BSL算法确定回帖所在的模块

2.1 DOM树的使用及锚节点的提出

对于一给定URL的论坛,我们可以通过它的URL提取到它的HTML源代码,进而生成

与源代码相对应的DOM树。

通过分析大量论坛发现,同一论坛中所有回帖各部分内容对应的标签格式是相一致的。假设论坛中所有的回帖都包含同一个属性N,回帖数量有M个,则DOM树中至少有M个节点为属性N的标签。通过分析随机选取的100个论坛样例,我们发现所有论坛的所有回帖都包含“发布时间”(PT)这一属性,因此,我们选取PT作为属性N,它的标签所对应的DOM树中的节点作为锚节点。假设锚节点的数量是m(m>1)。

下文中,我们将一个回帖模块记为一项数据记录(DR)。

2.2 相似度分析聚类确定哪些锚节点是属于DR部分的有效锚节点

Step1 构造相似性矩阵M1

相关主题
文本预览
相关文档 最新文档