邦富舆情监控系统技术参数.docx

  • 格式:docx
  • 大小:65.67 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

邦富舆情监控系统技术参数

一.舆情监控系统整体技术架构

二.舆情监控系统功能

1、舆情监控系统检索

用户通过强大的全网及本地信息检索出相应的舆情。检索类型分类为:新闻、论坛、博客、贴吧、境外等信息集合进行相关检索,可自定范围检索,指定网站

进行检索。

本地检索:本地检索是对数据库已经采集回来的从各个网站中采集匹配关键

字的各种信息进行检索,检索结果可查看所有类型的文章,也可以单一查看

一个类型。舆情检索出来的信息自动分为:新闻、论坛、博客、境外、微博;

全网检索:全网检索是直接使用主流搜索引擎(如百度/ 谷歌),检索的数据可以直接加入分析专题,是本地检索的最有益补充。

2、关键词环境

用户通过手工设置关键词,系统自动发现符合关键词条件的敏感信息。依据设定的主题与关键词对需要采集的舆情数据进行分类和抽取,最后将舆情数据以事件性的视图呈现给用户进行查阅,轻易掌握舆情的发展情况与趋势。

3、分类查看

分类查看在以下情况下,分类查看可为用户实现:

1)用户需要监控与某关键词高度匹配的舆情信息,信息自动分为:新闻、

论坛、博客、境外、微博等类型,用户可有针对性地查看;

2)用户可分类对不同类别的信息进行管理,分类可以属地 /部门 /舆情性质等

常用方式划分;

3)直接访问信源;

4)将某一信息上报到报送系统、加入到简报素材库、收藏为待处理;

5)用户如需了解某一类信息的热度,可通过系统提供的转载量、出处、时

间段等参数分析。

4、事件分析

根据用户所关注的目标事件进行全方位的跟踪与分析,包括指定时间段内舆情爆发点、舆情地点分布分析、舆情演变轨迹分析、关键字演变分析、正负面研判、典型观点抽取等功能,并产生各种图表。具体包括以下:

事件简介

舆情监控系统自动摘取事件的关键部分作为事件的简介,事件简介的截取方式通常是文章的第一段内容。事件简介可根据用户需求进行手工编辑(修改、

删除、增加)简介。

网站统计

统计事件相关数据发表的各大类型网站,分别是:新闻、论坛、博客、纸质

媒体、视频等类型,并统计各个类型的数据总量。

数据类型

利用柱状图和饼状图来呈现各大数据类型的比例,数据网站类型分为新闻、

博客、论坛、传统媒体和其他;数据态度类型分为:正面、负面和中立;数据范

围分为境内和境外。

热点关键词

关键词分为三种类型,分别是热点关键词、地名、人名,另外专门设立了关

键词演变这一类型。系统根据关键字的分类数据中出现的关键字频率来定义关

键字,关键字使用或查看的次数越多,关键字字体越大。

事件动态

根据数据的点击频率来定义数据的动态,数据点击的次数和回复的数据量决定事件的动态方向。

热点网民

发表文章和评论相对较多的网民被定义为热点网民。

相关词

根据文章标题定义相关词语,所有相关词语都是从相关的数据文章中筛选出来,被定义为相关词。

典型观点

针对该事件的每一个网站类型而做的观点分析被定义为典型观点。且对部分热点数据进行观点分析,统计文章的报道数和网站数。

事件趋势浏览

根据事件抓取到的数据进行分析,形成相应的趋势浏览曲线图。可分别查看:默认一天一周一月半年和一年。趋势曲线图分析的数据类型有新闻、论坛、

博客、微博、视频、其他等类型。

5、境外浏览

通过邦富自建服务器,可以安全、稳定的浏览被屏蔽的境外敏感网站信息。

便于用户查看浏览境外站点信息。用户通过自定义输入境外站点,或者系统内置的一些站点迅速访问境外网站,不受地域限制。

6、舆情简报

在用户日常浏览舆情信息时,可将关注的信息分文别类创建为简报,把相关的数据做成简报,导出成文档格式,方便日常工作需要。

7、短信预警

对于发现网上出现涉及本地负面新闻报道、突发事件及引起网上大范围炒作的贴文,第一时间通过手机短信形式向指定用户单位进行通报。

三.舆情监控系统的实现

1、技术指标

参数指标性能要求

1.网页抓取频率分钟级

2.舆情推送速度≤2 分钟

3.索引数据量(条)上亿级

4.微博博主数据量(条)上亿级

5.数据处理量上百亿级

6.分类专题建立(从建立到数据显示)≤30 秒

7.专题分析(从建立到报告显示事件)≤2 分钟

8.单机索引>1000条 / 秒

9.检索响应<2 秒 / 亿

10.分类速度>100 篇/ 秒

11.自动聚类>1000篇 / 分钟

12.查全率≥94%

13.查全率≥96%

14.关键词提取≥1000 篇/ 秒

15.关键词提取准确性≥90%

2、性能指标

1.全面性:定点采集和元搜索相结合的信息采集机制实现信息的全网采集,不漏掉有价值的舆情信息。

2.准确性:大量客户经验积累,帮助客户自助维护关键字的配置保证客

户得到最焦点的、最常用的、最需要的、最关注的信息。

3.时效性:第一时间获取、分析、展示和预警舆情信息,最快可以达到

分钟级。优先级采集倾斜重点网站的采集力度,保障信息采集的及时性。

4.网络媒体类型:新闻、论坛、贴吧、博客、微博、元搜索等。

5.文档类:支持附件和文档类信息采集。

6.多语言:支持中文、英文、藏文等多语言采集。

7.境外信息:支持境外信息采集。

9.自主管理:支持自主添加、调整和管理采集网站。