邦富舆情监控系统技术参数.docx
- 格式:docx
- 大小:65.67 KB
- 文档页数:5
邦富舆情监控系统技术参数
一.舆情监控系统整体技术架构
二.舆情监控系统功能
1、舆情监控系统检索
用户通过强大的全网及本地信息检索出相应的舆情。检索类型分类为:新闻、论坛、博客、贴吧、境外等信息集合进行相关检索,可自定范围检索,指定网站
进行检索。
本地检索:本地检索是对数据库已经采集回来的从各个网站中采集匹配关键
字的各种信息进行检索,检索结果可查看所有类型的文章,也可以单一查看
一个类型。舆情检索出来的信息自动分为:新闻、论坛、博客、境外、微博;
全网检索:全网检索是直接使用主流搜索引擎(如百度/ 谷歌),检索的数据可以直接加入分析专题,是本地检索的最有益补充。
2、关键词环境
用户通过手工设置关键词,系统自动发现符合关键词条件的敏感信息。依据设定的主题与关键词对需要采集的舆情数据进行分类和抽取,最后将舆情数据以事件性的视图呈现给用户进行查阅,轻易掌握舆情的发展情况与趋势。
3、分类查看
分类查看在以下情况下,分类查看可为用户实现:
1)用户需要监控与某关键词高度匹配的舆情信息,信息自动分为:新闻、
论坛、博客、境外、微博等类型,用户可有针对性地查看;
2)用户可分类对不同类别的信息进行管理,分类可以属地 /部门 /舆情性质等
常用方式划分;
3)直接访问信源;
4)将某一信息上报到报送系统、加入到简报素材库、收藏为待处理;
5)用户如需了解某一类信息的热度,可通过系统提供的转载量、出处、时
间段等参数分析。
4、事件分析
根据用户所关注的目标事件进行全方位的跟踪与分析,包括指定时间段内舆情爆发点、舆情地点分布分析、舆情演变轨迹分析、关键字演变分析、正负面研判、典型观点抽取等功能,并产生各种图表。具体包括以下:
事件简介
舆情监控系统自动摘取事件的关键部分作为事件的简介,事件简介的截取方式通常是文章的第一段内容。事件简介可根据用户需求进行手工编辑(修改、
删除、增加)简介。
网站统计
统计事件相关数据发表的各大类型网站,分别是:新闻、论坛、博客、纸质
媒体、视频等类型,并统计各个类型的数据总量。
数据类型
利用柱状图和饼状图来呈现各大数据类型的比例,数据网站类型分为新闻、
博客、论坛、传统媒体和其他;数据态度类型分为:正面、负面和中立;数据范
围分为境内和境外。
热点关键词
关键词分为三种类型,分别是热点关键词、地名、人名,另外专门设立了关
键词演变这一类型。系统根据关键字的分类数据中出现的关键字频率来定义关
键字,关键字使用或查看的次数越多,关键字字体越大。
事件动态
根据数据的点击频率来定义数据的动态,数据点击的次数和回复的数据量决定事件的动态方向。
热点网民
发表文章和评论相对较多的网民被定义为热点网民。
相关词
根据文章标题定义相关词语,所有相关词语都是从相关的数据文章中筛选出来,被定义为相关词。
典型观点
针对该事件的每一个网站类型而做的观点分析被定义为典型观点。且对部分热点数据进行观点分析,统计文章的报道数和网站数。
事件趋势浏览
根据事件抓取到的数据进行分析,形成相应的趋势浏览曲线图。可分别查看:默认一天一周一月半年和一年。趋势曲线图分析的数据类型有新闻、论坛、
博客、微博、视频、其他等类型。
5、境外浏览
通过邦富自建服务器,可以安全、稳定的浏览被屏蔽的境外敏感网站信息。
便于用户查看浏览境外站点信息。用户通过自定义输入境外站点,或者系统内置的一些站点迅速访问境外网站,不受地域限制。
6、舆情简报
在用户日常浏览舆情信息时,可将关注的信息分文别类创建为简报,把相关的数据做成简报,导出成文档格式,方便日常工作需要。
7、短信预警
对于发现网上出现涉及本地负面新闻报道、突发事件及引起网上大范围炒作的贴文,第一时间通过手机短信形式向指定用户单位进行通报。
三.舆情监控系统的实现
1、技术指标
参数指标性能要求
1.网页抓取频率分钟级
2.舆情推送速度≤2 分钟
3.索引数据量(条)上亿级
4.微博博主数据量(条)上亿级
5.数据处理量上百亿级
6.分类专题建立(从建立到数据显示)≤30 秒
7.专题分析(从建立到报告显示事件)≤2 分钟
8.单机索引>1000条 / 秒
9.检索响应<2 秒 / 亿
10.分类速度>100 篇/ 秒
11.自动聚类>1000篇 / 分钟
12.查全率≥94%
13.查全率≥96%
14.关键词提取≥1000 篇/ 秒
15.关键词提取准确性≥90%
2、性能指标
1.全面性:定点采集和元搜索相结合的信息采集机制实现信息的全网采集,不漏掉有价值的舆情信息。
2.准确性:大量客户经验积累,帮助客户自助维护关键字的配置保证客
户得到最焦点的、最常用的、最需要的、最关注的信息。
3.时效性:第一时间获取、分析、展示和预警舆情信息,最快可以达到
分钟级。优先级采集倾斜重点网站的采集力度,保障信息采集的及时性。
4.网络媒体类型:新闻、论坛、贴吧、博客、微博、元搜索等。
5.文档类:支持附件和文档类信息采集。
6.多语言:支持中文、英文、藏文等多语言采集。
7.境外信息:支持境外信息采集。
9.自主管理:支持自主添加、调整和管理采集网站。