大数据分析系统需求

  • 格式:docx
  • 大小:14.42 KB
  • 文档页数:13

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析系统需求

天津绍闻迪康科技咨询有限公司

2018/5/28仅为需求基本框架,需要根据贵公司产品、技术路线具体面议

目录

一、系统定位 (2)

二、功能模块 (3)

2.1爬虫系统 (3)

2.1.1 ............................................................................... 数据源 3

2.1.2 ............................................................................... 爬虫系统功能. (3)

2.2数据处理、存储、计算系统 (4)

2.2.1 ............................................................................... 数据处理模块. (4)

2.2.2 ............................................................................... 数据存储模块. (4)

2.2.3 ............................................................................... 数据计算模块. (5)

2.3数据分析、可视化系统 (9)

2.4对外接口 (1)

2.4.1 ............................................................................... 会员制体系 (1)

2.4.2 ............................................................................... 其他 1 0

2.5其他 (1)

1

2.5.1 ............................................................................... 数据痕迹 1 1

2.5.2 ............................................................................... 信息安全 1 1

2.5.3 ............................................................................... 注意事项 1 1

1、系统定位

从数据接入到数据应用,我们需要【大数据分析系统】包括几大功能模块:

(1)爬虫系统

(2)数据处理、存储、计算系统

(3)数据人工智能分析、可视化系统

(4)外部接口

其中第(3)模块是核心,需要结合我们公司业务方向建设相关的数学模型,进行人工智能的自动分析。

爬虫系统可以从指定网站自动的进行信息的抓取,对数据库中的已有词条进行更新或新建,或者从全站按照关键词抓取信息,更新数据库中词条,爬虫搜集到的数据也需要存储到系统中。

数据库系统可以将公司现有资料分库录入系统,生成词条,词条之间相互关联,可以实现跳转,可视化查看;存储爬虫得到的数据。数据库中的词条或者数据源大多是国外的,例如美国,日本等,涉及到的人物或者其它词条会有多种语言的表达。

系统可以结合爬虫的数据、库中本来的数据按照一定内容生成词条自身的时间轴,多库之间词条的的关系图。系统需要与外部互联的接口,包括微信平台,天蝎系统,邮件营销平

台,调查问卷分析平台。

2、功能模块

2.1爬虫系统

2.1.1数据源

1)网站,可能是信息变化不大的静态网站,也可能是信息

在实时更新的动态网站,例如博客或者论坛。网站库不定时更

新。

2)数据库,需要模拟登陆,从一些数据库中抓取数据,例如论文或者专利数据库等,可能是从国内或者国外的数据库网站中。

3)自媒体,例如Facebook,twitter 等,需要从中抓取一些个人信息,例如一个人的邮箱,可能需要与公司已有的天蝎系统结合,从天蝎系统已经分析出的个人信息Excel 中抓取所需信息。(可具体商议)

2.1.2爬虫系统功能

1)爬虫系统需要从指定数据源网站中实时抓取信息,通过实体抽取,和数据库中的词条进行关联,自动更新数据库中已有的词条。

2)可以设定关键词,从全站以及所有数据源中抓取信息,进行数据处理后,按照词条准确匹配,存入数据库;

3)可以按照用户指定的关键词在指定的网站中抓取信息,生成结果。

4)爬虫得到的信息生成的报告等可以进行导出。

数据处理在更新或增加词条时需要将抓取到的信息与词条中的属性进行匹配,将对应的信息录入。可以是实时更新,自动匹配更新;可以是非实时的,有一定的人工干预。由于库中数据有一大部分是国外的,有一些属性的显示方式并不唯一,需要有一定的匹配规则。

2.2数据处理、存储、计算系统

2.2.1数据处理模块

系统需要可以对导入系统的文档等数据和爬虫得到的数据进行数据的预处理,进行分词切词,实体抽取(可能为中英日文)。需要可以自动增加新词条,对比现有词条实现词条的实时更新;或者也可以非实时更新可以有一定的人工干预,进行词条的半自动化增长。处理过程需要考虑处理的规则和词条匹配的规则。

2.2.2数据存储模块

存储在数据库中的数据分为几部分:

1)结构化数据

分词条存储在数据库中,词条分为:调研人物库,专

家库,论文库,专利库,领域库,专题库,快讯库。