招投标大数据抓取及分析系统探索

  • 格式:docx
  • 大小:14.00 KB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

招投标大数据抓取及分析系统探讨

一、项目背景

招投标数据客观反映了同行业竞争对手的公开市场行为和份额,反映了区域级的政府投资和非政府投资项目情况,对把握市场行业发展方向,了解竞争对手的行业分布和实力,有非常重要的意义,同时也可大致了解一定行政区域的政府投资,并可根据连续数据,预测下一年度的投资预算,对企业的自身发展有关键的指导意义。各企业有愿望定期获得相关公开数据,促进自身的发展。

基于以上背景,我们建议建设招投标大数据抓取及分析系统,一方面自身市场进行分析和预测,了解竞争对手的行业份额和实力,另一方面可进行运营,将数据提供给其他企业及运营商管理层,更多了解政府行业投资,进行发展规划和预测。

二、需求分析

我们的客户主要有两个方面,一个是企业本身,需要了解同行业的竞争数据,从公开市场获得招标和中标数据,进行分析及比对,通过差异寻找自身特点,扩大商机和竞争力。另一个是其他的企业,需求与我们类似。因此,本系统是支持多企业的云化平台,可满足多家企业同时使用。

自身企业及其他客户通过系统可获得想要的招标和中标数据,并可进行对比分析,差异分析等,并可导出为ppt,便于进行回报和内部交流,ppt形式应以数据图形展示为主,并可智能定制。

系统的覆盖范围应当是一个区域,如某省、某市,以该省的政府采购网站为主,可获得政府投资项目招标信息,同时,也需要覆盖该省其他招投标网站,对非政府采购数据进行抓取,系统应具备自动抓取的功能,配置相关招标网站进行

适配,即可自动获得相关的数据。

招投标数据量庞大,需要采用大数据技术进行存储和分析计算,以获得分析结果,应以结构化数据和非机构化数据两种方式进行存储,满足数据分析的需要。

三、建设内容

招投标大数据抓取及分析系统的主要建设内容包括四个部分,一是数据存储中心,将抓取到的有效数据进行集中分类存储,为分析提供基础;二是数据抓取爬虫及对应招投标网站的适配器,将招标网站上的数据进行抓取,适配不同网站不同的数据来源和展现形式;三是数据查重和审核校对系统,对抓取到不同网站的数据进行审核和校对,通过后才能进入数据存储中心,做为分析的有效数据;四是网站应用,提供客户的管理和分析服务的提供,根据客户需要,提供对应的数据分析结果,并导出ppt。

四、技术方案

根据需求和建设内容,本系统的主要技术方案采用java技术进行开发,采用mysql群集和mongodb群集进行数据存储,采用storm进行大数据处理和分析,采用数据爬虫和适配器技术,抓取对应数据,以定制化报表技术进行数据的展示。开发所需技术具备一定复杂程度,但应可自主开发完成,工期初步规划为2人月左右,实现可演示demo的制作。

五、实施建议

建议初期以一个招标网站为样本,进行数据的抓取和处理,比如以北京市政府采购网做为抓取和分析的对象,即可获得全部北京的政府投资项目数据,并进行分析。根据效果和实际情况,再确定是否继续开展。通过获得该数据后,与北京相关部门进行沟通,看是否有运营的前景。