大数据实时分析案例
- 格式:pdf
- 大小:359.62 KB
- 文档页数:6
大数据分析的实际案例数据从来不是孤立的存在,它们背后总是有一个故事,讲述着人们的生活、社会的变迁。
大数据是当今互联网时代的一个重要词汇,它所带来的不仅仅是数据的增量,更是数据的改变和呈现方式的更新。
各个产业领域都在乘风破浪,试图用大数据技术来变革自己的商业模式和服务方式。
下面,我们来看看大数据分析在实际商业中的应用。
案例一:亚马逊的推荐算法在网购时,我们常常耳熟能详的“看了本书的人也看了……”是怎么实现的呢?亚马逊的推荐算法就是一种基于大数据的人工智能算法。
亚马逊通过分析大量的交易和用户数据,来准确地预测用户的购物喜好和需求,并将推荐列表个性化地展现给不同用户。
该算法的好处不仅在于提高了用户购买率,还可以减少商品的滞销和回收,提高了商家品牌的知名度。
案例二:滴滴大数据驱动的智慧出行随着经济的发展,城镇化进程加速,交通拥堵成了日常生活中的一大问题。
滴滴大数据的智慧交通方案的出现,真正为解决这个问题提供了一条可行之路。
滴滴依托庞大的用户交易和位置数据,分析出不同地区的交通拥堵状况,并把这些信息反馈给司机,驾驶员便可根据最佳路径规划进行行驶和接送。
除此之外,滴滴还可以基于用户出行数据和天气状况,预测出车辆需求和交通高峰时间,为用户和司机提供更加便利和高效的交通服务。
案例三:浴室卫浴界的大数据在传统的卫浴行业中,产品的生产和销售往往仅基于人的直觉或者经验,缺乏科学而系统的方法。
以艾美特浴室的实践为例,该公司在产品研发和销售过程中,依托大数据技术开展了深入分析,从产品设计、生产制造、营销策略、服务体系全面提升企业的竞争力。
从智慧生产到智慧物流,从精准营销到售后服务,由此形成了一套完整、科学的数字管理模式,为制造企业实现高质量发展提供了有力保障。
结语大数据分析技术为商业提供了更加精细、便捷、高效的服务,它的应用范围是非常广泛的。
无论是从卫浴企业到交通出行,再到电商购物领域,每一种行业都可以通过大数据技术对自己的业务进行创新和优化。
《大数据分析实战案例》一、大数据分析技术的应用大数据分析技术在人工智能、金融、医疗、交通、物流等领域的应用已经开始显现。
以金融领域为例,大数据分析技术可以对客户的金融交易记录、信用记录、社交网络等多维度数据进行分析,通过预测模型实现对客户的风险评估及预测。
以医疗领域为例,大数据分析技术可以对医学图像、生物信息、临床数据、医学文献等多方面数据进行分析,从而实现对疾病的早期诊断、预测、预防及治疗方案的个性化推荐。
在物联网领域,大数据分析技术可以通过对传感器、智能设备等大量数据的收集,分析和挖掘,实现对设备的维护与保养,同时优化生产效率。
在社交网络领域,大数据分析技术可以对用户的兴趣爱好、消费记录、活动轨迹等数据进行分析和处理,实现信息推荐和广告推送。
总体而言,大数据分析技术在各个领域的应用已经越来越广泛,预计未来还将有更多的应用场景出现。
二、互联网金融领域的大数据分析案例互联网金融,是指以信息技术为基础,通过互联网实现对金融产品和服务的创新和改造。
在互联网金融领域,风控是一个核心问题。
然而传统的风控手段,只能实现对客户的静态评估和控制。
在大数据分析技术的支持下,可以对客户的动态风险进行预测,从而实现对风险的控制和管理。
以小额贷款为例,这是一个风险较高的金融产品,传统风控手段可以对客户的信用记录、工作稳定性等静态信息进行评估。
但是过于依赖静态风险评估的手段,在某些情况下会面临很大的不确定性。
因此,大数据分析技术可以对客户的运营商数据、社交网络数据、app使用行为数据等动态数据进行分析,从而实现对客户的动态风险评估。
根据分析结果,可以实现对客户的实时借款额度调整和利率测定,从而实现对贷款风险的有效控制。
三、医疗领域的大数据分析应用案例医疗领域是大数据分析技术非常渴望应用的一个领域。
在医疗领域,大数据分析技术可以基于医学数据库和临床试验数据,进行生物信息学数据挖掘,从而实现疾病的早期预警和预测。
同时,大数据分析技术可以对每个病人的医学信息、基因信息等多种信息进行分析处理,从而实现对患者的个性化诊疗方案推荐。
中国SAP大数据分析案例随着信息化时代的到来,各行各业都在积极探索和应用大数据分析技术,以便更好地利用和管理数据资源。
SAP作为全球领先的企业软件解决方案提供商,也在中国市场开展了大规模的数据分析案例,为企业提供了精准的数据支持和决策依据。
本文将介绍一些中国SAP大数据分析的典型案例。
案例一:电商平台销售预测某电商平台利用SAP的HANA数据库进行销售预测分析,通过收集用户的历史购买记录、浏览行为等数据,并结合外部经济指标和市场趋势,建立了销售预测模型。
利用SAP HANA的强大计算和分析能力,平台可以实时监控商品销售情况,预测销售趋势,并根据需求合理调整供应链和库存管理,提高销售效益。
案例二:零售业客户细分一家零售企业将SAP的数据分析功能应用于客户细分,通过对顾客购买记录、消费偏好和地理位置等数据进行分析,识别出不同类型的消费群体,并制定针对性的市场推广策略。
通过SAP的数据分析功能,企业可以更加精准地推送个性化的广告和优惠信息,提高客户满意度和忠诚度,进而提升销售额。
案例三:制造业质量管理一家制造企业利用SAP的大数据分析技术对生产过程中的质量问题进行监控和预测。
通过收集生产线上的传感器数据、物料批次信息和供应商质量数据等,结合SAP HANA的实时计算功能,可以实时监测生产线的运行状态,并预测可能出现的质量问题。
企业可以及时采取措施,减少不良品数量,提高生产效率和产品质量。
案例四:金融行业风险控制一家金融机构利用SAP的大数据分析技术对大规模数据进行处理和分析,以提升风险控制能力。
通过整合内外部数据源,建立全面的风险评估模型,并利用SAP的实时分析功能进行风险监测和预警。
机构可以快速识别潜在的风险因素,及时制定风险防范策略,提高风险管理水平,确保业务安全和稳定。
综上所述,中国企业在不同行业领域中广泛应用SAP的大数据分析技术,通过对数据的深度挖掘和精确分析,优化业务流程,提高决策效率,促进企业的快速发展。
⼤数据案例分析⼀、⼤数据分析在商业上的应⽤1、体育赛事预测世界杯期间,⾕歌、百度、微软和⾼盛等公司都推出了⽐赛结果预测平台。
百度预测结果最为亮眼,预测全程64场⽐赛,准确率为67%,进⼊淘汰赛后准确率为94%。
现在互联⽹公司取代章鱼保罗试⽔赛事预测也意味着未来的体育赛事会被⼤数据预测所掌控。
“在百度对世界杯的预测中,我们⼀共考虑了团队实⼒、主场优势、最近表现、世界杯整体表现和博彩公司的赔率等五个因素,这些数据的来源基本都是互联⽹,随后我们再利⽤⼀个由搜索专家设计的机器学习模型来对这些数据进⾏汇总和分析,进⽽做出预测结果。
”---百度北京⼤数据实验室的负责⼈张桐2、股票市场预测去年英国华威商学院和美国波⼠顿⼤学物理系的研究发现,⽤户通过⾕歌搜索的⾦融关键词或许可以⾦融市场的⾛向,相应的投资战略收益⾼达326%。
此前则有专家尝试通过Twitter博⽂情绪来预测股市波动。
理论上来讲股市预测更加适合美国。
中国股票市场⽆法做到双向盈利,只有股票涨才能盈利,这会吸引⼀些游资利⽤信息不对称等情况⼈为改变股票市场规律,因此中国股市没有相对稳定的规律则很难被预测,且⼀些对结果产⽣决定性影响的变量数据根本⽆法被监控。
⽬前,美国已经有许多对冲基⾦采⽤⼤数据技术进⾏投资,并且收获甚丰。
中国的中证⼴发百度百发100指数基⾦(下称百发100),上线四个多⽉以来已上涨68%。
和传统量化投资类似,⼤数据投资也是依靠模型,但模型⾥的数据变量⼏何倍地增加了,在原有的⾦融结构化数据基础上,增加了社交⾔论、地理信息、卫星监测等⾮结构化数据,并且将这些⾮结构化数据进⾏量化,从⽽让模型可以吸收。
由于⼤数据模型对成本要求极⾼,业内⼈⼠认为,⼤数据将成为共享平台化的服务,数据和技术相当于⾷材和锅,基⾦经理和分析师可以通过平台制作⾃⼰的策略。
3、市场物价预测CPI表征已经发⽣的物价浮动情况,但统计局数据并不权威。
但⼤数据则可能帮助⼈们了解未来物价⾛向,提前预知通货膨胀或经济危机。
大数据分析实践案例研究随着信息技术的迅猛发展,人们积累了大量的数据。
这些数据可以从不同的角度进行分析和应用,如市场研究、公共管理、金融分析等。
在这些领域,大数据分析已成为支持决策制定的重要工具。
下面,我们来看几个实际案例,探讨如何通过大数据分析提高决策的有效性。
1. 零售市场分析在零售市场,店家们需要了解自己的目标顾客群体和他们的购买习惯。
传统的统计学方法可能不再适用,因为统计样本可能有偏差。
但是,随着电子商务的普及和电子支付的普及,零售商可以收集大量的数据。
使用大数据分析技术可以更准确地分析和预测消费者的购买习惯。
比如,当客户购物时,他们经常使用的信用卡可以记录下来。
通过分析客户消费的时间、地点、金额,零售商可以了解客户的喜好和购物趋势。
2. 医疗保健医疗保健领域也需要大数据分析,以从复杂的医疗数据中发现有意义的模式。
医疗保健数据通常包括来自医生、护士以及其他医疗保健专业人员的医疗记录和病人的生理状态。
这些数据可以用于优化病人的诊断和治疗方案,同时可以在病人爆发疾病的早期发现和预防方面发挥作用。
例如,大数据分析可以通过监测病人的体温、血压和心率等指标,来提前发现可能存在的危险因素。
医疗保健机构也可以使用数据分析来发现哪些治疗方式或药物最为有效。
3. 城市规划城市规划需要综合考虑交通、环境、能源等多个方面的因素。
对于城市规划师来说,需要考虑未来的人口增长、经济发展趋势等因素。
通过收集和分析历史数据、人口普查数据、公共交通使用情况等数据,城市规划师可以了解人口变化的趋势和城市交通情况,以便建议改善交通。
城市规划师还可以分析公共设施,如学校、医院、警察局、火车站等,以了解哪些设施未满足当地需求。
4. 金融分析大数据分析也在金融业中发挥作用。
传统的金融分析方法主要依赖于财务报表和财务比率。
但是,对于大型金融机构而言,这些方法往往不够精确。
数据分析可以通过分析股票交易和股价波动等数据,来预测证券市场的走势。
大数据应用的典型案例随着信息技术的快速发展,大数据应用在各个领域都得到了广泛的应用。
下面将列举10个典型的大数据应用案例。
1. 电商推荐系统电商平台通过收集用户的购买记录、浏览记录、搜索记录等大量数据,利用大数据分析的技术,可以为用户提供个性化的推荐服务。
通过分析用户的行为模式和兴趣偏好,推荐系统可以准确地推荐用户可能感兴趣的商品,提高用户的购物体验和转化率。
2. 金融风控金融行业需要对客户进行风险评估,以便决定是否提供贷款或信用卡等服务。
大数据分析可以帮助金融机构从海量数据中识别出潜在的欺诈行为、风险因素和信用评分等,提高风险管理能力和决策效率。
3. 智能交通交通运输领域是一个典型的大数据应用场景。
通过收集交通流量、车辆位置、道路状况等数据,可以实现智能交通控制、拥堵预测和优化路线规划等功能。
通过大数据分析,可以提高交通系统的效率和安全性,减少交通堵塞和事故发生。
4. 医疗健康在医疗健康领域,大数据应用可以帮助医生更准确地诊断疾病、制定治疗方案和预测疾病的发展趋势。
通过分析患者的病历、影像数据和基因组数据等,可以发现疾病的潜在风险因素和治疗效果,提高医疗服务的质量和效率。
5. 城市规划大数据应用可以帮助城市规划部门进行城市规划和管理。
通过收集城市的人口数据、交通数据、环境数据等,可以分析城市的发展趋势和问题,帮助决策者做出科学的规划和决策,提高城市的可持续发展和居民的生活质量。
6. 航空安全航空公司通过收集飞机的传感器数据、机组的操作数据、气象数据等,可以进行飞行安全分析和预测。
通过大数据分析,可以识别潜在的飞行风险和故障模式,提前采取措施避免事故发生,提高航空安全。
7. 物流管理物流行业需要管理庞大的货物流动和仓储配送等环节,大数据应用可以帮助物流企业实现精细化管理和优化运营。
通过收集货物的运输数据、仓库的存储数据、车辆的位置数据等,可以实现货物跟踪、配送路线优化和库存管理等功能,提高物流效率和客户满意度。
大数据应用的典型案例和分析摘要本文将介绍几个大数据应用的典型案例,并对每个案例进行分析。
这些案例涉及到不同行业,包括零售、金融、医疗等。
通过分析这些案例,我们可以深入了解大数据应用在不同行业中的应用场景、挑战和价值。
1. 零售行业案例一:顾客行为分析在传统零售行业中,顾客行为分析一直是一个重要的课题。
随着大数据技术的发展,零售企业可以收集大量的顾客数据,包括购买历史、浏览记录、社交媒体活动等。
通过对这些数据的分析,零售企业可以更好地了解顾客的行为习惯和偏好,从而优化产品定价和促销策略,提高销售效果。
案例二:供应链优化供应链管理是零售行业中的一个重要环节。
大数据应用可以帮助零售企业实时跟踪物流信息、订单履行情况和库存水平等。
通过对供应链数据的分析,零售企业可以发现潜在的瓶颈和风险,并及时采取措施进行优化,从而提高物流效率和降低成本。
2. 金融行业案例一:信用评估在金融行业中,信用评估是一个关键的业务环节。
传统的信用评估方式主要依靠个人申请表格和信用报告,而大数据技术可以为金融机构提供更全面和准确的信用评估数据。
通过分析个人的消费行为、社交网络活动和其他相关数据,金融机构可以更准确地评估个人的信用风险,从而更好地决策是否给予贷款或者设置利率。
案例二:欺诈检测金融行业中存在着许多欺诈活动,大数据技术可以帮助金融机构更好地检测和预防欺诈行为。
通过分析大量的交易记录、网络活动等数据,金融机构可以发现异常模式和风险指标,及时采取措施阻止欺诈行为的发生。
3. 医疗行业案例一:疾病诊断大数据技术在医疗行业中的应用可以提高疾病诊断的准确性和效率。
通过分析大量的医疗记录、基因数据和其他相关的健康数据,医疗机构可以建立更准确的疾病模型,帮助医生进行疾病的早期诊断和治疗决策,从而提高治疗效果和患者的生存率。
案例二:公共卫生管理大数据技术在公共卫生管理中也发挥着重要作用。
通过分析大量的流行病数据、社交网络数据和移动定位数据,卫生部门可以及时发现和追踪疫情的爆发,制定相应的防控措施,保护公众的健康安全。
引言概述:本文将介绍大数据领域的十个经典案例,并探讨它们在不同领域的应用,这些案例涵盖了金融、医疗、零售、交通和市场营销等领域。
通过详细阐述这些案例,读者将了解到大数据技术对于提高业务效率和创新的重要性。
正文内容:1.金融领域的大数据案例1.1.金融风控:通过大数据分析大量的用户数据,金融机构可以更好地评估借贷风险,提高风控能力,降低违约概率。
1.2.欺诈检测:利用大数据技术,金融机构能够快速发现可疑的交易模式,及时采取措施避免欺诈行为。
2.医疗领域的大数据案例2.1.个性化医疗:利用大数据分析患者的基因数据和病历资料,医疗机构可以根据个体差异制定个性化的治疗方案,提高医疗效果。
2.2.疾病预测:通过分析大规模的医疗数据,可以发现潜在的疾病模式,提前预测患者可能的健康问题,及早干预治疗。
3.零售领域的大数据案例3.1.消费者行为分析:通过对消费者购买记录和行为数据的分析,零售商可以了解消费者的偏好和购买习惯,从而进行更精确的市场定位和产品推广。
3.2.库存管理优化:通过对销售数据和库存数据的分析,零售商能够做出更准确的库存预测,减少库存积压和缺货现象,提高利润率。
4.交通领域的大数据案例4.1.交通流量优化:通过对车流量和道路状况的实时数据进行分析,交通管理部门可以合理调度交通信号灯和路线规划,减少交通拥堵。
4.2.共享交通:通过运用大数据技术,共享交通平台可以更好地预测和满足乘客需求,实现更高效的交通资源利用。
5.市场营销领域的大数据案例5.1.目标市场定位:通过对大量市场数据的分析,企业可以了解不同市场的消费者需求和趋势,从而精确地定位目标市场。
5.2.营销策略优化:通过对市场活动和广告效果的追踪分析,企业可以优化营销策略,提高广告投放的回报率。
总结:通过对这十个大数据经典案例的分析,我们可以看到大数据技术在各个领域的广泛应用。
它不仅能够提高业务效率,降低风险,还能够促进创新和发展。
随着技术的进步和数据规模的增加,大数据将在未来发挥越来越重要的作用。
大数据相关性分析案例50款大数据的经典应用案例1. 梅西百货的实时定价机制。
根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
2. Tipp24 AG针对欧洲博彩业构建的下注和预测平台。
该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。
这项举措减少了90%的预测模型构建时间。
SAP公司正在试图收购KXEN。
3. 沃尔玛的搜索。
这家零售业寡头为其网站自行设计了最新的搜索引擎Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等。
根据沃尔玛的说法,语义搜索技术的运用使得在线购物的完成率提升了10%到15%。
“对沃尔玛来说,这就意味着数十亿美元的金额。
”Laney说。
4. 快餐业的视频分析。
该公司通过视频分析等候队列的长度,然后自动变化电子菜单显示的内容。
如果队列较长,则显示可以快速供给的食物;如果队列较短,则显示那些利润较高但准备时间相对长的食品。
5. Morton牛排店的品牌认知。
当一位顾客开玩笑地通过推特向这家位于芝加哥的牛排连锁店订餐送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton就开始了自己的社交秀。
首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。
根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
6. PredPol Inc.。
PredPol公司通过与洛杉矶和圣克鲁斯的警方以及一群研究人员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平方英尺的范围内。
在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。
7. Tesco PLC(特易购)和运营效率。
这家超市连锁在其数据仓库中收集了700万部冰箱的数据。
通过对这些数据的分析,进行更全面的监控并进行主动的维修以降低整体能耗。
8. American Express(美国运通,AmEx)和商业智能。
永洪科技大数据实时分析永洪科技基于自有技术研发的一款数据存储、数据处理的软件Yonghong Z-Data Mart是一款专业的数据集市软件。
Hadoop Map Reduce适合通过批处理方式访问海量数据,但无法满足海量数据的实时处理的需求。
实时商业智能建设的主要目标是支持实时决策,这就对海量数据处理的即时、快速、稳定提出了更高的要求。
Yonghong Z-Suite Map Reduce解决方案更好的实现了这些特点:完全放弃了心跳机制,采用实时信息交换底层,进行实时的Map-Reduce任务分配与执行。
这一信息交换底层能够保障几十甚至上百个节点之间的高效信息交换,使得实时的Map-Reduce 任务分配与执行能够在毫秒级完成任务分解与派发工作。
Map Reduce任务服务于海量数据处理,任务清晰。
通过在Map Node中预先部署Map的数据处理和数据分析功能的代码文件集,在Reduce节点中预先部署Reduce的数据处理和数据分析功能的代码文件集,在运行Job之前,每个Map和Reduce节点已经具备了相应的数据处理和分析能力。
这种方式极大地减少了实时传输和部署的时长。
直接在各节点之间传输中间结果和最终结果(Stream Computing)。
由于Map-Reduce采用了具有自主知识产权的高效率的实时信息交换底层,这一底层保障了大量传输Map的中间结果、Reduce的中间结果及最终结果的实效性。
本文档主要介绍两个案例,一个是互联网行业大数据案例,一个是电信行业的大数据案例。
互联网大数据案例案例背景某著名咨询公司用户行为分析系统面临问题:实时分析的数据量大,基于Hive的分析系统不够实时,但预算有限。
问题解决步骤1.首先提出了测试方案:90天细节数据约50亿条导入Yonghong DM,再定制Dashboard分析。
2.简单测试:先通过5台PC Server,导入1-2天的数据,演示如何ETL,如何做简单应用。
3.按照提出的测试方案开始导入90天的数据,在导入数据中解决了如下问题:解决步长问题,有效访问次数,在几个分组内,停留时间大于30分钟。
解决HBase数据和SQL Server数据的关联问题。
解决分组太多,Span过多的问题。
4.数据源及数据特征分析:90天的数据,Web数据7亿,App数据37亿,总估计在50亿。
每个表有20多个字段,一半字符串类型,一半数值类型,一行数据估计2000Byte。
每天5000万行,原始数据每天100G,100天是10T的数据。
抽取样本数据100万行,导入数据集市,数据量在180M。
50亿数据的若全部导入需要900G的量,压缩比在11:1。
假设同时装载到内存中分析的量在1/3,那总共需要300G的内存。
5.设计方案:总共配制需要300G的内存。
硬件:5台PC Server,每台内存:64G,4CPU4Core。
机器角色:一台Naming、Map,一台Client、Reduce、Map,其余三台都是Map。
6.ETL过程:历史数据集中导:每天的细节数据和SQL Server关联后,打上标签,再导入集市。
增量数据自动导:先删除近3天的数,再导入近3天的数。
维度数据被缓存;细节数据按照日期打上标签,跟缓存的维度数据关联后入集市;根据系统配置调优日期标签来删除数据;清洗出有意义的字段。
7.系统配置调优:内部管理内存参数:mem.proc.count=8mem.serial.mem=5120mem.result.mem=10240JVM内存管理参数配置:JAVA_OPTS="-XX:NewRatio=3-XX:SurvivorRatio=1-XX:+UseParNewGC-XX:+UseConcMarkSweepGC-XX:MaxGCPauseMillis=6000-XX:GCTimeRatio=19-XX:ParallelGCThreads=16-XX:+UseCMSCompactAtFullCollection-XX:CMSFullGCsBeforeCompaction=1-XX:CMSInitiatingOccupancyFraction=80-XX:+CMSClassUnloadingEnabled-XX:-CMSParallelRemarkEnabled-XX:SoftRefLRUPolicyMSPerMB=0-XX:+PrintHeapAtGC-XX:+PrintGCDetails-Xms61440m-Xmx61440m-Djava.awt.headless=true"8.前端展现:互联网用户行为分析:浏览器分析:运行时间,有效时间,启动次数,覆盖人数,等等。
主流网络电视:浏览总时长,有效流量时长,PV覆盖占有率,UV占有率,等等。
主流电商网站:在线总时长,有效在线总时长,独立访问量,网站覆盖量,等等。
主流财经网站:在线总时长,有效总浏览时长,独立访问量,总覆盖量,等等。
报表截图案例测试结果90天数据,近10T的原始数据,大部分的查询都是秒级响应。
实现了Hbase数据与SQL Server中维度表关联分析的需求。
预算有限,投入并不大,又能解决Hive不够实时的问题。
性能卓越的交互式BI呈现,非常适合分析师使用。
电信大数据案例案例背景某省移动CMNET流量分析与控制系统面临问题:数据量特别大,但预算特别有限,基于DW的分析系统完全无法支持。
问题解决步骤1.首先提出了测试方案:100天数据约60亿条导入Yonghong DM,再定制Dashboard分析。
由于预算特别有限,硬件上定制6个节点的PC集群(1CPU4Core)。
2.POC(Proof of Concept):Demo:工作原理,和BI的展现能力,从功能上基本可以认可项目的可行性。
测试大数据量下多查询,多用户并发访问的响应速度。
经过测试,结果符合需求。
3.第一阶段技术服务支持:解析日志:不单是某些文件块,而是整个文件系统下所有日志文件。
清洗:维度关联,维度清洗,日期的清洗,等等。
应用展现:各维度的月,日,年分组展现。
4.出现严重问题:一天的数据分成N个链路,288块数据,每5分钟一个块。
一天的数据,原始DAT文件大概有3G,关联入库后大概是20G数据,至少3亿条数据。
问题:100天数据量大于300亿条,是当初估算数据量的6-7倍!5.问题解决方式:降维!做两小时汇总,给细节数据加上两小时时间的字段。
3天细节数据,汇总数据分为App与非App的数据20G数据,汇总后的总量2G,大概下降10倍。
重构前端。
6.最终方案:配置180G的JVM内存。
硬件:6台PC,每台内存:32G,1CPU4Core。
历史数据集中导:按照两小时打标签,和维度表关联生成细节数据,再汇总入库。
增量数据自动导:每5分钟导入数据,每两小时生成汇总数据。
系统保留3天细节数据和100天汇总数据供BI前端消费。
7.系统配置调优:内部管理内存参数:mem.proc.count=4mem.serial.mem=5120JVM内存管理参数配置:JAVA_OPTS="-XX:NewRatio=3-XX:SurvivorRatio=1-XX:+UseParNewGC-XX:+UseConcMarkSweepGC-XX:MaxGCPauseMillis=6000-XX:GCTimeRatio=19-XX:+UseConcMarkSweepGC-XX:MaxGCPauseMillis=6000-XX:GCTimeRatio=19-XX:ParallelGCThreads=4-XX:+UseCMSCompactAtFullCollection-XX:CMSFullGCsBeforeCompaction=1-XX:CMSInitiatingOccupancyFraction=80-XX:+CMSClassUnloadingEnabled-XX:-CMSParallelRemarkEnabled-XX:SoftRefLRUPolicyMSPerMB=0-XX:+PrintHeapAtGC-XX:+PrintGCDetails-Xms30720m-Xmx30720m-Djava.awt.headless=true“8.前端展现:CMNET流量分析与控制系统:各网间出口的流量统计,分地市,分运营商。
各网间出口的流量的流向统计,分运营商,分省。
各网间出口的流量的业务量统计,分地市。
各网间出口的流量的业务量TOPN排名,分大类业务,具体应用的小类业务。
热点域名的TOPN排名报表截图案例测试结果数据量非常大,100天超过300亿条日志。
预算非常有限,投入6台PC,几万块硬件,软件性价比也很高。
日志解析清洗过程难度较高,随着降维的需求加入,展现层难度相应提高。
为了达到十几秒的交互式响应,进行了多个层面的优化。
永洪科技BI:驱动模式:业务驱动。
开发模式:以敏捷开发模式建设BI系统。
交付周期:交付周期偏短,项目失败率低;乐意在客户现场做POC(Proof of Concept)。
需求变化:可以应对变化,新需求交付周期很短;相关模块调整不大,交付周期在一两天之内。
成本:一站式平台提供数据集市和BI软件,无需购买MPP数据仓库,费用低。
自服务BI:能够形成自服务BI。
分析:展现只是起点,分析功能强大。
海量数据:X86通用平台,以Scale-out扩展模式处理海量数据。
基于CPU收费,具有较高性价。
数据集市:TB、PB级别数据查询秒级响应。