大数据和人工智能ppt课件
- 格式:docx
- 大小:2.58 MB
- 文档页数:36
大数据人工智能大数据带来的历史变革人工智能技术的演变人工智能标志性产品如何构建数据类产品什么是大数据大数据带来的价值变化工厂车间无形资产固定资产大数据的显著特征大数据最核心的特征——预测!大数据的另一个特征——全样本!大数据带来的变革Information Technology Technology Information 过去的20年,我们为客户提供的是支持业务的信息技术。
未来的20年,我们为客户提供的是驱动业务的技术信息。
下一个10年智能经济的浮现工业革命以前,人类认识世界的方法论处在初级阶段,占卜和宗教是人类应对不确定性的重要依据。
工业革命带来了一场革命,基于理论推理、实验验证、模拟择优的科学极大地减少了人类面临的不确定性,为人类带来了百余年的繁荣。
智能经济是使用决策机制去应对不确定性的一种经济形态。
产品、个体、组织、产业、世界都将完成微粒化的解构和智能化的重组。
大数据带来的历史变革人工智能技术的演变人工智能标志性产品如何构建数据类产品人工智能可以分成两个部分来理解,即“人工”和“智能”。
人工,自然就是一些人力所能做到的事情,由人去完成活动。
智能,应该理解为智慧和能力。
机器学习概念介绍机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。
三种主要类型的机器学习:监督学习、非监督学习和强化学习。
监督学习:涉及一组标记数据。
计算机可以使用特定的模式来识别每种标记类型的新样本。
无监督学习:数据是无标签的。
由于大多数真实世界的数据都没有标签,这些算法特别有用。
强化学习:使用机器的个人历史和经验来做出决定。
与监督和非监督学习不同,它更关注性能。
机器学习系统的基本原理机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。
但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
回归模型回归是最流行的机器学习算法,线性回归算法是基于连续变量预测特定结果的监督学习算法。
另一方面,Logistic回归专门用来预测离散值。
例:如果有100平房子出售应该卖多少钱?Y = aX + bY:房价X:面积假设a = 0.75,b = 50,则房价 = 100 * 0.75 + 50 = 125万。
我要买饼干甜的 咸的有夹心 有夹心 椒盐味 麻辣味叶节点分枝根部节点决策树模型决策树是一种十分常用的分类方法。
就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。
初识神经网路神经网络的三个概念:输入层(Input layer ):众多神经元接受大量非线形输入讯息。
输出层(Output layer ):讯息在神经元链接中传输、分析、权衡,形成输出结果。
隐藏层(Hidden layer ):是输入层和输出层之间众多神经元和链接组成的各个层面。
+1代表偏移值(偏置项, Bias Units);X1,X2,X2代表初始特征;w0,w1,w2,w3代表权重(Weight), 即参数,是特征的缩放倍数;特征经过缩放和偏移后全部累加起来,此后还要经过一次激活运 算然后再输出。
神经网络学习原理训练机器,输入大量的数据进行喂养神经网络做复杂结构反应输出预测结构神经网络做出基本型反应神经网络做抽象概念反应典型神经网络算法循环神经网络(Recurrent Neural Networks,RNN)已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用。
大数据带来的历史变革人工智能技术的演变人工智能标志性产品如何构建数据类产品人工智能突破性的革命2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册帐号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。
围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平,在GoRatings网站公布的世界职业围棋排名中,其等级分曾超过排名人类第一的棋手柯洁。
AlphaGo的物理结构1200多个CPU40个在线网络平台AlphaGo物理组成3000万个棋局AlphaGo 是一款围棋人工智能程序。
其主要工作原理是“深度学习”。
“深度学习”是指多层的人工神经网络和训练它的方法。
一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。
这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
170多个GPU专门铺设的赛事光缆AlphaGo的神经网络结构快速走子网络是一个比较低水平但是计算量也很小的神经网络;专家训练网络通过职业棋手对弈的棋局训练出来的,它的激活函数和具体的卷积核数量自我提升网络通过电脑自我对弈的大量棋局进行提升训练后的网络价值判断进行价值判断的,输入一个对弈局面,黑棋和白棋的胜率.AlphaGo 的计算过程蒙特卡洛博弈树搜索棋局判断1) 假设当前棋局状态为St ,对于每一种可选择的走法a , 选择走a 之后的棋局价值Q(St,a)节点搜索2)将这个叶子节点 SL 展开,并用“价值判断网络”计算 其价值V θ胜率判断(4)将估算结果反 向更新到这次搜索途经的全部节点, 反向更新公式计算。
完成落子重复计算3)在这个节点的基础上 进行多局自我对弈,根据多局对弈的胜负比率来估算胜Z(SL)。
最后使用V θ (SL )和Z(SL)的加权平 均来估算此节点的胜率。
5.之后再从St 开 始,仍然按照(1) 的规则重新搜索。
估算结果根据落子时间蒙特 卡洛结束计算完成 棋局落子为什么要做数据类产品如何 供应、供多 少从哪 制造, 产多 少需要多 少公司、 卖什么消费者需 求变动。
趋势配送周期 与成本合 理吗适合卖那 些品类现在多数企业都上了ERP ,但ERP 本身不提供决策分析, 决策还是靠拍脑袋;企业现阶段需要数据分析类产品提升供应链管理水平。
阿里在B端场景应用过去两年,阿里巴巴已经用技术为零售业(个人端、消费端的新零售)创造巨大价值,未来这一价值将在制造业(产业端的新制造)、金融业进一步显现。
数据类产品怎么做数据挖掘快速迭代收益评估产品定位 功能开发 评估长期收益 数据挖掘 测试上线 生命周期管理 数据建模 需求完善 产品日常运维数字资产模型调优需求分析用户需求调研基本数据收集异常数据清洗产品规划产品雏形技术初审原型设计需求文档推广应用特征提取产品推荐反馈优化核心概念的解释数据收集:根据业务场景需要,提取业务系统中或手工报表存储的数据,并利用各种手段完善数据质量。
数据清洗:针对收集上来的数据进行验证,清洗字段不完整的数据或者由于突发事件造成的数据噪点、干扰数据。
数据分析:据分析强调使用统计学方法,发现有用信息,支持决策,构造建设性结论。
数据挖掘:大数据关联性更加密切,利用人工智能,机器学习,统计学等知识,对于大型数据集进行分析,发现规律,预测未来,辅助决策。
数据建模:是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。
数据建模大致分为三个阶段,概念建模阶段,逻辑建模阶段和物理建模阶段。
数据清洗-异常值处理异常值(Outliers)是指样本中的个别值,其数值明显偏离它(或它们)所属样本的其余观测值,也称异常数据,离群值。
在进行量价关系回归过程中,异常值的存在会一定程度地影响需求函数拟合的效果。
(1)对于每日数据,对于每周数据,剔除掉销量小于15 的记录;(2)剔除掉销量处于均值上下两倍标准差之外的记录;(3)留存销量比较高的商品进行分析;(4)产品销售与价格之间的波动趋势分析;(5)进行稳健回归模型计算;(6)剔除掉残差在均值两倍标准差之外的样本点。
数据挖掘-商品弹性一个商品存在一个真实固定的弹性值ε,一个数学上更好的描述则是商品在某个时间某个价格下真实的弹性符合一个分布。
实际中最常见的分布是正态分布(Normal distribution)或高斯分布(Gaussian distribution)。
比如说我们可以假设一个商品真实的弹性服从一个均值为μ,标准差为σ的正态分布,就是一个均值为−3,标准差为1的高斯分布,统计上高斯分布的概率密度函数可以表示为:数据建模-季节指数商品的销量可能受到多重周期性因素的影响,可以将销量描述为关于时间的函数f 傅里叶变换将复杂的函数转化成一系列周期性函数之和。
,可以通过傅里叶变换将一个函数转换为sin 和cos 的和,相当于将一个时间函数映射到频域,在频域空间中正弦波是频域中唯一存在的波形。
通过选择能量较高(即较显著)的周期性正弦波,我们可以得出其对应的频率或周期,从而量化地描述商品销量的季节性特征等。
t模型校验-校验方法维度一、预测MAPEMAPE (mean absolute percentage error )指标是预测领域标准的一种误差度量方式,是在统计学上较为通用的预测准确度度量方法,其计算公式为: MAPE=1n t=1 其中,At 代表N 个集合中第t 个样本的实际值,Ft 代表N 个集合中第t 个样本的预测值。
这种评估标准主要关注整体预测平均的绝对偏差情况,但对预测模型的预测偏多还是偏少的情况难以体现,而且整体指标一定程度上受极差样 本的影响。
维度二、预测MAPDMAPD (mean absolute percent deviation )指标是计算某个周期内整体的绝对百分比偏差情况,这种方式解决了需求和 预测(供应链领域)量化的度量问题,其计算公式为: MAPD= − / t其中,At 代表集合中某一个的实际值,Ft 代表中某一个的预测值,此种评估方式的优点是较为客观地反映了预测绝对 值偏差情况,但存在的问题是可能受个别SKU 预测偏差极大而影响整体的MAPD 值。
At−Ft At谢谢观看!。