开发语言。 多集群: Spark 支持 Hadoop YARN,Apache Mesos,
及其自带的独立集群管理器
大数据技术体系及人才需求
RDD 转化操作
map :返回一个新的分布式数据集,由每个原元素经过func函数转换后组成 filter: 返回一个新的数据集,由经过func函数后返回值为true的原元素组成
转型。 三要强化安全保障,提高管理水平,促进健康发展。
大数据技术体系及人才需求
大数据行业趋势
1.政府数据将成为地方政府最重要的资产。 2.大数据四要素是预警、预测、决策、智能。 3.中国大数据70%的需求集中在政府和金融应用。 4.大数据产业与传统产业深度融合。 5.数据源服务商构建大数据生态圈。 6.大数据智能会逐步取代搜索引擎。
大数据技术体系及人才需求
大数据与其他技术的关系
1.物联网:为大数据分析提供数据源 2.云计算:为大数据分析提供计算平台 3.虚拟现实:为大数据分析提供应用场景 5.人工智能:模型训练需要依赖大量数据
大数据技术体系及人才需求
大数据应用场景
1.趋势分析 2.行为分析 3.关系分析 4.异常检测
集,所有元素交互进行笛卡尔积。
大数据技术体系及人才需求
RDD 行动操作
reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据, func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到 最后一个元素
collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程 序内存溢出,一般要控制返回的数据集大小
flatMap: 类似于map,但是每一个输入元素,会被映射为0到多个输出元素 sample(withReplacement, frac, seed) :根据给定的随机种子seed,随机抽样出 数量为frac的数据 union: 返回一个新的数据集,由原数据集和参数联合而成 groupByKey:在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V]) 对的数据集。