第4章 Spark SQL结构化数据文件处理

格式：pptx
大小：1.33 MB
文档页数：35

下载文档原格式

/ 35

学会使用ApacheSpark进行大数据分析和处理的基本操作

学会使用ApacheSpark进行大数据分析和处理的基本操作Apache Spark是一个快速、通用、可扩展的大数据处理引擎，被广泛应用于大数据分析和处理中。

学会使用Apache Spark进行大数据分析和处理的基本操作，对于数据科学家和大数据工程师来说至关重要。

本文将介绍Apache Spark的基本概念和操作，包括数据加载、转换、过滤、聚合以及输出等，以帮助读者快速上手使用Apache Spark进行大数据分析和处理。

第一章：Apache Spark简介与安装Apache Spark是一款开源的大数据处理框架，提供了高效的分布式计算能力，可以处理大规模的数据集。

在使用Apache Spark 之前，我们需要先安装Spark并配置好相应的环境。

具体的安装过程可以在Apache Spark官方网站上找到，并根据操作系统类型和版本进行安装、设置和配置。

第二章：数据加载与存储在使用Apache Spark进行大数据分析和处理之前，我们需要先将数据加载到Spark中。

Spark支持多种数据源和格式，如文本文件、CSV文件、JSON文件、数据库等。

可以使用Spark的API或工具（如spark-submit或spark-shell）来加载和读取数据。

除了加载数据，我们还可以将结果保存到各种外部存储介质中，如HDFS、S3或关系型数据库等。

第三章：数据转换与过滤在数据分析和处理过程中，常常需要对数据进行转换和过滤以满足需求。

Apache Spark提供了丰富的转换和过滤操作，如映射、过滤、排序、去重等。

通过这些操作，我们可以对数据集进行加工和处理，以便于后续的分析和挖掘。

第四章：数据聚合与计算数据聚合是大数据处理中常见的操作之一，Apache Spark提供了多种聚合和计算函数，如求和、平均值、最大值、最小值、统计等。

通过这些函数，我们可以对数据集进行统计和计算，以获取更有价值的信息。

此外，Spark还支持自定义聚合函数和窗口函数，可以满足更加复杂的需求。

Spark读取txt,并结构化后执行SQL操作

Spark读取txt,并结构化后执⾏SQL操作1.准备 idea , 配置好scala ,需要有 Spark sql包 !注意:如果⾃⼰Spark能跑 ,就不要复制我的POM了,代码能直接⽤.---------------贴⼀下POM , 我⽤的是Spark版本是 2.4.3, Spark_core以及sql是2.11<?xml version="1.0" encoding="UTF-8"?><project xmlns="/POM/4.0.0"xmlns:xsi="/2001/XMLSchema-instance"xsi:schemaLocation="/POM/4.0.0 /xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.alpha3</groupId><artifactId>Scala008</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>2.11.12</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-client</artifactId><version>1.2.0</version><exclusions><exclusion><artifactId>hadoop-common</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>netty-all</artifactId><groupId>ty</groupId></exclusion></exclusions></dependency><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>1.2.0</version><exclusions><exclusion><artifactId>hadoop-client</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>netty-all</artifactId><groupId>ty</groupId></exclusion><exclusion><artifactId>hadoop-common</artifactId><groupId>org.apache.hadoop</groupId></exclusion></exclusions></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.6.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_2.11</artifactId><version>2.4.3</version></dependency> <dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql-kafka-0-10_2.11</artifactId><version>2.4.3</version></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.6</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-jdbc</artifactId><version>0.13.0</version></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.38</version></dependency></dependencies><build> <sourceDirectory>src/main/scala</sourceDirectory><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><goal>compile</goal><goal>testCompile</goal></goals></execution></executions></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-shade-plugin</artifactId><version>2.4.3</version><executions><execution><phase>package</phase><goals><goal>shade</goal></goals><configuration><filters><filter><artifact>*:*</artifact><excludes><exclude>META-INF/*.SF</exclude><exclude>META-INF/*.DSA</exclude><exclude>META-INF/*.RSA</exclude></excludes></filter></filters></configuration></execution></executions></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><configuration><source>1.8</source><target>1.8</target></configuration></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-jar-plugin</artifactId><configuration><archive><manifest><addClasspath>true</addClasspath><useUniqueVersions>false</useUniqueVersions><classpathPrefix>lib/</classpathPrefix><mainClass>com.me.Scala008</mainClass></manifest></archive></configuration></plugin></plugins></build></project>2. 第⼆步 ,创建伴⽣类 , 何谓伴⽣类 , 就是此类可以直接执⾏main⽅法import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}object Spark_File_to_SQL {def main(args: Array[String]): Unit = {import org.apache.log4j.{Level, Logger}Logger.getLogger("org").setLevel(Level.OFF)val ss = SparkSession.builder().appName("Scala009").master("local").getOrCreate()//获取 SparkContextval sc = ss.sparkContextval rdd = sc.textFile("D:\\aa.txt")val mapRDD= rdd.map(line=>Row(line.split(" ")(0),line.split(" ")(1)))val sf1=new StructField("ip",StringType,true) //这⾥是列1 信息是 IPval sf2=new StructField("user",StringType,true) //这⾥是列2 信息是userval table_sch=new StructType(Array(sf1,sf2)) //⽣成表结构 , 由两列叫IP和user的列组成的表 ,可以为空val df=ss.createDataFrame(mapRDD,table_sch) //⽤mapRDD的分列数据去映射到结构表⾥⾯,⽣成具有列信息的表df.createTempView("cyber") //创建视图 cyberss.sql("select * from cyber").show() //打印视图(表)println("执⾏完毕")}}运⾏结果PS:我在D:\\aa.txt ⽬录下新建了⽂本⽂档 , 组合⽅式为 IP+ 空格 +⽤户名------------恢复内容结束------------。

基于大数据的产品开发管理系统的设计与实现

收稿日期:２０２３－０２－１９ꎮ作者简介:张冬(１９９９ )ꎬ男ꎬ硕士生ꎬ研究方向为大数据处理㊁企业管理信息化ꎮ㊀∗通信作者:刘旭波(１９７１ )ꎬ男ꎬ副教授ꎬ博士ꎬ研究方向为机械制造装备设计㊁机床数控技术ꎮＥ￣ｍａｉｌ:ｌｉｕｘｕｂｏ＠ｎｃｕ.ｅｄｕ.ｃｎꎮ张冬ꎬ刘旭波.基于大数据的产品开发管理系统的设计与实现[Ｊ].南昌大学学报(工科版)ꎬ２０２３ꎬ４５(４):３９９－４０３.ＺＨＡＮＧＤꎬＬＩＵＸＢ.Ｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍｂａｓｅｄｏｎｂｉｇｄａｔａ[Ｊ].ＪｏｕｒｎａｌｏｆＮａｎｃｈａｎｇＵｎｉｖｅｒｓｉｔｙ(Ｅｎｇｉｎｅｅｒｉｎｇ＆Ｔｅｃｈｎｏｌｏｇｙ)ꎬ２０２３ꎬ４５(４):３９９－４０３.基于大数据的产品开发管理系统的设计与实现张冬ꎬ刘旭波∗(南昌大学先进制造学院ꎬ江西南昌３３００３１)㊀㊀摘要:针对制造业产品开发数据多源异构的特点以及产品开发各阶段数据不及时流通的问题ꎬ分析了大数据技术在产品开发管理系统上的应用ꎬ研究并设计了基于大数据的产品开发管理系统ꎮ通过大数据技术采集和分析产品设计研发数据㊁生产制造数据㊁产品质量数据ꎬ并采用模糊层次法对产品开发设计方案进行评价ꎬ为产品开发设计方案优化提供数据支撑ꎮ通过多模块开发实现对系统管理㊁产品开发管理和产品设计方案评价的集成ꎬ对提高产品开发效率具有一定的借鉴意义ꎮ关键词:大数据技术ꎻ产品开发管理系统ꎻ模糊层次评价ꎻ制造业中图分类号:ＴＰ３９３.０９㊀㊀㊀㊀文献标志码:Ａ㊀㊀㊀㊀文章编号:１００６－０４５６(２０２３)０４－０３９９－０５ＤｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍｂａｓｅｄｏｎｂｉｇｄａｔａＺＨＡＮＧＤｏｎｇꎬＬＩＵＸｕｂｏ∗(ＳｃｈｏｏｌｏｆＡｄｖａｎｃｅｄＭａｎｕｆａｃｔｕｒｉｎｇꎬＮａｎｃｈａｎｇＵｎｉｖｅｒｓｉｔｙꎬＮａｎｃｈａｎｇ３３００３１ꎬＣｈｉｎａ)Ａｂｓｔｒａｃｔ:Ｉｎｖｉｅｗｏｆｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｍｕｌｔｉ￣ｓｏｕｒｃｅｈｅｔｅｒｏｇｅｎｅｏｕｓｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｄａｔａａｎｄｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｄａｔａｉｎｅａｃｈｓｔａｇｅｏｆｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｄｏｅｓｎｏｔｃｉｒｃｕｌａｔｅｉｎｔｉｍｅꎬｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｂｉｇｄａｔａｔｅｃｈｎｏｌｏｇｙｉｎｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍｗａｓａｎａｌｙｚｅｄꎬａｎｄａｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍｂａｓｅｄｏｎｂｉｇｄａｔａｗａｓｒｅｓｅａｒｃｈｅｄａｎｄｄｅｓｉｇｎｅｄ.Ｂｉｇｄａｔａｔｅｃｈｎｏｌｏ￣ｇｙｗａｓｕｓｅｄｔｏｃｏｌｌｅｃｔａｎｄａｎａｌｙｚｅｐｒｏｄｕｃｔｄｅｓｉｇｎａｎｄｄｅｖｅｌｏｐｍｅｎｔｄａｔａꎬｍａｎｕｆａｃｔｕｒｉｎｇｄａｔａａｎｄｐｒｏｄｕｃｔｑｕａｌｉｔｙｄａｔａꎬａｎｄｆｕｚｚｙｈｉｅｒａｒ￣ｃｈｉｃａｌｍｅｔｈｏｄｗａｓａｄｏｐｔｅｄｔｏｅｖａｌｕａｔｅｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔａｎｄｄｅｓｉｇｎｓｃｈｅｍｅｓꎬｐｒｏｖｉｄｉｎｇｄａｔａｓｕｐｐｏｒｔｆｏｒｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔａｎｄｄｅ￣ｓｉｇｎｓｃｈｅｍｅｏｐｔｉｍｉｚａｔｉｏｎ.Ｔｈｅｉｎｔｅｇｒａｔｉｏｎｏｆｓｙｓｔｅｍｍａｎａｇｅｍｅｎｔꎬｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔａｎｄｐｒｏｄｕｃｔｄｅｓｉｇｎｓｃｈｅｍｅｅｖａｌｕａ￣ｔｉｏｎｗａｓｒｅａｌｉｚｅｄｔｈｒｏｕｇｈｍｕｌｔｉ￣ｍｏｄｕｌｅｄｅｖｅｌｏｐｍｅｎｔ.ＫｅｙＷｏｒｄｓ:ｂｉｇｄａｔａｔｅｃｈｎｏｌｏｇｙꎻｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍꎻｆｕｚｚｙｈｉｅｒａｒｃｈｙｅｖａｌｕａｔｉｏｎꎻｍａｎｕｆａｃｔｕｒｉｎｇ㊀㊀随着大数据技术与新一代信息技术的发展ꎬ全球制造业都面临着新的挑战与机遇ꎮ从国家层面ꎬ２０１５年ꎬ我国提出要搭建智能制造平台[１]ꎻ２０２０年ꎬ中央深改委提出要加快提升制造业数字化㊁智能化水平[２]ꎮ从市场方面ꎬ全球每天产生的数据量已经超过了１０００亿ＧＢꎬ国际数据公司预计到２０２５年全球数据规模将达到１７５ＺＢꎬ其中制造业数据所占比例远超其他行业ꎮ调查显示ꎬ越来越多的制造企业也愿意采取大数据技术来指导产品的设计研发[３]ꎮ因此ꎬ不管是从国家的政策还是企业内部寻求发展转型ꎬ制造业数据化㊁智能化都不可避免ꎮ随着制造业智能化㊁信息化的不断发展ꎬ各类工业传感器和各种信息系统的应用ꎬ产品开发过程中产生的数据也越来越多[４]ꎮ如制造执行系统(ｍａｎ￣ｕｆａｃｔｕｒｉｎｇｅｘｅｃｕｔｉｏｎｓｙｓｔｅｍꎬＭＥＳ)产生大量不同结构类型的生产数据ꎬ产品质量信息系统产生的产品质量数据ꎮ这些海量的数据中隐藏着许多对产品开发有价值的信息ꎬ可以驱动企业管理以及帮助设计师在产品设计研发时做出正确的决策[５]ꎮ在智能制造的大环境下ꎬ将大数据技术与产品开发管理系统相结合ꎬ实现了产品开发全生命周期数据的管理和分析ꎬ提高了产品开发的效率ꎮ第４５卷第４期２０２３年１２月㊀㊀㊀㊀㊀㊀南昌大学学报(工科版)ＪｏｕｒｎａｌｏｆＮａｎｃｈａｎｇＵｎｉｖｅｒｓｉｔｙ(Ｅｎｇｉｎｅｅｒｉｎｇ＆Ｔｅｃｈｎｏｌｏｇｙ)Ｖｏｌ.４５Ｎｏ.４Ｄｅｃ.２０２３㊀１㊀需求分析㊀㊀产品的开发流程主要有设计研发㊁生产制造㊁质量检测等ꎬ每个流程产生的数据都具有来源多样㊁实时性高㊁数据信息复杂的特点[６]ꎮ各个流程数据特点如表１所示ꎮ要想从这些来源不同㊁结构不同的数据中发现对产品开发有用的数据ꎬ就需要对这些数据进行综合研究[７]ꎬ即对多源异构数据的处理ꎮ传统的关系型数据库是按照结构化的方法来存储数据的ꎬ不能满足非结构化数据的存储要求ꎬ并且产品开发过程中的许多数据具有很高的时效性ꎬ因此需要使用大数据的数据库组件进行存储ꎮ表１㊀产品开发各阶段数据特点Ｔａｂ.１㊀Ｄａｔａｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｅａｃｈｓｔａｇｅｏｆｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔ开发阶段数据来源数据内容数据类型设计研发ＣＡＤ集成㊁人工上传功能需求㊁调研报告等设计图纸㊁工艺流程图等结构化㊀非结构化生产制造生产制造系统制造人员信息㊁产品数量等设备状态㊁材料报表等结构化㊀非结构化质量检测产品质量信息系统质检人㊁质检时间等产品磨损状态㊁维修状况等结构化㊀非结构化目前在制造业应用的信息系统大多是独立的ꎬ各个系统都有自己的数据库以及存储格式ꎬ因此不能对整个产品生命周期的数据进行共享分析ꎬ导致生产制造系统㊁产品质量信息系统等系统的数据不能有效指导产品的设计研发ꎮ同时ꎬ产品开发的设计方案如何进行优化也不能通过数据分析得到反馈ꎮ因此ꎬ要想提高产品研发效率㊁优化成本ꎬ就需要对产品整个生命周期的大数据进行管理分析ꎬ从而作出正确的决策ꎮ基于大数据的产品开发管理系统针对目前存在的问题可满足以下需求:１)满足产品开发过程中全生命周期各类数据的采集分类存储ꎮ２)完成对产品生产制造数据和产品质量数据的分析处理ꎬ优化产品的设计研发ꎮ３)实现产品开发数据的图形展示ꎮ４)拥有完善的权限管理机制ꎬ帮助加强企业管理ꎮ５)产品设计开发方案的评价ꎮ２㊀系统设计２.１㊀系统架构设计基于大数据的产品开发管理系统的大数据架构分为４层ꎬ分别为数据采集层㊁数据存储层㊁数据分析层和应用层ꎮ基于大数据的系统架构如图１所示ꎮZooKeeper图１㊀基于大数据的系统架构图Ｆｉｇ.１㊀Ｓｙｓｔｅｍａｒｃｈｉｔｅｃｔｕｒｅｄｉａｇｒａｍ㊀㊀１)数据采集层ꎮ产品生命周期各个环节数据的采集是实现系统功能的前提[８]ꎮ产品开发大数据主要有历史数据和实时数据２种ꎮ实时数据一般是生产制造系统中的数据ꎬ当实时数据导入系统时可能会产生数据堆积ꎬ所以采用Ｋａｆｋａ来进行数据缓存ꎮ该系统通过ＡＰＩ接口实现生产制造系统㊁产品质量信息系统数据的导入ꎮ关系型数据库ＭｙＳｑｌ中的数据则通过Ｓｑｏｏｐ与本系统完成数据的相互转移ꎮ产品设计图纸则通过ＣＡＤ的集成人工进行上传ꎮ２)数据存储层ꎮ数据存储层主要是完成对产品开发全生命周期００４南昌大学学报(工科版)２０２３年㊀的不同类型数据的多级别存储ꎬ尤其是产品生产制造数据的存储[９]ꎮＨＤＦＳ文件系统作为系统的底层存储ꎬ实现对结构化和非结构化数据的分布式存储ꎬ采用ＮｏＳｑｌ数据库ＨＢａｓｅ和Ｈｉｖｅ数据仓库实现对各种类型数据的管理ꎮ系统日志㊁人员信息等数据则采用关系型数据库ＭｙＳｑｌ进行存储ꎮ３)数据分析层ꎮ数据分析层用于完成对产品全生命周期数据的分析处理和数据挖掘ꎬ以此指导产品的设计研发ꎮ制造业的数据挖掘已经在航空航天方面得到应用[１０]ꎮ数据处理大致分为２类:一类是对数据的批处理ꎬ采用ＭａｐＲｅｄｕｃｅ框架计算ꎻ一类是数据流处理ꎬ采用Ｓｐａｒｋ框架计算ꎮ数据的分析汇总主要通过ＭａｐＲｅｄｕｃｅ的检索查询实现ꎬＳｐａｒｋ框架主要为聚类分析㊁关联分析等算法应用提供计算ꎬ实现产品设计的优化和成本优化ꎮ４)应用层ꎮ大数据技术在制造业领域已经有着多方面的应用[１１]ꎬ本文设计的应用层为基于Ｖｕｅ框架开发的Ｗｅｂ平台ꎬ用于实现产品设计开发的功能ꎮ产品开发每个流程的审批㊁设计图纸的上传下载以及经过分析层处理后产品数据的展示等功能都是在应用层得到体现ꎮ２.２㊀系统功能设计２.２.１㊀系统管理功能设计本系统采用ＪＷＴ(ＪＳＯＮｗｅｂｔｏｋｅｎ)来实现用户的登录认证ꎬＪＷＴ是一种基于Ｔｏｋｅｎ的认证授权机制ꎬ安全性更高ꎮ权限设计采用的是业界主流的ＲＢＡＣ(ｒｏｌｅ￣ｂａｓｅｄａｃｃｅｓｓｃｏｎｔｒｏｌ)模型ꎬ通过给用户角色授予相关的权限ꎬ实现用户的权限管理ꎮ２.２.２㊀产品开发功能设计产品开发是一个流程复杂且需要多人参与的工作ꎬ主要分为策划阶段和设计阶段ꎮ策划阶段包括市场调研㊁可行性分析㊁项目立项㊁任务分组和项目计划制定５个部分ꎮ设计阶段分为总体方案设计㊁零部件设计㊁工艺设计㊁工装设计４个部分ꎮ每个阶段都需要经过相关人员审批后ꎬ才能进入下一个阶段ꎮ产品开发设计的流程如图２所示ꎮ否是否是否是是否图２㊀产品开发设计流程图Ｆｉｇ.２㊀Ｐｒｏｄｕｃｔｄｅｖｅｌｏｐｍｅｎｔａｎｄｄｅｓｉｇｎｆｌｏｗｃｈａｒｔ２.２.３㊀产品设计开发方案评价设计只有经过对产品全生命周期数据的分析验证ꎬ才能发现产品设计方案的优缺点ꎬ进而根据需求作出优化ꎮ本系统通过采集获取产品试制阶段在生产制造系统和产品质量信息系统的数据ꎬ经过聚类分析得到评价指标数据[１２]ꎬ并采用模糊层次分析法对产品设计研发方案进行评价ꎮ模糊层次分析法即模糊评价与层次分析法的结合ꎬ已有相关学者对其进行研究应用[１３－１４]ꎮ假如从ｎ维角度对产品设计方案进行综合评价ꎬ产品设计研发方案可表示为:Ｇ＝ｆ(Ｘ１ꎬＸ２ꎬ ꎬＸｎꎬｔ)ꎮ其中ꎬＧ为设计方案ꎬｆ是关于Ｘ１ꎬＸ２ꎬ ꎬＸｎ和ｔ的函数ꎬＸｉ为关于设计方案的第ｉ维度的属性值ꎬｔ是时间维度ꎮ具体的评价过程如下:１)建立评价因素集ꎮ将产品设计方案所有的评价指标放在一个集合中ꎮ用公式表示为Ｕ＝{ｕ１ꎬｕ２ꎬ ꎬｕｉꎬ ꎬｕｎ}式中:ｕｉ(ｉ＝１ꎬ２ꎬ ꎬｎ)为第ｉ个评价指标ꎮ２)基于评价集ꎬ依次对产品设计方案的各评价因素ｕｉ进行量化ꎬ得出模糊关系矩阵ＲꎮＲ＝ｒ１１ｒ１２ｒ１ｍｒ２１ｒ２２ｒ２ｍ⋮⋮⋮⋮ｒｎ１ｒｎ２ｒｎｍéëêêêêêùûúúúúú㊀㊀３)建立评价指标的权重集ꎮ对各指标因素ｕｉ赋予对应的权数ａｉꎬ进而进行归一化处理:１０４第４期㊀㊀㊀㊀㊀张冬等:基于大数据的产品开发管理系统的设计与实现ðｎｉ＝１ａｉ＝１ꎬａｉȡ０(ｉ＝１ꎬ２ꎬ ꎬｎ)Ａ＝(ａ１ꎬａ２ꎬ ꎬａｎ)㊀㊀４)进行模糊层次综合评价ꎮＲ矩阵中的每一行代表着评价方案的各种单一因素对处于不同层次的模糊子集的相关隶属度ꎮ那么综合评价Ｂ可表示为:Ｂ＝ＡＲ＝(ａ１ꎬａ２ꎬ ꎬａｎ)ｒ１１ｒ１２ｒ１ｍｒ２１ｒ２２ｒ２ｎ⋮⋮⋮⋮ｒｎ１ｒｎ２ｒｎｍéëêêêêêêùûúúúúúú＝(ｂ１ꎬｂ２ꎬ ꎬｂｊꎬ ꎬｂｎ)式中:ｂｊ表示从整体上看评价对象对不同层次的模糊层次评价子集的隶属程度ꎬｊ＝１ꎬ２ꎬ ꎬｍꎮ５)对模糊层次综合评价结果的分析ꎮ将评价对象的每一个糊层次综合评价结果都视为一个模糊向量ꎬ最终结果就包含了评价完整的信息ꎮ然后对不同层次的综合评价权重进行排序ꎮ３㊀关键技术及系统实现３.１㊀关键技术分析３.１.１㊀ＮｏＳＱＬ数据库ＨＢａｓｅＨＢａｓｅ是一个非关系型的分布式数据库ꎮ它是Ｇｏｏｇｌｅ公司ＢｉｇＴａｂｌｅ的开源实现ꎬ主要用来存储异构数据ꎬ采用的是ｋｅｙ￣ｖａｌｕｅ数据模型ꎮＨＢａｓｅ在Ｈａｄｏｏｐ生态体系中是通过其他组件为其提供服务的ꎬ例如ＨＢａｓｅ利用ＺｏｏＫｅｅｐｅｒ来分配数据库资源ꎮＨＢａｓｅ的结构图如图３所示ꎮZooKe eperRegionRegionRegionRegion Region Region Region server Region server Region server HDFSHMasterClient图３㊀ＨＢａｓｅ结构图Ｆｉｇ.３㊀ＨＢａｓｅｓｔｒｕｃｔｕｒｅｄｉａｇｒａｍ３.１.２㊀Ｓｐａｒｋ计算框架Ｓｐａｒｋ是一种通用㊁快速㊁专门处理大规模数据的计算框架ꎮ它是为了解决大数据领域的各种计算要求而被设计出来ꎮＳｐａｒｋ不仅具有Ｈａｄｏｏｐ框架下ＭａｐＲｅｄｕｃｅ的优点ꎬ而且还具有能够进行交互式查询和优化迭代工作负载的优点ꎬＳｐａｒｋ是基于内存的计算框架ꎬ不提供存储的功能ꎬ只涉及到计算ꎬ因此计算速度非常快[１５]ꎮＳｐａｒｋ具有４个核心组件ꎬ如图４所示ꎬ用于满足不同计算要求ꎮ图４㊀Ｓｐａｒｋ核心组件Ｆｉｇ.４㊀ＳｐａｒｋｃｏｒｅｃｏｍｐｏｎｅｎｔＳｐａｒｋＳＱＬ主要用于结构化数据的处理ꎮＳｐａｒｋＳｔｒｅａｍｉｎｇ主要用于快速构建高吞吐量㊁高容错的流处理程序ꎮＭＬｌｉｂ是Ｓｐａｒｋ的机器学习库ꎬ提供了多种算法和模型ꎮＧｒａｐｈｘ主要用于图形计算ꎮ３.２㊀大数据平台搭建本系统使用３台服务器搭建集群ꎬ其中１台为主节点ꎬ其他２台为从节点ꎮ在搭建集群之前已经根据系统需求确定了集群模式方案ꎬ明确使用哪些组件ꎬ使集群能够更有效地运行ꎮ具体的集群搭建方案如表２所示ꎮ表２㊀大数据集群搭建方案Ｔａｂ.２㊀Ｂｉｇｄａｔａｃｌｕｓｔｅｒｃｏｎｓｔｒｕｃｔｉｏｎｓｃｈｅｍｅ类型组件主机Ｚｄ００１(１９２.１６８.８８.１００)Ｚｄ００２(１９２.１６８.８８.１０１)Ｚｄ００３(１９２.１６８.８８.１０２)ＨＤＦＳ框架ＮａｍｅＮｏｄｅ是否否ＳｅｃｏｎｄａｒｙＮａｍｅＮｏｄｅ否是否ＤａｔａＮｏｄｅ是是是Ｙａｒｎ框架ＲｅｓｏｕｒｃｅＭａｎａｇｅｒ是否否ＮｏｄｅＭａｎａｇｅｒ是是是ＨＢａｓｅＨＭａｓｔｅｒ是否否ＨＲｅｇｉｏｎＳｅｒｖｅｒ是是是Ｓｑｏｏｐ是否否Ｓｐａｒｋ是否否Ｈｉｖｅ是否否ＭｙＳＱＬ是否否Ｋａｆｋａ是是是ＺｏｏＫｅｅｐｅｒ是是是３.３㊀主要功能实现３.３.１㊀产品开发功能实现用户经过系统身份验证后ꎬ进入功能主页面ꎮ身份权限不同ꎬ能够操作的页面也不相同ꎮ系统主要的产品开发功能模块有项目立项㊁总体设计㊁零部２０４南昌大学学报(工科版)２０２３年㊀件设计㊁工艺设计㊁工装设计和项目管理６个子模块ꎮ项目立项子模块显示的是项目准备阶段的功能页面ꎬ具有市场调研报告㊁可行性分析报告的上传下载ꎬ项目审批状态的显示等功能ꎮ项目管理子模块是对历史项目的汇总ꎮ其他４个模块是设计阶段的功能显示ꎬ总体设计㊁零部件设计㊁工艺设计㊁工装设计每个流程对应一个子模块ꎬ产品在该阶段的具体信息以及该阶段的审批进度都会在对应页面显示ꎬ并提供查询㊁下载等功能ꎮ图５为零部件设计的界面图ꎮ审核时间审核者审核状态提交时间零件图纸零件数量零件名称滚动轴承联轴器离合器轴2113查看下载查看下载查看下载查看下载2022-09-072021-09-022020-03-022019-03-13未审核审核中审核通过审核通过张三钱大富张三张冬2022-09-072021-09-132020-03-122019-03-30图５㊀零部件设计界面图Ｆｉｇ.５㊀Ｐａｒｔｓｄｅｓｉｇｎｉｎｔｅｒｆａｃｅｄｉａｇｒａｍ３.３.２㊀产品设计研发方案评价产品设计研发方案评价是基于大数据技术完成的ꎬ将分析计算后的指标数据注入模糊层次模型ꎬ得到产品设计方案的评分ꎬ进而对产品设计方案作出优化ꎬ评价结果是不能人为修改ꎮ产品设计研发方案具体评价指标如表３所示ꎮ表３㊀产品设计方案评价指标Ｔａｂ.３㊀Ｐｒｏｄｕｃｔｄｅｓｉｇｎｓｃｈｅｍｅｅｖａｌｕａｔｉｏｎｉｎｄｅｘ二级指标二级指标权重三级㊀㊀指标㊀㊀三级指标权重总权重成本指标０.３５材料成本生产成本使用寿命㊀０.４００㊀０.６００㊀０.２００㊀０.１４㊀０.２１㊀０.０９质量指标０.４５可靠程度产品性能加工精度㊀０.３００㊀０.５００㊀０.３００㊀０.２０㊀０.３０㊀０.２０工艺指标０.２０加工时间材料利用率装配适用度㊀０.１３５㊀０.２２５㊀０.０６０㊀０.０４㊀０.０６㊀０.０４４㊀结语㊀㊀本文针对产品开发管理系统存在的问题ꎬ研究并设计了基于大数据的产品开发管理系统ꎬ系统以产品开发的全生命周期数据为出发点ꎬ围绕产品开发设计㊁分析㊁管理㊁优化等需求ꎬ构建了集系统管理㊁产品开发设计管理㊁产品设计方案评价于一体的产品开发管理系统ꎬ通过大数据技术实现对产品开发全生命周期各类数据的存储分析ꎬ优化了产品开发设计流程ꎬ提高了产品开发的效率ꎮ参考文献:[１]㊀周济.智能制造中国制造２０２５的主攻方向[Ｊ].中国机械工程ꎬ２０１５ꎬ２６(１７):２２７３－２２８４.[２]新华社.中央深改委审议通过«关于深化新一代信息技术与制造业融合发展的指导意见»[Ｊ].互联网天地ꎬ２０２０(７):６－７.[３]相征ꎬ王春玉ꎬ李煜华.行业发展过程中制造企业对大数据技术采纳意愿影响研究[Ｊ].哈尔滨商业大学学报(社会科学版)ꎬ２０２０(６):１０６－１１９.[４]韩栋梁ꎬ贺霄琛.装备制造企业数字化平台设计与实现[Ｊ].电子工业专用设备ꎬ２０２２ꎬ５１(２):１０－１３.[５]徐宗本ꎬ冯芷艳ꎬ郭迅华ꎬ等.大数据驱动的管理与决策前沿课题[Ｊ].管理世界ꎬ２０１４(１１):１５８－１６３.[６]陈世超ꎬ崔春雨ꎬ张华ꎬ等.制造业生产过程中多源异构数据处理方法综述[Ｊ].大数据ꎬ２０２０ꎬ６(５):５５－８１.[７]ＢＩＲＮＥＹＥ.ＴｈｅｍａｋｉｎｇｏｆＥＮＣＯＤＥ:ｌｅｓｓｏｎｓｆｏｒｂｉｇ￣ｄａｔａｐｒｏｊｅｃｔｓ[Ｊ].Ｎａｔｕｒｅꎬ２０１２ꎬ４８９(７４１４):４９－５１.[８]刘欣ꎬ李向东ꎬ耿立校ꎬ等.工业互联网环境下的工业大数据采集与应用[Ｊ].物联网技术ꎬ２０２１ꎬ１１(８):６２－６５.[９]孙云.面向生产过程管控的数据建模㊁集成及存储技术研究[Ｄ].成都:西南交通大学ꎬ２０２１.[１０]荣佑珍ꎬ刘仁培ꎬ魏艳红.航空专用焊接数据库及专家系统[Ｊ].航空制造技术ꎬ２０１７(１２):４３－４７.[１１]周驰.大数据在工业制造业的应用与研究[Ｊ].数字通信世界ꎬ２０１９(８):２２４.[１２]郑继刚.数据挖掘及其应用研究[Ｍ].昆明:云南大学出版社ꎬ２０１４.[１３]吴爱强ꎬ汪永超ꎬ李波.面向绿色制造的机械结构设计方案选择[Ｊ].组合机床与自动化加工技术ꎬ２０１９(１０):１５－１９.[１４]ＺＨＡＯＹＦꎬＬＩＪＲꎬＹＩＮＧＸＺ.Ｓｔｕｄｙｏｎｒｉｓｋｏｆｌｏｎｇ￣ｓｔｅｅｐｄｏｗｎｇｒａｄｅｓｅｃｔｉｏｎｓｏｆｅｘｐｒｅｓｓｗａｙｓｂａｓｅｄｏｎａｆｕｚｚｙｈｉｅｒ￣ａｒｃｈｙｃｏｍｐｒｅｈｅｎｓｉｖｅｅｖａｌｕａｔｉｏｎ[Ｊ].ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓꎬ２０２２ꎬ１２(１２):５９２４.[１５]ＡＨＭＥＤＮꎬＢＡＲＣＺＡＫＡＬＣꎬＳＵＳＮＪＡＫＴꎬｅｔａｌ.Ａｃｏｍ￣ｐｒｅｈｅｎｓｉｖｅｐｅｒｆｏｒｍａｎｃｅａｎａｌｙｓｉｓｏｆＡｐａｃｈｅＨａｄｏｏｐａｎｄＡｐａｃｈｅＳｐａｒｋｆｏｒｌａｒｇｅｓｃａｌｅｄａｔａｓｅｔｓｕｓｉｎｇＨｉＢｅｎｃｈ[Ｊ].ＪｏｕｒｎａｌｏｆＢｉｇＤａｔａꎬ２０２０ꎬ７(１):１－１８.３０４第４期㊀㊀㊀㊀㊀张冬等:基于大数据的产品开发管理系统的设计与实现。

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院

Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院山西职业技术学院绪论单元测试1.大数据的起源是以下哪个领域（）A:互联网 B:金融 C:公共管理 D:电信答案:互联网第一章测试1.与MapReduce相比，Spark更适合处理以下哪种类型的任务（）A:较少迭代次数的长任务 B:较少迭代次数的短任务 C:较多迭代次数的短任务 D:较多迭代次数的长任务答案:较多迭代次数的短任务2.Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）A:regionserver B:slaves C:spark-defaults.conf D:spark-env.sh答案:spark-env.sh3.以下关于SPARK中的spark context，描述错误的是：（）A:可以控制dagsheduler组件 B:可以控制task scheduler组件 C:控制整个application的生命周期 D:SparkContext为Spark的主要入口点答案:控制整个application的生命周期4.以下对Spark中Work的主要工作描述错误的是（）A:不会运行业务逻辑代码 B:会运行业务逻辑代码 C:管理当前节点内存 D:接收master分配过来的资源指令答案:会运行业务逻辑代码5.配置Standalone模式下的Spark集群，Worker节点需要在conf文件夹下的哪个文件中指明（）A:spark-env.sh B:spark-defaults.conf C:slaves D:regionserver答案:slaves6.Spark支持的分布式部署方式中哪个是错误的（）A:Spark on local B:spark on YARN C:spark on mesos D:standalone答案:Spark on local7.Spark单机伪分布式模式，它的特点是在一台节点上既有Master服务，又有Worker服务（）A:对 B:错答案:对8.在部署Spark独立模式时，配置spark内部通信的端口为（）A:16010 B:7070 C:9870 D:7077答案:70779.在部署Spark独立模式时，配置spark的web端口为（）A:7077 B:8080 C:9870 D:4040答案:707710.Spark的bin目录是spark运行脚本目录，该目录中包含了加载spark的配置信息，提交作业等执行命令的脚本（）A:错 B:对答案:对第二章测试1.valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为（）A:Array(1, 3, 5,7,9) B:Array(2, 4, 6, 8, 10) C:Array(1,2,3,4,5,6,7,8,9,10)D:Array(1,10)答案:Array(2, 4, 6, 8, 10)2.下面哪个操作是窄依赖（）A:filter B:sort C:group D:join答案:filter3.下面哪个操作肯定是宽依赖（）A:map B:sample C:flatMap D:reduceByKey答案:reduceByKey4.以下操作中，哪个不是Spark RDD编程中的操作。

Spark大数据处理框架入门与实践

Spark大数据处理框架入门与实践概述Spark是现今最流行的大数据处理框架之一，它可以处理多种类型的数据，包括结构化数据、半结构化数据、非结构化数据、日志数据等。

本文将介绍Spark的基本概念与使用方法，并通过实际案例帮助读者快速掌握Spark大数据处理框架。

Spark的基本概念Spark是一种基于内存的分布式计算框架，可以将数据分布在多个节点上进行计算，从而提高计算效率。

Spark的核心理念是弹性分布式数据集（Resilient Distributed Dataset，简称RDD），它是一种分布式的元素集合，通过分布式群集实现高效计算。

RDD 分为两种类型：Spark的高级API中，基于RDD构建的应用程序称为Spark Core。

Spark的优势Speed：Spark使用内存计算，因此速度要比Hadoop快。

Ease of Use：Spark的API非常友好，许多用户花费很短的时间在上手Spark上。

Unified Engine：Spark的统一计算引擎可以处理多个任务，包括批量处理、流处理等。

Real-time stream processing：Spark有流计算框架Spark Streaming，可以进行流处理。

安装Spark安装Java环境下载Spark启动SparkSpark的实践在下面的实践中，我们将从实际的案例开始使用Spark构建项目。

案例描述我们将使用Spark来分析一份数据，该数据是储格拉斯选举数据，包括每个区域的投票情况和每个候选人得票情况。

步骤1：数据探索我们先下载数据并使用Spark来分析。

下载数据分析数据在Spark中，数据可以从多种来源读取，例如HDFS、S3、HTTP等。

对于我们的数据，我们可以使用以下代码从文件中读取。

在将数据读取到Spark中之后，我们可以使用一些API来处理数据。

下面是一些示例代码，用于清理数据并返回有关储格拉斯选举的一些统计信息。

步骤2：数据处理在数据探索之后，我们需要进一步处理数据。

《Spark大数据编程基础(Scala版)》第六章SparkSQL

6.1.2 程序主入口SparkSession
在启动进入spark-shell后，spark-shell默认提供了一个Spa rkSession对象，名称为spark，因此在进入spark-shell之后进行各种数据操作，可以依据代码6-1声明创建一个SparkSession对象，也可以直接使用spark-shell提供的默认的SparkSession对象，即spark。
6.1.1 Spark SQL架构
Spark SQL与传统的DBMS的“查询优化器+执行器” 的架构较为相似，只不过其执行器是在分布式环境中实现，并采用Spark作为执行引擎。Spark SQL的执行优化器是Catalyst，其基于Scala语言开发的，可以灵活利用 Scala原生的语言特性扩展功能，奠定了Spark SQL的发展空间。所有的Spark SQL语句最终都通过Catalyst解析、优化生成可以执行的Java字节码。
Spark大数据编程基础（Scala版）
本章对Spark SQL进行了概述，包括架构、特点和程序主入口等，以及Spark SQL的DataFrame编程抽象；然后介绍了DataFrame与RDD的区别，从外部数据源创建 DataFrame的方法，以及RDD转换为DataFrame的两种方法；再对DataFrame的Transformation操作、Action操作和保存操作进行了介绍；最后用综合实例对整章内容进行总结概括。
6.1.2 程序主入口SparkSession
SparkSession对象不仅为用户提供了创建Data Frame对象、读取外部数据源并转化为DataFrame 对象以及执行sql查询的API，还负责记录着用户希望Spark应用在Spark集群运行的控制、调优参数，是Spark SQL的上下文环境，是运行的基础。

大数据产业数据挖掘与分析应用解决方案

大数据产业数据挖掘与分析应用解决方案第1章大数据概述 (3)1.1 大数据概念与特征 (3)1.1.1 概念定义 (3)1.1.2 数据特征 (4)1.2 大数据应用领域与发展趋势 (4)1.2.1 应用领域 (4)1.2.2 发展趋势 (4)第2章数据挖掘技术基础 (5)2.1 数据挖掘的定义与任务 (5)2.2 数据挖掘的主要方法与技术 (5)2.3 数据挖掘流程与模型评估 (6)第3章数据预处理技术 (6)3.1 数据清洗与数据集成 (6)3.1.1 数据清洗 (6)3.1.2 数据集成 (7)3.2 数据变换与数据规约 (7)3.2.1 数据变换 (7)3.2.2 数据规约 (7)第4章数据挖掘算法与应用 (7)4.1 分类算法与应用 (7)4.1.1 分类算法概述 (7)4.1.2 分类算法应用 (7)4.1.2.1 金融行业 (7)4.1.2.2 医疗行业 (8)4.1.2.3 电商行业 (8)4.2 聚类算法与应用 (8)4.2.1 聚类算法概述 (8)4.2.2 聚类算法应用 (8)4.2.2.1 市场细分 (8)4.2.2.2 图像处理 (8)4.2.2.3 社交网络分析 (8)4.3 关联规则挖掘算法与应用 (8)4.3.1 关联规则挖掘算法概述 (8)4.3.2 关联规则挖掘应用 (9)4.3.2.1 电商购物篮分析 (9)4.3.2.2 电信行业 (9)4.3.2.3 医疗诊断 (9)第5章大数据挖掘平台与工具 (9)5.1 Hadoop生态系统 (9)5.1.1 Hadoop概述 (9)5.1.2 Hadoop核心组件 (9)5.1.3 Hadoop生态系统中的工具与组件 (9)5.2 Spark计算框架 (10)5.2.1 Spark概述 (10)5.2.2 Spark核心特性 (10)5.2.3 Spark生态系统中的工具与库 (10)5.3 Flink实时计算框架 (10)5.3.1 Flink概述 (10)5.3.2 Flink核心特性 (10)5.3.3 Flink生态系统中的工具与组件 (10)第6章产业大数据挖掘与分析 (11)6.1 互联网行业大数据挖掘与分析 (11)6.1.1 市场趋势分析 (11)6.1.2 用户画像构建 (11)6.1.3 网络安全分析 (11)6.2 金融行业大数据挖掘与分析 (11)6.2.1 客户信用评估 (11)6.2.2 智能投顾 (11)6.2.3 反洗钱与反欺诈 (11)6.3 医疗行业大数据挖掘与分析 (11)6.3.1 疾病预测与预防 (11)6.3.2 精准医疗 (11)6.3.3 医疗资源优化配置 (11)第7章大数据可视化技术 (12)7.1 数据可视化基础 (12)7.1.1 可视化概述 (12)7.1.2 可视化设计原则 (12)7.1.3 数据可视化类型 (12)7.2 大数据可视化工具与平台 (12)7.2.1 常用可视化工具 (12)7.2.2 可视化平台架构 (12)7.2.3 可视化技术发展趋势 (12)7.3 大数据可视化应用案例 (12)7.3.1 金融行业 (12)7.3.2 医疗行业 (13)7.3.3 电商行业 (13)7.3.4 智能交通 (13)7.3.5 能源行业 (13)第8章大数据安全与隐私保护 (13)8.1 数据安全与隐私保护概述 (13)8.1.1 数据安全与隐私保护的重要性 (13)8.1.2 大数据环境下的安全挑战 (13)8.1.3 法律法规与伦理标准 (13)8.2 数据加密与安全存储技术 (13)8.2.1 数据加密算法 (13)8.2.2 安全存储技术 (13)8.2.3 大数据环境下的加密与存储技术应用 (13)8.3 数据脱敏与隐私保护技术 (13)8.3.1 数据脱敏技术 (14)8.3.2 隐私保护策略与模型 (14)8.3.3 大数据环境下的脱敏与隐私保护技术应用 (14)第9章大数据挖掘在营销领域的应用 (14)9.1 客户细分与客户价值分析 (14)9.1.1 客户细分方法 (14)9.1.2 客户价值分析 (14)9.1.3 客户细分与价值分析在营销策略中的应用 (14)9.2 营销策略优化与推荐系统 (14)9.2.1 数据驱动的营销策略优化 (14)9.2.2 推荐系统在营销中的应用 (14)9.2.3 营销推荐系统实践案例 (15)9.3 营销活动效果评估与监控 (15)9.3.1 营销活动效果评估指标 (15)9.3.2 营销活动效果评估方法 (15)9.3.3 营销活动实时监控与调整 (15)第10章大数据挖掘在教育领域的应用 (15)10.1 教育数据挖掘与学习分析 (15)10.1.1 教育数据挖掘基本概念与方法 (15)10.1.2 学习分析基本概念与方法 (15)10.1.3 教育数据挖掘与学习分析在教育领域的应用案例 (16)10.2 个性化学习推荐系统 (16)10.2.1 个性化学习推荐系统架构 (16)10.2.2 常用推荐算法及其在教育领域的应用 (16)10.2.3 个性化学习推荐系统在实际应用中的挑战与展望 (16)10.3 教育教学质量评估与优化 (16)10.3.1 教育教学质量评估指标体系构建 (16)10.3.2 教育教学质量评估方法 (16)10.3.3 教育教学质量优化策略 (16)10.4 大数据在教育决策支持中的应用展望 (16)10.4.1 教育决策支持系统概述 (17)10.4.2 大数据在教育决策支持中的应用场景 (17)10.4.3 大数据教育决策支持的未来发展趋势 (17)第1章大数据概述1.1 大数据概念与特征1.1.1 概念定义大数据，顾名思义，是指规模巨大、多样性、高速增长的数据集合。

Spark学习之SparkSQL

Spark学习之SparkSQLSpark SQL⼀、Spark SQL基础1、Spark SQL简介Spark SQL是Spark⽤来处理结构化数据的⼀个模块，它提供了⼀个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作⽤。

为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执⾏，⼤⼤简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执⾏效率⽐较慢。

所以Spark SQL的应运⽽⽣，它是将Spark SQL转换成RDD，然后提交到集群执⾏，执⾏效率⾮常快！同时Spark SQL也⽀持从Hive中读取数据。

Spark SQL的特点：1.容易整合（集成）2.统⼀的数据访问⽅式3.兼容Hive4.标准的数据连接2、基本概念：Datasets和DataFrames DataFrame DataFrame是组织成命名列的数据集。

它在概念上等同于关系数据库中的表，但在底层具有更丰富的优化。

DataFrames可以从各种来源构建，例如：结构化数据⽂件 hive中的表外部数据库或现有RDDsDataFrame API⽀持的语⾔有Scala，Java，Python和R。

从上图可以看出，DataFrame多了数据的结构信息，即schema。

RDD是分布式的 Java对象的集合。

DataFrame是分布式的Row对象的集合。

DataFrame除了提供了⽐RDD更丰富的算⼦以外，更重要的特点是提升执⾏效率、减少数据读取以及执⾏计划的优化 Datasets Dataset是数据的分布式集合。

Dataset是在Spark 1.6中添加的⼀个新接⼝，是DataFrame之上更⾼⼀级的抽象。

它提供了RDD的优点（强类型化，使⽤强⼤的lambda函数的能⼒）以及Spark SQL优化后的执⾏引擎的优点。

⼀个Dataset 可以从JVM对象构造，然后使⽤函数转换（map， flatMap，filter等）去操作。

4 Spark SQL结构化数据文件处理

源中创建，如结构化文件、外部数据库、Hive表等数据源。
✎ 4.2 DataFrame概述
DataFrame简介
DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可获取更多数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行针对性的优化，最终达到提升计算效率。
✎ 4.2 DataFrame概述
DataFrame的创建
创建DataFrame的两种基本方式： • 已存在的RDD调用toDF()方法转换得到DataFrame。 • 通过Spark读取数据源直接创建DataFrame。
✎ 4.2 DataFrame概述
DataFrame的创建
若使用SparkSession方式创建DataFrame，可以使用spark.read从不同
方法名称
相关说明
show()
查看DataFrame中的具体内容信息
printSchema() 查看DataFrame的Schema信息
select()
查看DataFrame中选取部分列的数据及进行重命名
filter() groupBy()
sort()
实现条件查询，过滤出想要的结果对记录进行分组对特定字段进行排序操作
☞点击查看本节相关知识点
✎ 章节概要
在很多情况下，开发工程师并不了解 Scala 语言，也不了解 Spark 常用 API，但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题，利用SQL语言的语法简洁、学习门槛低以及在编程语言普及程度和流行程度高等诸多优势，从而开发了Spark SQL模块，通过Spark SQL，开发人员能够通过使用SQL语句，实现对结构化数据的处理。

spark sql语法

spark sql语法SparkSQL是ApacheSpark的一个模块，它允许用户以类SQL的方式查询和处理数据。

它允许用户使用类SQL查询语言并将结果作为Spark Dataset（RDD的类型）返回。

Spark SQL的一个主要目的是提供一种方式来查询，处理和操纵结构化数据。

它支持与常见的结构化数据源（如Hive、Parquet 和JSON）的交互，并且可以使用简单的多表查询语句作为输入。

Spark SQL提供了一组基本的查询语句，包括SELECT，INSERT，UPDATE和DELETE外，还提供了一些额外的查询语法，以支持复杂的查询需求，例如UNION，INTERSECT，MINUS和EXCEPT，以及窗口函数，CASE表达式，子查询和等等。

此外，它还允许用户使用不同的API进行查询，例如Spark SQL的DataFrame API。

DataFrame是一个带有列和行的分布式集合，可以被Spark SQL用于以SQL方式处理数据。

DataFrame可以从Hive表、Parquet文件中创建，也可以从RDD中加载数据。

它的API支持字段名的访问，并允许用户对分布式数据集进行聚合操作，例如在行级别或列级别运行聚集函数。

另一方面，Spark SQL还允许用户使用HiveQL来查询数据，HiveQL是一种类SQL的查询语言，用于从存储在Hive中的结构化数据中提取数据。

Spark SQL支持使用HiveQL，以便用户可以使用熟悉的HiveQL查询来执行查询操作，而无需学习新的查询语言。

此外，Spark SQL还支持丰富的数据类型，包括整数，浮点数，字符串，日期类型，布尔类型，二进制类型等等。

它还支持列编程，允许用户编写基于列的查询。

另外，Spark SQL还支持自定义函数（UDF），这样用户就可以使用自己开发的函数来处理和分析数据。

总而言之，Spark SQL是一种用于在结构化数据中进行查询，处理和操作的灵活的语言。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

方法名称
相关说明
show()
查看DataFrame中的具体内容信息
printSchema() 查看DataFrame的Schema信息
select()
查看DataFrame中选取部分列的数据及进行重命名filter() 源自roupBy()sort()
实现条件查询，过滤出想要的结果对记录进行分组对特定字段进行排序操作
数据进行绑定，生成Resolved LogicalPlan。 • Optimizer：对Resolved Lo;gicalPlan进行优化，生成
OptimizedLogicalPlan。 • Planner：将LogicalPlan转换成PhysicalPlan。 • CostModel：主要根据过去的性能统计数据，选择最佳的物理执行计划。
2. SQL风格操作DataFrame
2. 查询年龄最大的前两名人的信息
scala > spark.sql("select * from t_person order by age desc limit 2").show() +---+------+---+ | id| name|age| +---+------+---+ | 6| jerry| 40| | 5|tianqi| 35| +---+------+---+
spark.read.parquet("people.parquet") 读取parquet格式文件，创建DataFrame
✎ 4.2 DataFrame概述
DataFrame的创建
1．数据准备在HDFS文件系统中的/spark目录中有一个person.txt文件，内容如下：
1 zhangsan 20 2 lisi 29 3 wangwu 25 4 zhaoliu 30 5 tianqi 35 6 jerry 40
✎ 4.2 DataFrame概述
DataFrame的创建
创建DataFrame的两种基本方式： • 已存在的RDD调用toDF()方法转换得到DataFrame。 • 通过Spark读取数据源直接创建DataFrame。
✎ 4.2 DataFrame概述
DataFrame的创建
若使用SparkSession方式创建DataFrame，可以使用spark.read从不同类型的文件中加载数据创建DataFrame。spark.read的具体操作，如下所示。
源中创建，如结构化文件、外部数据库、Hive表等数据源。
✎ 4.2 DataFrame概述
DataFrame简介
DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可获取更多数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行针对性的优化，最终达到提升计算效率。
✎ 4.2 DataFrame概述
DataFrame的创建
2．通过文件直接创建DataFrame 我们通过Spark读取数据源的方式进行创建DataFrame
scala > val personDF = spark.read.text("/spark/person.txt") personDF: org.apache.spark.sql.DataFrame = [value: String] scala > personDF.printSchema() root |-- value: String (Nullable = true)
第4章 Spark SQL结构化数据文件处理
· Spark SQL概述 · DataFrame概述 · Dataset概述
· RDD转换DataFrame · Spark SQL操作数据源
✎ ✎ 学习目标
1 理解Spark SQL基本
概念
掌握DataFrame
2
Dataset的创建方式
掌握RDD转换 DataFrame的方式及
4 Spark SQL操作数据源
理解Spark SQL的架构
3
✎ 目录
Spark SQL概述
☞点击查看本节相关知识点
DataFrame概述
☞点击查看本节相关知识点
Dataset概述
☞点击查看本节相关知识点
✎ 目录
RDD转换DataFrame
☞点击查看本节相关知识点
Spark SQL操作数据源
✎ 4.1 Spark SQL概述
Spark SQL架构
Spark SQL工作流程：
下在解析SQL语句之前，会创建SparkSession，涉及到表名、字段名
1 称和字段类型的元数据都将保存在SessionCatalog中；
当调用SparkSession的sql()方法时就会使用SparkSqlParser进行解
✎ 4.2 DataFrame概述
DataFrame的常用操作
2. SQL风格操作DataFrame
1. 将DataFrame注册成一个临时表
scala > personDF.registerTempTable("t_person")
✎ 4.2 DataFrame概述
DataFrame的常用操作
✎ 4.2 DataFrame概述
DataFrame的常用操作
2. SQL风格操作DataFrame
3. 查询年龄大于25的人的信息
scala > spark.sql("select * from t_person where age > 25").show() +---+-------+---+ | id | name |age| +---+-------+---+ | 2 | lisi | 29 | | 4 | zhaoliu| 30 | | 5 | tianqi | 35 | | 6 | jerry | 40 | +---+-------+---+
本章将针对Spark SQL的基本原理、使用方式进行详细讲解。
✎ 4.1 Spark SQL概述
Spark SQL的简介
Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API 三种方式实现对结构化数据的处理。
Spark SQL工作流程：
使用Optimizer优化器优化逻辑计划，该优化器同样定义了一套规则
4 （Rules），利用这些规则对逻辑计划和语句进行迭代处理；
使用SparkPlanner对优化后的逻辑计划进行转换，生成可以执行的物
5 理计划SparkPlan；
使用QueryExecution执行物理计划，此时则调用SparkPlan的
☞点击查看本节相关知识点
✎ 章节概要
在很多情况下，开发工程师并不了解 Scala 语言，也不了解 Spark 常用 API，但又非常想要使用Spark框架提供的强大的数据分析能力。Spark的开发工程师们考虑到了这个问题，利用SQL语言的语法简洁、学习门槛低以及在编程语言普及程度和流行程度高等诸多优势，从而开发了Spark SQL模块，通过Spark SQL，开发人员能够通过使用SQL语句，实现对结构化数据的处理。
✎ 4.1 Spark SQL概述
Spark SQL的简介
Spark SQL主要提供了以下三个功能： ➢ Spark SQL可从各种结构化数据源中读取数据，进行数据分析。 ➢ Spark SQL包含行业标准的JDBC和ODBC连接方式，因此它不局限于在
Spark程序内使用SQL语句进行查询。 ➢ Spark SQL可以无缝地将SQL查询与Spark程序进行结合，它能够将结构化
数据作为Spark中的分布式数据集（RDD）进行查询。
✎ 4.1 Spark SQL概述
Spark SQL架构
Spark SQL架构与Hive架构相比，把底层的MapReduce执行引擎更改为 Spark，还修改了Catalyst优化器，Spark SQL快速的计算效率得益于Catalyst优化器。从HiveQL被解析成语法抽象树起，执行计划生成和优化的工作全部交给 Spark SQL的Catalyst优化器进行负责和管理。
Spark SQL架构图
✎ 4.1 Spark SQL概述
Spark SQL架构
Spark要想很好地支持SQL，需要完成解析（Parser）、优化（Optimizer）、执行（Execution）三大过程。
✎ 4.1 Spark SQL概述
Spark SQL架构
Catalyst优化器在执行计划生成和优化的工作时，离不开内部的五大组件。 • SqlParse：完成SQL语法解析功能，目前只提供了一个简单的SQL解析器。 • Analyze：主要完成绑定工作，将不同来源的Unresolved LogicalPlan和元
方法名称
相关说明
spark.read.text("people.txt")
读取txt格式文件，创建DataFrame
spark.read.csv ("people.csv")
读取csv格式文件，创建DataFrame
spark.read.json("people.json")