第14章 数据转换
- 格式:doc
- 大小:48.50 KB
- 文档页数:3
第14章系统开发与运行的基础知识软件开发中的瀑布模型典型地刻画了软件生存周期的阶段划分,与其最相适应的软件开发方法是______。
A.构件化方法 B.结构化方法C.面向对象方法 D.快速原型法结构化开发方法中,数据流图是______阶段产生的成果。
A.需求分析 B.总体设计 C.详细设计 D.程序编码______是一种面向数据流的开发方法,其基本思想是软件功能的分解和抽象。
A.结构化开发方法 B.Jackson系统开发方法C.Booch方法 D.UML(统一建模语言)软件开发模型用于指导软件的开发。
演化模型是在快速开发一个 (4) 的基础上,逐步演化成最终的软件。
螺旋模型综合了 (5) 的优点,并增加了 (6) 。
喷泉模型描述的是面向 (7) 的开发过程,反映了该开发过程的 (8) 特征。
(4)A.模块 B.运行平台 C.原型 D.主程序(5)A.瀑布模型和演化模型 B.瀑布模型和喷泉模型C.演化模型和喷泉模型 D.原型模型和喷泉模型(6)A.质量评价 B.进度控制C.版本控制 D.风险分析(7)A.数据流 B.数据结构 C.对象 D.构件(8)A.迭代和有间隙 B.迭代和无间隙C.无迭代和有间隙 D.无迭代和无间隙关于原型化开发方法的叙述中,不正确的是______。
A.原型化方法适应于需求不明确的软件开发B.在开发过程中,可以废弃不用早期构造的软件原型C.原型化方法可以直接开发出最终产品D.原型化方法利于确认各项系统服务的可用性下面关于网络工程需求分析的论述中,正确的是______。
A.任何网络都不可能是一个能够满足各项功能需求的万能网B.必须采用最先进的网络设备,获得最高的网络性能C.网络需求分析独立于应用系统的需求分析D.网络需求分析时可以先不考虑系统的扩展性面向对象的测试可分四个层次,按照由低到高的顺序,这四个层次是______。
A.类层——模板层——系统层——算法层B.算法层——类层——模板层——系统层C.算法层——模板层——类层——系统层D.类层——系统层——模板层——算法层在某个信息系统中,存在如下的业务陈述:①一个客户提交0个或多个订单;②一个订单由一个且仅由一个客户提交。
数据治理工程师 CDGA 认证考试习题集第十四章大数据和数据科学(重点章节)1. 数据科学家开展工作依赖于哪些要素()A. 丰富的数据源B. 信息组织和分析C. 展示发现和数据洞察D. 以上全部2. 那些从数据中探究、研发预测模型、机器学习模型、规范性模型和分析方法并将研发结果进行部署供相关方分析的人,被称为()A. CDO 首席数据官B. 数据分析师C. 数据科学家D. 数据架构师3. 早期,人们通过 3V 来定义大数据含义的特征,请从下列选项中选择不包含在 3V 中的一个选项。
()A. 数据量大B. 数据粘度大1C. 数据更新频繁D. 数据类型多样4. 尝试通过概率估计来预测未来结果的应用程序称为?()A.维度分析B.预测分析C.即时报告D.描述性分析5. 以下哪种技术已经成为面向数据科学的大数据集分析标准平台。
()A、MPP 技术。
B、Hadoop 技术。
C、Hbase 技术。
D、Redis 技术。
6. 以下哪一项是提升一个组织大数据和数据科学能力的最大业务驱动力。
()A、提升业务效率。
B、期望抓住从多种流程生成的数据集中发现的商机。
C、保障数据合规与安全。
D、加强业务管控。
7、以下选项中不属于数据挖掘经常使用的技术是()A.剖析(Profiling)B.向上卷积(Roll-up)C.数据缩减(Data reduction)D.自组织映射(Self-organizing maps)8、ETL 的作用主要体现在()A.构建数据集市B.管理数据仓库C.把数据转换为信息、知识D.数据库数据存储9、关于数据仓库和数据湖的主要差别,以下哪项描述是不正确的()A.存储数据类型和数据结构化流程不同B.主要提供的服务不同C.面向主要用户不同D.应用侧重点不同10、定义大数据战略和业务需求,应该考虑提供数据的及时性和范围,许多元素可以实施提供,也可以定时提供快照,甚至可以整合和汇总,其中流式计算越来越成为热点,以下不属于流式计算框架的是:()A.StromB.FlinkC.HadoopD.Spark11、MapReduce 模型有三个主要步骤()A.剖析、关联、聚类B.提取、转换、加载C.映射、修正、转换D.映射、洗牌、归并数据治理工程师 CDGA 认证考试习题答案第十四章大数据和数据科学(重点章节)1. 正确答案:D【答案解析】详见书本 P388-389 页。
《利⽤Python进⾏数据分析第⼆版》-第14章数据分析⽰例(实战)前⾯的章节已经讲解了数据分析的基本操作,接下来就通过具体的简单分析例⼦来说明前⾯基本知识的应⽤本章原作者⽰例数据采⽤的都是美国相关数据(因为作者是外国⼈),我会从国内的⾓度,选取中国可以看到的或者找到的公开数据进⾏分析数据分析的主要步骤:1、从⽹上获取公开数据(此处是PDF)2、读取PDF中表格数据3、多页数据连接4、数据清洗和整理5、数据聚合和分组6、数据绘图与可视化7、保存绘图接下来进⾏详细的说明1、从⽹上获取公开数据(此处是PDF)此处选择的数据是“上海交通⼤学研究⽣院2018年考试及录取”统计数据,数据地址:https:///xxgs1/lssj/wnbklqtj.htm数据下载后命名为“2018.pdf”,⽅便后续数据读取,pdf部分内容截图如下:2、读取PDF格式表格数据之前章节,我们有学习读取CSV、excel等格式的数据,但是没有学习pdf,遇到问题,不放弃,寻找⽅法从百度查询,可以了解到,通过pdfplumber这个包可以处理pdf数据,我们来安装这个包:点击如下程序:会出现命令符式的⿊框,通过pip命令来安装pdfplumber包,如下:等待,直到安装完成,如果出现红字,提⽰没有安装成功,有“time out”英⽂字眼的话,⼤概率是国外软件包地址下载不稳定,那就通过国内镜像源下载国内镜像源有很多:此处我们采⽤第⼀个,清华的镜像源为例:⼀般这样就好安装成功,安装后,进⼊jupyter软件,可以导⼊测试⼀下,是否安装成功如果没有提⽰,那就代表安装成功,可以读取pdf数据了我们⾸先读取pdf第⼀页的表格数据,具体代码及读取结果如下:我们读取第⼆页pdf数据表格内容,具体代码及结果如下:其他页码的数据同样的读取逻辑,在此不再赘述,接下来采⽤已读取的这两页内容进⾏分析3、多页数据连接⾄此,我们已经有两页的数据,现在将两页的数据合并在⼀起,进⾏拼接,具体代码及运⾏结果如下:4、数据清洗和整理数据的清洗和整理,要看我们数据分析的⽬的此处我们的⽬的:分析“电⼦信息与电⽓⼯程学院”各专业推免、报名、录取的情况电⼦信息与电器⼯程学院的系所码是“030”,我们查看发现,该系所码没有,仔细核对发现,是读取数据的时候没有识别出来,如下:我们修正系所码和系所名称,具体代码及结果如下:我们为什么只修正⼀处,因为后⾯我们想对没有数据的地⽅,从上到下⾃动填充现在对整个数据集中空⽩的地⽅,就近从上到下⾃动填充,代码及运⾏结果如下:⾄此,从格式上看,我们发现⽐最初导⼊的数据更规整,更符合数据处理的要求了因为数据处理涉及到不同的数据类型,所以,我们需要查看每列数据的类型,如下:我们发现每列都是对象的类型,但是在处理数据的过程中,我们⽤到的都是整数或者浮点数,所以需要对不同的列进⾏数据转换数据转换主要⽤到astype⽅法,具体代码如下:再来看下各列数据类型:选择我们需要的数据,与“电⼦信息与电⽓⼯程学院”相关,通过系所码进⾏筛选,如下:和pdf数据⽐对,符合我们需要的数据5、数据聚合和分组接下来,我们想通过不同的专业,来看各⾃的数据,具体代码及运⾏结果如下:此处提醒⼀点,就是如果存的专业名称⼀样数据不同的,会聚合在⼀起,保留唯⼀的专业名称6、数据绘图与可视化针对分组整理后的数据,我们进⾏绘图,这个数据适合柱状图,具体代码及运⾏结果如下:针对上⾯的结果,我们发现⼏个问题:乱码、图表太⼩针对这两个问题,我们修改代码进⾏调整,调整后代码及运⾏结果如下:从图标看起来,基本符合我们的要求7、保存绘图针对上⾯绘制的图标进⾏保存,具体代码如下:运⾏该代码后,会在同样的⽂件下看到多出来⼀个这样的⽂件:找到⽂件夹的位置,打开该图⽚查看,如下:看起来还是相对清晰的,得到了图⽚,就可以⽤在其他地⽅了,例如PPT资料等以上,就是针对⼀个数据从获取-读取-整理-分析-绘图-保存的整个主要流程,其他还有很多细节,但是都离不开这个主要的流程进⾏掌握了主要流程,其他的细节就是锦上添花,可以再不断地精进了以上就是本章重点内容⽰例的说明,祝学习愉快以下链接,可以供你了解这个系列学习笔记的所有章节最新进度。
STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院2.3.4.STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院§14.1加权指数14.1.1 加权综合指数14.1.2 加权平均指数统计学STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(index number )1.2.3.多个项目综合变动4.狭义的指数STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(weighted aggregative index number)1.加权2.3.STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(Laspeyres index)固定在基期∑STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(Paasche index)报告期∑统计学作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院16002001501500150120统计学STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(例题分析)STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(例题分析)结论∶平均上涨STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(例题分析)结论∶平均上涨统计学STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(比较)可以消除销售量变动对价格指数的影响不能反映出消费结构的变化不能消除权数变动对价格指数的影响但帕氏指数可以同时反映出价格和消费结构的变化,具有比较明确的经济意义,因此,在实际应用中,常采用帕氏公式统计学STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院统计学STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(weighted average index number)销售额为权数p 0q 0p 1q 11统计学作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院1.201.051.14STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(例题分析)结论∶种产品的价格平均STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(例题分析)结论∶种产品的价格平均统计学STATISTICS(第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院§14.2几种常用的价格指数14.2.1 零售价格指数14.2.2 消费价格指数14.2.3 股票价格指数STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(retail price index)1.2.3.4.分层抽样在全国选择不同经济区域和分布合理的地区、以及有代表性的商品作为样本,对市场价格进行经常性目前,国家级抽选出的调查市、县226个STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(编制过程)经济区域和地区分布合理大、中、小城市和县调查地区包括集调查点STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(编制过程)消费量大、价格变动有代表性市场供应保持稳所选的代表STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(编制过程)派员直接社会商品零售额STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(consumer price index)1.2.3.编制过程与零售价格指数类似,不同的是它包括消费品价格和服务项目价格权数的确定STATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(作用)统计学作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院序列和居进统计学作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院02000040000600008000010000012000014000016000019119219319419519619719819920020120220304年份国内生产总值国内生产总值(GDP)缩减后的GDPSTATISTICS (第三版第三版)作者:张占贞青岛科技大学经济与管理学院作者:张占贞青岛科技大学经济与管理学院(stock price index)1.2.(point )3.发行量为权数进行加权综合。
第14章数据库设计1. 简述数据库设计的步骤。
解:数据库设计的步骤可以分为以下六个阶段:系统需求分析、概念结构设计、逻辑结构设计、物理结构设计、数据库实施、数据库运行和维护。
(1)需求分析阶段进行数据库设计首先必须准确了解与分析用户对系统的信息需求和处理需求,并建立系统说明文档。
需求分析是整个设计过程的基础,是最困难、最耗费时间的一步,但也是最重要的一步。
需求分析做得是否充分与准确,决定了数据库设计的速度与质量。
需求分析做得不好,甚至会导致整个数据库设计返工重做。
需求说明书是需求分析阶段的成果,也是后续阶段设计的依据。
(2)概念结构设计阶段概念结构设计是整个数据库设计的关键,它通过对用户需求进行综合、归纳与抽象,形成一个独立于具体DBMS的概念模型。
一般使用E-R图来表示数据与数据之间的联系。
(3)逻辑结构设计阶段逻辑结构设计是将概念模型转换为某个DBMS所支持的数据模型,并对其进行优化。
(4)物理结构设计阶段数据库物理结构设计是为逻辑数据模型选取一个最适合应用环境的物理结构,主要包括数据的存储结构和存取方法。
(5)数据库实施阶段在数据库实施阶段,设计人员运用DBMS提供的数据语言、工具及宿主语言,根据逻辑设计和物理设计的结果建立数据库,编制与调试应用程序。
组织数据入库,并进行试运行。
(6)数据库运行和维护阶段数据库应用系统经过试运行后即可投入正式运行。
在数据库系统运行过程中必须不断地对其进行评价、调整与修改。
投入运行后由DBA来承担数据库系统的日常维护。
2. 需求分析阶段的设计目标是什么?调查的内容是什么?解:需求分析阶段的设计目标是对系统的整个应用情况作全面的、详细的调查,确定企业组织的目标,收集支持系统总的设计的基础数据和对这些数据的要求,确定用户的需求,并把这些要求写成用户和数据库设计者都能接受的文档。
调查的内容是:(1) 调查组织机构情况。
(2) 调查各部门的业务活动情况。
(3) 在熟悉业务活动的基础上,协助用户明确对新系统的各种要求,包括信息要求、处理要求、完全性与完整性要求。
数 据 转 换
14.1 练习题14及参考答案
1.使用SQL Server 导入和导出向导有什么功能?
答:使用SQL Server 导入和导出向导可以在支持的数据源和目标之间复制和转换数据。
2. SQL Server 导入和导出向导可以访问哪些数据源?
答:SQL Server 导入和导出向导可以访问各种数据源。
可以向下列源复制数据或从其中复制数据:
∙
Microsoft SQL Server ∙
平面文件 ∙
Microsoft Office Access ∙
Microsoft Office Excel ∙ 其他 OLE DB 访问接口
3. 什么是分离数据库?什么是附加数据库?
答:分离数据库是指将数据库从SQL Server 实例中删除,但使数据库在其数据文件和事务日志文件中保持不变。
之后,就可以使用这些文件将数据库附加到任何SQL Server 实例,包括分离该数据库的服务器。
附加数据库就是将数据库重置为它分离或复制时的状态。
4. 生成SQL Server 脚本向导有哪些功能?
答:生成脚本向导引导用户完成创建脚本的各个步骤,并允许选择要创建脚本的各种对象。
该向导提供各种用于创建脚本的选项,包括是否包含权限、排序规则、约束等。
5. SQL 脚本包含哪些内容?
答:SQL 脚本包含用于创建数据库及其对象的语句的描述。
可以从现有数据库中的对象生成脚本,然后通过在该数据库中运行脚本以将这些对象添加到其他数据库。
实际上,
第 章
14
这样做重新创建了完整的数据库结构以及所有的单个数据库对象。
14.2 上机实验题13及操作过程
使用SQL Server管理控制器生成数据库factory的脚本文件H:\DBF\factory.sql,并显示该文件的内容。
操作过程
(1)启动SQL Server管理控制器。
(2)在“对象资源管理器”中展开“LCB-PC”服务器。
(3)展开“数据库”节点。
(4)选中“factory”,单击鼠标右键,在出现的快捷菜单中选择“编写数据库脚本为|CREATE到|文件”命令。
(5)出现“选择文件”对话框,在“保存在”列表中设置文件的保存位置,在“文件名”文本框中输入相应的脚本名称,这里将脚本保存到“H:\DBF\factory.sql”文件中。
单击“保存”按钮,开始编写SQL脚本。
(6)在主菜单中选择“文件|打开|文件”命令,在出现的打开文件对话框中选择“H:\DBF\factory.sql”文件,SQL编辑器中显示其内容如下:
USE [master]
GO
/**** 对象: Database [Factory] 脚本日期: 03/11/2008 18:05:45 ****/
CREATE DATABASE [Factory] ON PRIMARY
( NAME = N'Factory', FILENAME = N'H:\SQL Server\Factory.mdf' , SIZE = 3072KB , MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB )
LOG ON
( NAME = N'Factory_log', FILENAME = N'H:\SQL Server\Factory_log.ldf' , SIZE = 1024KB , MAXSIZE = 2048GB , FILEGROWTH = 10%)
COLLATE Chinese_PRC_CI_AS
GO
EXEC dbo.sp_dbcmptlevel @dbname=N'Factory', @new_cmptlevel=90
GO
IF (1 = FULLTEXTSERVICEPROPERTY('IsFullTextInstalled'))
begin
EXEC [Factory].[dbo].[sp_fulltext_database] @action = 'disable'
end
GO
ALTER DATABASE [Factory] SET ANSI_NULL_DEFAULT OFF
GO
ALTER DATABASE [Factory] SET ANSI_NULLS OFF
GO
ALTER DATABASE [Factory] SET ANSI_PADDING OFF
GO
ALTER DATABASE [Factory] SET ANSI_WARNINGS OFF
GO
ALTER DATABASE [Factory] SET ARITHABORT OFF
GO
ALTER DATABASE [Factory] SET AUTO_CLOSE OFF
GO
ALTER DATABASE [Factory] SET AUTO_CREATE_STATISTICS ON
GO
ALTER DATABASE [Factory] SET AUTO_SHRINK OFF
GO
ALTER DATABASE [Factory] SET AUTO_UPDATE_STATISTICS ON
GO
ALTER DATABASE [Factory] SET CURSOR_CLOSE_ON_COMMIT OFF
GO
ALTER DATABASE [Factory] SET CURSOR_DEFAULT GLOBAL
GO
ALTER DATABASE [Factory] SET CONCAT_NULL_YIELDS_NULL OFF
GO
ALTER DATABASE [Factory] SET NUMERIC_ROUNDABORT OFF
GO
ALTER DATABASE [Factory] SET QUOTED_IDENTIFIER OFF
GO
ALTER DATABASE [Factory] SET RECURSIVE_TRIGGERS OFF
GO
ALTER DATABASE [Factory] SET ENABLE_BROKER
GO
ALTER DATABASE [Factory] SET AUTO_UPDATE_STATISTICS_ASYNC OFF GO
ALTER DATABASE [Factory] SET DATE_CORRELATION_OPTIMIZATION OFF GO
ALTER DATABASE [Factory] SET TRUSTWORTHY OFF
GO
ALTER DATABASE [Factory] SET ALLOW_SNAPSHOT_ISOLATION OFF
GO
ALTER DATABASE [Factory] SET PARAMETERIZATION SIMPLE
GO
ALTER DATABASE [Factory] SET READ_WRITE
GO
ALTER DATABASE [Factory] SET RECOVERY FULL
GO
ALTER DATABASE [Factory] SET MULTI_USER
GO
ALTER DATABASE [Factory] SET PAGE_VERIFY CHECKSUM
GO
ALTER DATABASE [Factory] SET DB_CHAINING OFF。