厦门大学数据库实验室httpdblabxmueducn

格式：ppt
大小：1.66 MB
文档页数：38

下载文档原格式

大数据技术原理与应用-厦门大学数据库试验室

《大数据处理技术Spark》厦门大学计算机科学系林子雨 ziyulin@
3.1.1 Spark简介
Spark具有如下几个主要特点： •运行速度快：使用DAG执行引擎以支持循环数据流与内存计算 •容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过 Spark Shell进行交互式编程 •通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、 HBase、Hive等多种数据源
《大数据处理技术Spark》厦门大学计算机科学系林子雨 ziyulin@
3.1 Spark概述
3.1.1 Spark简介 3.1.2 Scala简介 3.1.3 Spark与Hadoop的比较
《大数据处理技术Spark》
厦门大学计算机科学系
林子雨
ziyulin@
存储在内存中读取内存存储在内存中
读询 1
存储在内存中
结果 1
查询 2
结果 2
输入
...
图16-2 Hadoop与Spark的执行流程对比
林子雨 ziyulin@
(b) Spark执行流程
《大数据处理技术Spark》
厦门大学计算机科学系
3.1.3 Spark与Hadoop的对比
《大数据处理技术厦门大学计算机科学系 Spark》
厦门大学计算机科学系
林子雨
2017ziyulin@ 年版
提纲
• • • • 3.1 Spark概述 3.2 Spark生态系统 3.3 Spark运行架构 3.4 Spark的部署和应用方式

厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践（版本号：2016年1月18日版本）主讲教师：林子雨厦门大学数据库实验室二零一六年一月（版权所有，请勿用于商业用途）目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6作业准备 (1)6.1、Hama计算框架的安装配置 (1)6.2、用Hama计算模型实现寻找最大独立集问题算法 (3)7作业内容 (9)8实验报告 (9)附录1:任课教师介绍 (9)附录2：课程教材介绍 (10)《大数据技术原理与应用》图计算框架Hama基础操作实践上机练习说明主讲教师：林子雨E-mail: ziyulin@ 个人主页：/linziyu1作业题目图计算框架Hama基础操作实践。

2作业目的旨在让学生了解Pregel图计算模型，并学会用Pregel的开源实现Hama实现一些基本操作。

3作业性质课后作业，必做，作为课堂平时成绩。

4作业考核方法提交上机实验报告，任课老师根据上机实验报告评定成绩。

5作业提交日期与方式图计算章节内容结束后的下一周周六晚上9点之前提交。

6作业准备请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》（官网：/post/bigdata/），了解图计算的概念与意义。

6.1、Hama计算框架的安装配置A pache Hama是Google Pregel的开源实现，与Hadoop适合于分布式大数据处理不同，Hama主要用于分布式的矩阵、graph、网络算法的计算。

简单说，Hama是在HDFS 上实现的BSP(Bulk Synchronous Parallel)计算框架，弥补Hadoop在计算能力上的不足。

（1）. 安装好合适版本的jdk和hadoop，并且进行测试，保证他们能用。

（2）. 下载hama安装文件，从/downloads.html处下载合适的版本，我当时下的是0.6.4版本的。

“北大法宝”数据库

“北大法宝”数据库使用通知为了方便厦门大学校园网用户检索各类法律信息，厦门大学图书馆与北大英华公司向厦门大学校园网用户提供“北大法宝”数据库的开放使用，厦门大学校园网用户均享有北大法律网VIP会员访问权限。

凡是在本大学提供IP段范围内的终端用户，无需输入用户名和密码，即可直接访问“北大法宝”如下数据库。

由于设定了并发用户数量，当访问“北大法宝”如下数据库的用户数量达到最大值时，其他用户需要等待在访问用户退出时方能进行访问。

如您在使用中遇到任何问题可发邮件bdfb@与我们联系。

●/“北大法宝”----中文在线“北大法宝”----中国法律检索系统，自1985年诞生于北大法律系，是国内最早的法律信息检索系统，独创多项国内唯一、国际领先的信息处理技术，曾被列为国家科委重点科技项目，并荣获过省部级科技进步奖。

产品由北京大学法制信息中心专家精心研发，与北大英华联合，经过9次版本升级到目前的3.1智能版，全面收录1949年至今44万多件（数据不断更新）法律文件，是目前最专业、最先进的法律法规数据库，客户遍布全国各地，并有相当多的国外客户，市场占有率遥遥领先。

●/“北大法宝”----英文在线“北大法宝”----中国法律英文译本库，由北京大学法律翻译研究中心与北大英华联合推出，建库于2000年，译文包括北京大学法律翻译研究中心翻译的文本、国家立法机关提供的官方译本及经有关机构授权使用的译本，经过多层审校，最大程度地保证了英文译本的质量。

该英文译本数据库库也是中国法律内容最全、更新速度最快的英文译本库。

●/Case/“北大法宝”----司法案例“北大法宝”----中国司法案例数据库，由民事案例、刑事案例及行政案例3个数据库组成。

全面精选收录我国大陆法院的各类案例，根据用户需求提供全方位检索、导航功能，并独家推出个案系统呈现、案例帮助系统及刑事比对功能。

同时在“北大法宝”法条联想功能的基础上，进一步实现法规与案例的全方位的联想功能，使用户在最短时间内了解与本案相关的理论、实务方面的知识。

Google Spanner (中文版)

Google Spanner （中文版）翻译者：厦门大学计算机系教师林子雨翻译时间：2012年9月E-mail: ziyulin@ 个人主页：/linziyu【摘要】：Spanner是谷歌公司研发的、可扩展的、多版本、全球分布式、同步复制数据库。

它是第一个把数据分布在全球范围内的系统，并且支持外部一致性的分布式事务。

本文描述了Spanner的架构、特性、不同设计决策的背后机理和一个新的时间API，这个API可以暴露时钟的不确定性。

这个API及其实现，对于支持外部一致性和许多强大特性而言，是非常重要的，这些强大特性包括：非阻塞的读、不采用锁机制的只读事务、原子模式变更。

【关键词】Google Spanner, Bigtable, distributed database【全文目录结构】1. 介绍2. 实现2.1 Spanserver软件栈2.2 目录和放置2.3 数据模型3. TrueTime4. 并发控制4.1 时间戳管理4.2 细节5. 实验分析5.1 微测试基准5.2 可用性5.3 TrueTime5.4 F16. 相关工作7. 未来的工作8. 总结致谢参考文献1 介绍Spanner是一个可扩展的、全球分布式的数据库，是在谷歌公司设计、开发和部署的。

在最高抽象层面，Spanner就是一个数据库，把数据分片存储在许多Paxos[21]状态机上，这些机器位于遍布全球的数据中心内。

复制技术可以用来服务于全球可用性和地理局部性。

客户端会自动在副本之间进行失败恢复。

随着数据的变化和服务器的变化，Spanner会自动把数据进行重新分片，从而有效应对负载变化和处理失败。

Spanner被设计成可以扩展到几百万个机器节点，跨越成百上千个数据中心，具备几万亿数据库行的规模。

应用可以借助于Spanner来实现高可用性，通过在一个洲的内部和跨越不同的洲之间复制数据，保证即使面对大范围的自然灾害时数据依然可用。

我们最初的客户是F1[35]，一个谷歌广告后台的重新编程实现。

《Spark编程基础Python版》

Spark SQL填补了这个鸿沟： •首先，可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系型操作 •其次，可以支持大数据中的大量数据源和数据分析算法 Spark SQL可以融合：传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
《Spark编程基础(Python版)
《Spark编程基础(Python版)
5.3 DataFrame的创建
•从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代 Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能搜索厦门大学数据库实验室网站访问平台
《Spark编程基础(Python版)
5.1 Spark SQL简介 5.1.1 从Shark说起 5.1.2 Spark SQL设计 5.1.3 为什么推出Spark SQL
《Spark编程基础(Python版)
5.1.1 从Shark说起
输入
Hive: SQL-on-Hadoop
Metastore
Client
CLI Driver
SQL Parser
catalyst
JDBC Cache Mgr. Physical Plan Execution
Spark
HDFS
图 Spark SQL架构
《Spark编程基础(Python版)
5.1.2 Spark SQL设计
•Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、 HDFS、Cassandra等外部数据源，还可以是JSON格式的数据 •Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范

Chapter8-厦门大学-林子雨-大数据技术原理与应用-第八章-流计算

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.3 流计算概念
• 流计算：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
数据采集
实时分析处理
结果反馈
《大数据技术原理与应用》
流计算示意图
厦门大学计算机科学系
林子雨
ziyulin@
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
8.1.1 静态数据和流数据
• 近年来，在Web应用、网络监控、传感监测等领域，兴起了一种新的数据密集型应用——流数据，即数据以大量、快速、时变的流形式持续到达
• 流数据具有如下特征： – 数据快速持续到达，潜在大小也许是无穷无尽的 – 数据来源众多，格式复杂 – 数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储 – 注重数据的整体价值，不过分关注个别数据 – 数据顺序颠倒，或者不完整，系统无法控制将要处理据，包括用户的搜索内容、用户的浏览记录等数据。采用流计算进行实时数据分析，可以了解每个时刻的流量变化情况，甚至可以分析用户的实时浏览轨迹，从而进行实时个性化内容推荐
• 但是，并不是每个应用场景都需要用到流计算的。流计算适合于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景
传统的数据处理流程示意图
• 传统的数据处理流程隐含了两个前提：
– 存储的数据是旧的。存储的静态数据是过去某一时刻的快照，这些数据在查询时可能已不具备时效性了
– 需要用户主动发出查询来获取结果
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@

厦门大学-林子雨-数据库系统原理2016版-第8章-数据库编程ppt

2. 主变量
主语言向SQL语句提供参数将SQL语句查询数据库的结果交主语言进一步处理

3. 游标
解决集合性操作语言与过程性操作语言的不匹配
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
一、SQL通信区
SQLCA： SQL Communication Area
厦门大学计算机系
林子雨
ziyulin@
2016版
C语言编写嵌入式SQL实例(5)
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
六、编译运行C程序嵌入SQL的C应用程序具体到VC++6.0、 SQL Server2000下调试可分为五步： • (1)环境初始化 • (2)预编译 • (3)编译 • (4)链接 • (5)运行
负责控制程序流程

它们之间应该如何通信？
厦门大学计算机系林子雨 ziyulin@ 2016版
《数据库系统原理》
嵌入式SQL语句与主语言之间的通信（续）
• 数据库工作单元与源程序工作单元之间的通信：

1. SQL通信区
向主语言传递SQL语句的执行状态信息使主语言能够据此控制程序流程
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
游标（续）
《数据库系统原理》
厦门大学计算机系
林子雨
ziyulin@
2016版
四、建立和关闭数据库连接
建立数据库连接
EXEC SQL CONNECT TO target [AS connection-name] [USER user-name];

Chapter0-厦门大学-林子雨-大数据技术原理与应用-课程介绍资料

《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@
主讲教师和助教
主讲教师：林子雨
单位：厦门大学计算机科学系 E-mail: ziyulin@ 个人网页：/linziyu 数据库实验室网站：
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
课程特色大数据 Fra bibliotek 门搭建起通向“大数据知识空间”的桥梁和纽带构建知识体系、阐明基本原理引导初级实践、了解相关应用为学生在大数据领域“深耕细作”奠定基础、指明方向
《大数据技术原理与应用》
厦门大学计算机科学系
《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@
内容提要
• 本课程系统介绍了大数据相关知识，共有13章 • 系统地论述了大数据的基本概念、大数据处理架构 Hadoop、分布式文件系统HDFS、分布式数据库HBase、 NoSQL数据库、云数据库、分布式并行编程模型 MapReduce、流计算、图计算、数据可视化以及大数据在互联网、生物医学和物流等各个领域的应用 • 在Hadoop、HDFS、HBase和MapReduce等重要章节，安排了入门级的实践操作，让学生更好地学习和掌握大数据关键技术
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
篇章安排
第一篇：大数据基础篇第二篇：大数据存储篇第三篇：大数据处理与分析篇第四篇：大数据应用篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
第一篇：大数据基础篇
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

国内外硕、博士学位论文的查询与获取

PQDT检索技巧
限定在某个字段检索基本形式：字段名(检索词) 例：Title(internet) “ ” 词组精确匹配两个单词默认为词组精确匹配，三个单词以上则需要添加双引号。例：”new york orchestra”
PQDT检索技巧
布尔逻辑运算符定义了检索词或词组之间的关系。 AND：查找由and连接所有词语的记录。例：internet AND education OR：查找由OR连接任何单词的记录。例： Internet OR intranet AND NOT：查找包含由AND NOT连接第一个单词，而不包含第二个单词的记录。例：Internet AND NOT html
annelid=3 检索国家图书馆收藏的16万多篇博士论文，可以看目录和前24页。国家科技图书文献中心中文学位论文查询 / 1984－，收藏我国高等院校、研究生院及研究院所的博硕士论文和博士后报告，涉及自然科学各领域，兼顾人文社科，有文摘。
The Universit-y of Texas、Texas A&M University、 The University of Houston、Texas Tech Universit-y四所大学的部分学位论文，有全文。 /tdl/handle/22 49.1/1
ProQuest博士论文全文数据库
我馆参加了中国大陆地区联合引进ProQuest博士论文全文项目，我校校园网用户可以浏览、下载博士论文的PDF全文。目前数据库中已有论文全文超过25万篇。 PQDT数据库中部分记录的全文。
OCLC WorldCat Dissertations
CALIS全国工程中心订购的OCLC FirstSearch 基础组数据库之一。 OCLC WorldCat Dissertations 共有800多万条记录，包括所有的主题。提供题录信息，没有文摘。其中近20％约160 万篇全文论文，可免费下载。 61所院校共同使用14个“ 并发用户”。

厦门大学科技管理系统

并返回列表页面
步骤2: 根据界面输入认领信息
经费管理—到帐经费认领—已认领经费信息
点击已认领查询菜单, 进入已经认领的信息的查询功能页面, 该页面显示的是本人已经认领的所
有记录.
点击超链, 可以进入查看详细的认领的界面
经费管理—到帐经费认领—认领查看
经费管理—经费分割
步骤7:确认输入完成后点击提交按钮, 提交后不
系统主要功能简介
步骤1,点击个人资料— 个人信息菜
单项
注：如未填写个人电子信箱信息，系统将无法及时的发送项目相关信息到个人电子信箱。
步骤3,点击保存按钮，保存个人信息
步骤2,填写个人联系电话和电子信
箱信息
系统主要功能简介
纵向项目（a.牵头或合作申请的国家或地方政府部门的项目;b.国家或地方实验室开放课题；c.国际组织委托的项目）
系统首页
系统首页
1、工具栏：可以隐藏或显示菜单栏，即可以显示或隐藏标题栏，也可以注消当前用户而退出该系统；对多角色用户可以通过此栏更改角色。
2、菜单栏：显示系统的功能，点击相应菜单项进入相应功能页面。
3、待办事宜:系统中需要当前用户处理的事务会显示在这里，提醒用户去操作，直到用户处理了所有的待办事宜，该栏目中显示的内容才为空。
（下图）
保存成功后显示提交审
核按钮
纵向项目—立项登记—录入项目协作单位
保存成功后，自动跳转到本标签页
点击新建按钮,进入新增项目协作单
位页面
保存成功后显示其他信息的标签页
纵向项目—立项登记—新增项目协作单位
步骤1:录入界面中所需信息
步骤2:点击保存按钮保存协作单位信息,保存成

厦门大学计算机科学系本科生课程

厦门大学计算机科学系本科生课程《数据库系统原理》作业及答案
第1章绪论
第1次作业
绘制E-R图
厦门大学数据库实验室
二零一六年二月
目录
目录
1习题1 (1)
2习题2 (2)
附录1:任课教师介绍 (2)
厦门大学计算机科学系本科生课程
《数据库系统原理》第1章第1次作业
绘制E-R图
主讲教师：林子雨
E-mail: ziyulin@ 个人主页：/linziyu
1习题1
学校中有若干系，每个系有若干班级和教研室，每个教研室有若干教员，其中有的教授和副教授每人各带若干研究生；每个班有若干学生，每个学生选修若干课程，每门课可由若干学生选修。

请用E-R图画出此学校的概念模型。

【答案】
2 习题2
某工厂生产若干产品，每种产品由不同的零件组成，有的零件可用在不同的产品上。

这些零件由不同的原材料制成，不同零件所用的材料可以相同。

这些零件按所属的不同产品分别放在仓库中，原材料按照类别放在若干仓库中。

请用 E 一 R 图画出此工厂产品、零件、材料、仓库的概念模型。

【答案】
附录1:任课教师介绍
林子雨(1978－),男,博士,厦门大学计算机科学系助理教授,主要研究领域为
数据库,实时主动数据仓库,数据挖掘.
主讲课程：《数据库系统原理》《大数据技术原理与应用》
办公地点：厦门大学海韵园科研2号楼
E-mail: ziyulin@
个人主页：/linziyu 数据库实验室网站：。

Chapter14-厦门大学-林子雨-大数据技术原理与应用-第十四章-基于Hadoop的数据仓库Hive(2016年4月6日版本)解

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
14.3 Hive工作原理
•14.3.1 •14.3.2 SQL语句转换成MapReduce作业的基本原理 Hive中SQL查询转换成MapReduce作业的过程
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
2.Hive在Facebook公司中的应用 •基于Oracle的数据仓库系统已经无法满足激增的业务需求 •Facebook公司开发了数据仓库工具Hive，并在企业内部进行了大量部署
Web Servers
Scribe Servers
Filers
Oracle RAC Hive on Hadoop cluster
《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@
14.1 概述
• • • • • • 14.1.1 14.1.2 14.1.3 14.1.4 14.1.5 14.1.6 数据仓库概念传统数据仓库面临的挑战 Hive简介 Hive与Hadoop生态系统中其他组件的关系 Hive与传统数据库的对比分析 Hive在企业中的部署和应用
欢迎访问《大数据技术原理与应用》教材官方网站： /post/bigdata 欢迎访问“中国高校大数据课程公共服务平台”旗下子栏目“大数据课程学生服务站”，为学生学习大数据课程提供全方位、一站式免费服务： /post/4331/
1和2是uid的值 Map
Order uid orderid 1 1 2 101 102 103
orderid 103
2是表Order的标记位
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨

厦门大学实验室资源信息管理系统接口说明文档

用于院级系统与校级用户统一认证和管理
2
2
2。1.1接口描述：校级平台通过该接口将预约请求推至院级系统，获取相应院级系统返回的仪器预约页面。
2.1。2请求消息参数描述
参数名称
类型
是否为空
描述
innerID
String
否
仪器所属单位内部的唯一编码;
insCode
String
否
管理单位的唯一标识；
2。1。3响应消息参数描述
是
刷卡人姓名
CardPersonNumber
是
刷卡人教工号（学工号）
CardPersonGroup
是
刷卡人所属课题组
OrderItemName
否
预约检测项目名称
SendSampleItemName
否
送样检测项目名称
2。4。3响应消息参数描述
参数名称
类型
是否为空
描述
状态码
int
否
服务成效数据推送结果：
"PurchaseDate":”2013\/12\/6 0：00：00”，//购置日期
”StorageTime”："2014\/11\/25 0：00:00"，//入库时间
”CountryOfOrigin"："xxxx"，//生产国别
"CountryCode"：”156"，//国别码
”Manufacturer”:”xxxx"//生产厂家
（2）校级平台统一分配院级单位的唯一标识；院级系统需保存单位标识关联表；院级单位可登录校级平台查看本单位的唯一标识；
（3）院级系统需将平台负责人的通讯邮箱地址上报校级平台；校级平台对数据的验证错误信息会以邮件的方式发送院级系统负责人的邮箱；

大数据技术原理与应用

图10-9 2008年世界各国GDP数据
10.2.3 地图工具
• 1. Google Fusion Tables Google Fusion Tables让一般使用者也可以轻松制作出专业的统计地图。该工具可以让数据表呈现为图表、图形和地图，从而帮助发现一些隐藏在数据背后的模式和趋势。 • 2. Modest Maps Modest Maps是一个小型、可扩展、交互式的免费库，提供了一套查看卫星地图的API，只有10KB大小，是目前最小的可用地图库，它也是一个开源项目，有强大的社区支持，是在网站中整合地图应用的理想选择。 • 3. Leaflet Leaflet是一个小型化的地图框架，通过小型化和轻量化来满足移动网页的需要。
（3）辅助理解数据
图10-5 微软“人立方”展示的人物关系图
10.1.3 可视化的重要作用
（4）增强数据吸引力
图10-6 一个可视化的图表新闻实例
10.2 可视化工具
10.2.1 入门级工具 10.2.2 信息图表工具 10.2.3 地图工具 10.2.4 时间线工具 10.2.5 高级分析工具
10.1.2 可视化的发展历程
• 20世纪50年代，随着计算机的出现和计算机图形学的发展，人们可以利用计算机技术在电脑屏幕上绘制出各种图形图表，可视化技术开启了全新的发展阶段。最初，可视化技术被大量应用于统计学领域，用来绘制统计图表，比如圆环图、柱状图和饼图、直方图、时间序列图、等高线图、散点图等，后来，又逐步应用于地理信息系统、数据挖掘分析、商务智能工具等，有效促进了人类对不同类型数据的分析与理解 • 随着大数据时代的到来，每时每刻都有海量数据在不断生成，需要我们对数据进行及时、全面、快速、准确的分析，呈现数据背后的价值，这就更需要可视化技术协助我们更好地理解和分析数据，可视化成为大数据分析最后的一环和对用户而言最重要的一环

国内外开放存取资源

5
台湾静宜大学硕博论文系统
.tw/ETD-db/
6
香港科技大学机构Dspace
t.hk/dnzi1.lib.hku.hk/hkuto/index.jsp
7
BioMed Centr（/home）
收录英国伦敦生物医学中心的近200种免费全文期刊。
8
Educators Reference Desk（/）
提供超过100万个有关教育研究、理论和实践的资料。
9
CiteSeer
3
Open Science Directory
(/)
收录1.3万多种开放存取期刊目录。
4
Public Library of Science（简称Plos）
(/)
由众多诺贝尔奖得主和慈善机构支持的为科技人员和医学人员服务的非赢利性学术组织，出版了8种生命科学与医学领域的国际顶级水平的开放存取期刊，可以免费获取全文。
中国科学院科学数据库
/
9
国家科技图书文献中心（NSTL）

10
开放存取资源图书馆
/Index.html
2.大学OA仓储
序号
名称
网址
1
剑桥大学机构知识库
/
美国国家航空和宇宙航行局天体物理学数பைடு நூலகம்系统。
5
Open J-Gate
()
收集约4500多种学校、研究机构和行业期刊，其中2400多种学术期刊经过同行评议。
6
ArtsEdge
（/）
肯尼迪艺术中心下属网站，为全美各类学校老师学生提供艺术教育网上内容。
国内外开放存取资源
1.国内开放存取电子资源
序号
名称网址1奇迹2中国科技论文在线

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.2
•READ UNCOMMITTED（未提交读）事务在这个级别下，事务所做的修改，即使没有提交，对其他事务也是可见的。
•READ COMMITTED（提交读）READ COMMITTED下，只能“看见”已提交事务所做的修改，但是RC会出现一个问题，即同一事务两次读可能得到不一样的结果，因此，READ COMMITTED又称为不可重复读。
• 非聚集索引即为从属索引，索引在物理上与它描述的表文件分离
锁的类型
从资源竞争的角度理解锁的类型
X
S
X
不兼容
不兼容
S
不兼容
兼容
2.6
锁的类型
2.6
从保护资源的角度理解锁的类型
对象保护持续时间模式死锁
存在于
lock 事务数据库内容整个事务过程行锁、表锁、意向锁通过waits-for graph、time out 等机制进行死锁检测 Lock Manager的哈希表中
组合三：id列是二级非唯一索引，RC隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合四：id列上没有索引，RC隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合五：id列是主键，RR隔离级别
学习目标背景知识简单SQL语句加锁分析复杂SQL语句加锁分析总结
目录
复杂SQL语句加锁分析
4
加什么锁？
SQL语句的三个阶段： 1. Index key：pubtime > 1 and puptime < 20 2. Index Filter：userid = ‘hdc’ 3. Table Filter：comment is not NULL
复杂SQL语句加锁分析
4
Index Condition Pushdown 是MySQL 5.6 开始支持的一种根据索引进行查询的优化方式。之前的MySQL数据库版本不支持Index Condition Pushdown，当进行索引查询时，首先根据索引记录来查找记录，然后再根据WHEREguol4 记录，在支持Index Condition Pushdown 后，MySQL数据库会在取出索引的同时，判断是否可以进行WHERE条件的过滤，也就是将WHERE的部分过滤操作放到了存储引擎层。在某些查询下，可以大大减少上层SQL层对记录的索取（fetch），从而提高数据库的整体性能。
• 对于SQL1：select * from t1 where id = 10; 这条SQL，在RC，RR隔离级别下，都是快照读，不加锁。但是在Serializable隔离级别，SQL1会加读锁，也就是说快照读不复存在，MVCC并发控制降级为Lock-Based CC。
• 结论：在MySQL/InnoDB中，所谓的读不加锁，并不适用于所有的情况，而是隔离级别相关的。Serializable隔离级别，读不加锁就不再成立，所有的读操作，都是当前读。
简单SQL语句加锁分析
3
不同前提与不同的隔离级别的组合：
组合一：id列是主键，RC隔离级别组合二：id列是二级唯一索引，RC隔离级别组合三：id列是二级非唯一索引，RC隔离级别组合四：id列上没有索引，RC隔离级别组合五：id列是主键，RR隔离级别组合六：id列是二级唯一索引，RR隔离级别组合七：id列是二级非唯一索引，RR隔离级别组合八：id列上没有索引，RR隔离级别组合九：Serializable隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合八：id列上没有索引，RR隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合九：Serializable隔离级别
• 对于SQL2：delete from t1 where id = 10; 来说，Serializable隔离级别与 Repeatable Read隔离级别完全一致。
取的是记录的最新版本，并且，当前读返回的记录，都会加上锁，保证其他事务不会再并发修改这条记录。
下面的SQL语句哪些是快照读，哪些是当前读？
1. select * from table where ?; 2. select * from table where ? lock in share mode; 3. select * from table where ? for update; 4. insert into table values (…); 5. update table set ? where ?; 6. delete from table where ?;
•REPEATABLE READ（可重复读）REPEATABLE READ级别保证在同一个事务中多次读取同样的记录结果是一致的。但是理论上，可重复读隔离级别还是无法解决另外一个幻读的问题。
•SERIALIZABLE（可串行化）最高的隔离级别，强制事务串行执行。
未提交读
解决脏读
提交读
解决不可重复读
latch 线程内存数据结构临界资源读写锁、互斥量
无死锁检测机制，如果出现死锁，则说明数据库存在bug 每个数据结构的对象中
锁的类型
从数据库设计者的角度理解锁的类型 • 表锁 • 行锁 • 意向共享锁（IS）和意向排他锁（IX）
2.6
学习目标背景知识简单SQL语句加锁分析复杂SQL语句加锁分析总结
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合一：id列是主键，RC隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合二：id列是二级唯一索引，RC隔离级别
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
学习目标背景知识简单SQL语句加锁分析复杂SQL语句加锁分析总结
目录
背景知识
2
1. 事务的ACID特性 2. 事务的隔离级别 3. 2PL 4. MVCC 5. 聚簇索引 6. 锁类型与锁算法
背景知识
2.1
A D 事务 C
I
背景知识
2.1
日志
ACID
锁
事务的隔离级别
• GAP锁定一个范围，但不包括记录本身
简单SQL语句加锁分析
3
SQL2：delete from t1 where id = 10;
组合五：id列是主键，RR隔离级别组合六：id列是二级唯一索引，RR隔离级别
为什么组合五、组合六，也是RR隔离级别，却不需要加 GAP锁呢？
对于组合五，id是主键；对于组合六，id是unique键，都能够保证唯一性。一个等值查询，最多只能返回一条记录，而且新的相同取值的记录，一定不会在新插入进来，因此也就避免了GAP锁的使用。
所有以上的语句，都属于当前读，读取记录的最新版本。并且，读取之后，还需要保证其他并发事务不能修改当前记录，对读取记录加锁。其中，除了第一条语句，对读取记录加S锁 (共享锁)外，其他的操作，都加的是X锁 (排它锁)。
聚簇索引
2.5
• 在聚集索引中，叶结点也即数据结点，所有数据行的存储顺序与索引的存储顺序一致，innodb就是聚集索引（注意：一个表只能有一个聚集索引）
目录
简单SQL语句加锁分析
3
下面的SQL语句加什么锁？
SQL1：select * from t1 where id = 10; SQL2：delete from t1 where id = 10;
加锁涉及到的因素：
前提一：id列是不是主键？前提二：当前系统的隔离级别是什么？前提三：id列如果不是主键，那么id列上有索引吗？前提四：id列上如果有二级索引，那么这个索引是唯一索引吗？前提五：两个SQL的执行计划是什么？索引扫描？全表扫描？
可重复读
解决幻读
可串行化
2PL协议
2.3
MVCC
2.4
1. MySQL InnoDB存储引擎，实现的是基于多版本的并发控制协议——MVCC， MVCC最大的好处是“读不加锁，读写不冲突”。
2. 在MVCC并发控制中，读操ead)与当前读 (current read)。快照读，读取的是记录的可见版本，不用加锁。当前读，读
学习目标背景知识简单SQL语句加锁分析复杂SQL语句加锁分析总结
目录
死锁分析与总结
5
死锁分析与总结
5
死锁分析与总结
5
结论：死锁的发生与否，并不在于事务中有多少条SQL语句，死锁的关键在于：两个(或以上)的 Session加锁的顺序不一致。
死锁分析与总结
5
总结： 1. MVCC 2. 事务隔离级别 3. 加锁操作的考虑因素 4. 加锁的详细过程 5. 死锁分析
THANKS
简单SQL语句加锁分析
3
SQL1：select * from t1 where id = 10;
组合一：id列是主键，RC隔离级别组合二：id列是二级唯一索引，RC隔离级别组合三：id列是二级非唯一索引，RC隔离级别组合四：id列上没有索引，RC隔离级别组合五：id列是主键，RR隔离级别组合六：id列是二级唯一索引，RR隔离级别组合七：id列是二级非唯一索引，RR隔离级别组合八：id列上没有索引，RR隔离级别组合九：Serializable隔离级别