传智播客-培训课程(7)Hive_1
- 格式:ppt
- 大小:202.50 KB
- 文档页数:39
浏览表和分区以上例⼦,通过⼀个userid 的哈希函数,表被分成32个桶。
在每个桶中的数据,是以viewTime 升序进⾏存储。
这样组织数据允许⽤户有效地在这n个桶上进⾏抽样。
合适的排序使得内部操作充分利⽤熟悉的数据结构来进⾏更加有效的查询。
在这个例⼦,CLUSTERED BY 指定列进⾏分桶,以及创建多少个桶。
⾏格式分隔符指定在hive表中,⾏如何存储。
在这种分隔符情况下,指定了字段是如何结束,集合项(数组和map)如何结束,以及map的key是如何结束的。
STORED AS SEQUENCE FILE 表⽰这个数据是以⼆进制格式进⾏存储数据在hdfs上。
对于以上例⼦的ROW FORMAT 的值和STORED AS 表⽰系统默认值。
表名和列名不区分⼤⼩写。
CREATE TABLE page_view(viewTime INT, userid BIGINT,page_url STRING, referrer_url STRING,ip STRING COMMENT 'IP Address of the User')COMMENT 'This is the page view table'PARTITIONED BY(dt STRING, country STRING)CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETSROW FORMAT DELIMITEDFIELDS TERMINATED BY '1'COLLECTION ITEMS TERMINATED BY '2'MAP KEYS TERMINATED BY '3'STORED AS SEQUENCEFILE;CREATE TABLE page_view(viewTime INT, userid BIGINT,page_url STRING, referrer_url STRING,friends ARRAY<BIGINT>, properties MAP<STRING, STRING>,ip STRING COMMENT 'IP Address of the User')COMMENT 'This is the page view table'PARTITIONED BY(dt STRING, country STRING)CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETSROW FORMAT DELIMITEDFIELDS TERMINATED BY '1'COLLECTION ITEMS TERMINATED BY '2'MAP KEYS TERMINATED BY '3'STORED AS SEQUENCEFILE;列出数据库⾥的所有的表,也可以这么浏览:这样将会列出以page 开头的表,模式遵循Java正则表达式语法。
HIVE编程实战一HIVE基础1.1 什么是hive?Hadoop生态系统是为了处理大数据集而产生的一个合乎成本效益的解决方案。
Hadoop实现了一个特别的计算模型,即MapReduce,其可以将计算认为分割成多个处理单元然后分散到Hadoop集群中的家用或服务器级别的硬件机器上,从而降低成本并提供动态扩展的能力。
基于这个计算模型的下面是一个被称之为HDFS(Hadoop分布式文件系统)的分布式文件系统。
不过,仍然存在一个挑战,那就是用户如何从一个现有的数据基础架构转移到Hadoop 上,而这个基础架构是基于传统关系型数据库和结构化SQL语言的。
对于大量的关系型数据库的维护、实施、开发人员,这个问题将如何解决呢?这就是Hive出现的原因。
Hive提供了一个被称之为Hive查询语言,简称HQL的SQL方言(与MYSQL及其类似),用来查询存储在Hadoop集群中的数据。
Hive可以将大多数的查询转换为MapReduce的job任务,从而使得采用简单的SQL编程方式,来替换掉原有的MapReduce中的复杂java编程。
Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。
Hive不是一个完整的数据库,其中最大的限制就是hive不支持记录级别的更新、插入或者删除,但是用户可以通过查询生成新表或者将查询结果导入到文件中。
同时,基于Mapreduce的hive查询延时比较严重,没有传统的RDBMS查询速度快,hive不支持事物。
因此,hive是最适合数据仓库应用程序的,其可以维护海量数据,而且可以对数据进行分析,然后形成统计结果以及报表等。
1.2 HIVE组成模块所有的命令和查询都会进入到Driver(驱动模块),通过该模块对输入进行解析编译,对需求的计算进行优化,然后按照指定的步骤执行。
当需要启动MapReduce任务时,Hive 本身是不会生成Java Mapreduce程序。
传智播客C++课程讲义传智扫地僧1、C++对C的扩展1简单的C++程序1.1求圆的周长和面积数据描述:半径,周长,面积均用实型数表示数据处理:输入半径r;计算周长= 2*π*r;计算面积= π* r2 ;输出半径,周长,面积;方法2:用面向对象方法编程,求圆的周长和面积#include<iostream.h>using name std;class Circle{ double radius ; //成员变量public : //类的访问控制void Set_Radius( double r ) { radius = r ; } //成员函数double Get_Radius() { return radius ; } //通过成员函数设置成员变量double Get_Girth() { return 2 * 3.14f * radius ; } //通过成员函数获取成员变量double Get_Area() { return 3.14f * radius * radius ; }} ;void main(){Circle A, B ; //用类定义对象A.Set_Radius( 6.23 ) ; //类的调用cout << "A.Radius = " << A.Get_Radius() << endl ;总结:建立类、对象、成员变量、成员函数,输入输入流基本概念。
1.2初学者易犯错误模型总结:从内存四区的角度,解释为什么会出现乱码理解为什么需要成员函数2程序设计方法的发展历程面向过程的结构化程序设计方法●设计思路–自顶向下、逐步求精。
采用模块分解与功能抽象,自顶向下、分而治之。
●程序结构:–按功能划分为若干个基本模块,形成一个树状结构。
–各模块间的关系尽可能简单,功能上相对独立;每一模块内部均是由顺序、选择和循环三种基本结构组成。