目录实例: /hive/data/http_temp/pt_data=1/pt_hour=2014040323
3*
HIVE基本操作实例
1、登录生产环境,ssh 。 [hadoop@hm-nn-ser-01 ~]$ hive
2、查看表 hive (default)> show tables;
4*
HIVE基本操作实例
3、建表 create EXTERNAL table IF NOT EXISTS test( sid bigint, ipsid string, reqteid string, respteid string, imsi string, imei int, apn string, msisdn string, rattype string, lac string, cellci string, area string, city string) partitioned by (pt_date bigint) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ; 查看表结构 hive (default)> desc test;
8*
Hive RCFile数据加载方案
2、Hive中数据文件TEXTFILE格式加载、转换为RCFILE格式
由于RCFILE格式的表不能直接从文件中导入数据,数据要先导入到TEXTFILE格式的表 中,然后再从TEXTFILE表中用导入到RCFILE表中。
SQL实例如下: hive -e "set mapred.job.priority=VERY_HIGH; set press.output=true; set press=true; set pression.codec=press.GzipCodec; set pression.codecs=press.GzipCodec; INSERT OVERWRITE table ip_rc PARTITION (pt_date = ${DATE}, pt_hour = ${HOUR}) select sid, pid, reqteid, respteid, imsi, imei, apn, msisdn, rattype, lac, ci, area, ...... sys_reported_time, pt_data from ip_temp where pt_hour = ${HOUR};" 这个加载、转换、压缩过程对集群资源消耗较大,需要较长时间。