Hive 动态分区入门-白红宇

Hive 动态分区入门

阅读量：666 次

发布时间：2019-03-15

本文共 1155 字，大约阅读时间需要 3 分钟。

什么是动态分区？

动态分区是一种Hive表的存储机制，其独特之处在于分区键由导入数据时的实际数据决定，而非在创建表时手动指定。这与传统静态分区不同，后者通常依赖预先定义好的分区键。

如何使用动态分区？

动态分区的使用需要谨慎配置及优化，以避免资源浪费和性能瓶颈。

前提条件调优

在启用动态分区前，请确保以下设置：

hive.exec.dynamic.partition=true：启用动态分区支持。

hive.exec.dynamic.partition.mode=strict/nonstrict：选择合适的模式：
- 严格模式：在动态分区导入数据时，必须指定一个静态分区列。
- 非严格模式：可以不指定静态分区列，默认使用最后一个字段作为分区键。

hive.exec.max.dynamic.partitions=1000：定义允许动态分区数量最大值。

hive.exec.max.dynamic.partitions.pernode=100：确保每个节点的Map/Reduce任务不会超负荷运行。

表结构配置

动态分区表通常采用类似方式创建：

create external table dy_part1(    sid     int,    name    string,    gender  string,    age     int,    academy string,    dt      string) partitioned by (dt string)row format delimited fields terminated by ',';

数据导入流程

动态分区表的数据导入通常分为以下步骤：

创建临时表：

sql create external table tmp_part1(...)

导入数据：

sql load data local inpath '/data/student2.txt' into tmp_part1;

分区数据：

sql insert into dy_part1 partition(dt) select * from tmp_part1;

注意事项

动态分区表应选择合适的分区列，避免过多不同值造成小文件爆炸。

在非严格模式下，默认使用最后一列作为分区键，需谨慎选择。

动态分区适用于数据量有保障且分区键值稳定的场景。

适用场景

企事业务数据：适合将日期或时间作为分区键。

多层次分析：支持多维度数据分析，便于动态扩展。

优化建议

定期清理过期分区：避免存储膨胀。

监控分区数量：确保不超过最大限制值。

优化写入查询：减少Map/Reduce任务负载。

通过合理配置和使用场景分析，动态分区能够显著提升数据管理效率，同时在存储和查询速度上实现平衡使用。

转载地址：http://nvsmz.baihongyu.com/

你可能感兴趣的文章

Nodejs教程09：实现一个带接口请求的简单服务器

查看>>

Nodejs简介以及Windows上安装Nodejs

nodejs配置express服务器，运行自动打开浏览器

查看>>

node不是内部命令时配置node环境变量

查看>>

Node中的Http模块和Url模块的使用

查看>>

Node入门之创建第一个HelloNode

Node提示:error code Z_BUF_ERROR,error error -5,error zlib:unexpected end of file

查看>>

Node搭建静态资源服务器时后缀名与响应头映射关系的Json文件

查看>>

Node服务在断开SSH后停止运行解决方案（创建守护进程）

查看>>

node模块化

查看>>