By 大数据技术与架构 场景描述: 面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于Sparksql建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、sql兼容性等方面对Sparksql引擎的一些优化。
关键词:Sparksql优化 字节跳动
本文是根据来自字节跳动的分享整理而成。
作者来自字节跳动数据平台查询分析团队。
目标和能力
为公司内部提供 Hive 、 Spark - sql 等 OLAP 查询引擎服务支持。针对Sparksql,主要做了以下优化:
1. 执行计划自动调优 •基于AE的 ShuffledHashJoin调整 •Leftjoinbuildleftmap技术 2. 数据读取剪枝 •Parquetlocalsort •BloomFilter&BitMap •Prewhere 3. 一些其它优化
执行计划调优
执行计划的自动调优:
目前SparkAE主要支持的功能: (1)数据倾斜的调整 (2)小task的合并 (3)sortmerge-> broadcase Spark 有3种join方式:broadcastjoin、ShuffledHashJoin、SortMergeJoin 普通leftjoin无法build 左表
优化点: 在AE的框架下,根据shuffle数据量大小,自动调整join执行计划:SortMergeJoin调整为 ShuffledHashJoin•扩展支持left-join时将左表build成HashMap。 省去了大表join小表的情况下对shuffle数据的排序过程、join过程以HashMap完成,实现join提速。
SortMergeJoin调整为ShuffledHashJoin
-
Leftjoin build left sidemap
2、join过程中,匹配到的key置为1,没有匹配到的项不变(如key3)
3、join结束后,没有匹配到的项,生成一个补充结果集R2
基于Parquet数据读取剪枝
以parquet格式数据为对象,在数据读取时进行适当的过滤剪枝,从而减少读取的数据量,加速查询速度 优化点:LocalSort
BoomFilter
BitMap
Prewhere
基于Parquet数据读取剪枝:LocalSort 对parquet文件针对某个高频字段进行排序。从而实现读数据时RowGroup的过滤 目标:
基于Parquet数据读取剪枝:BloomFilter&BitMap
如何选取合适的列
Local_sort &BloomFilter & BitMap 如何自动生效
基于Parquet数据读取剪枝:Prewhere 基于列式存储各列分别存储、读取的特性•针对需要返回多列的sql,先根据下推条件对RowId进行过滤、选取。再有跳过地读取其他列,从而减少无关IO和后续计算•谓词选择(简单、计算量小):in,=,<>,isnull,isnotnull 优化结果使得: 特定 sql ( Project16 列, where条件 2 列) sql 平均性能提升 20%
其他优化
Hive/SparkLoad分区Move文件优化:
Vcore
Spark 访问hivemetastore 特定filter下推:
运行期调优
在sql执行前,通过统一的查询入口,对其进行基于代价的预估,选择合适的引擎和参数: 1.sql分析 2.自动引擎选择/自动参数优化 标注结果自动选择执行引擎: 标注结果选择不同运行参数:Executor个数/内存
Overhead、堆外内存
文章不错?点个【在看】吧! ?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。