大数据数仓之报表开发
1. 背景
- 在大数据开发中,主要的数据分析目的可以分为2类。一类是基于历史数据(就算是实时数仓,接收到数据的时候,其实也已经是历史数据了)做数据规律或者结果提取;一类是基于历史数据,训练模型,做未来数据预测或者分类等。
- 如果是前者,基于已有数据做数据规律和数据结果提取,这时候就可以称之为报表开发。
- 参考神策系统,报表开发可以划分固定维度报表开发,一定维度自由组合报表开发,自由维度报表开发。
- 固定维度报表开发,一般是一些固定指标,但会加一些固定维度,典型的如年,月,日等

- 一定维度内自定义组合分析


- 灵活自定义分析

2. 报表分类
- 从上述描述中可以看到,报表从数据维度和计算难度来看,可以分为3大类
- 固定报表,如果是离线数仓场景,很多时候使用hive,或者spark,或者m

本文探讨了大数据数仓中的报表开发,分为固定维度、一定维度内组合和灵活自定义三类报表。介绍了Hive、Spark、MapReduce、Kylin、Druid、Impala和Presto在报表开发中的应用,强调了预计算、cube和即席查询在不同场景的重要性。
4万+

被折叠的 条评论
为什么被折叠?



