Clickhouse学习整理

本文详细介绍了Clickhouse,一种用于在线分析处理查询(OLAP)的列式存储数据库,适用于大体量数据分析场景。文章涵盖了Clickhouse的基本概念、数据类型、表引擎如MergeTree及其优化、SQL操作、副本与分片集群以及高级特性和查询优化策略。重点讨论了MergeTree引擎的存储和索引机制,以及如何通过建表和查询优化提升性能。

前言

吃水不忘挖井人,我看的视频课:https://www.bilibili.com/video/BV1Yh411z7os?spm_id_from=333.337.search-card.all.click
我看的参考书是下面这本,整体介绍很全面,但是不用全都读,需要的地方看一看就好,有几章废话很多…但是整体质量不错
在这里插入图片描述

Clickhouse学习笔记

clickhouse:列式存储数据库,C++编写,主要用于在线分析处理查询(OLAP),支持SQL,多主架构(客户端访问任何一个节点效果相同)

适合的场景:大体量,数据分析类场景

不支持事务,不擅长按行删除

简述

列式存储:对于聚合,计数等等操作速度更快;每列数据类型相同,压缩更快

引擎多样化:支持 合并树,日志,接口,其他 四大类引擎

高写入能力:使用类LSM TREE结构,数据写入后定期在后台合并,数据写入全部是顺序append写

数据分区与线程级并行:clickhouse可以将数据分为多个分区,多个索引粒度,可以支持多个CPU核心一起处理数据处理,单条数据查询速度快(非常占用CPU)

查询速度:单表查询速度优于关联查询,差距大(因为clickhouse的join实现是通过将右表完全加载入内存,然后用左表每一条数据去对应,所以速度很慢。一般用in代替join/能过滤先过滤/右边放小表)

数据类型

Int32 对应java的32位int

Uint32 对应从0开始的int [0:4294967295]

Float32 对应java的float

布尔型一般用Uint8代替

保证精度的浮点数 Decimal64(s),相当于Decimal(18-s,s),有效位数为1~18,s表示小数位

枚举类型:只能存储定义中列出的值

CREATE TABLE t_enum
(
   x Enum8('hello' = 1, 'world' = 2)
)
ENGINE = TinyLog;

如果需要看到对应行的数值,则必须将 Enum 值转换为整数类型 
hadoop102 : SELECT CAST(x, 'Int8') FROM t_enum;

时间类型 Date,Datetime,Datetime64

表引擎

TinyLog

以列文件的形式保存在磁盘上,不支持索引,没有并发控制。一般保存少量数据的小表, 生产环境上作用有限。可以用于平时练习测试用。

不支持分区,只有每列对应的.bin文件,没有.mrk文件,不支持索引

Memory

内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失。 读写操作不会相互阻塞,不支持索引。简单查询下有非常非常高的性能表现

Memory表更为 广泛的应用场景是在ClickHouse的内部,它会作为集群间分发数据的 存储载体来使用。例如在分布式IN查询的场合中,会利用Memory临 时表保存IN子句的查询结果,并通过网络将它传输到远端节点。

MergeTree

支持索引和分区,写入数据后根据后台线程定期合并数据片段

物理存储中包含.idx索引文件,.mrk列字段标记文件,.bin数据文件(一列对应一个bin文件,写入bin文件之前先经过默认LZ4压缩)

MergeTree通过标记文件建立了 primary.idx稀疏索引与.bin数据文件之间的映射关系。即首先通过稀疏索引(primary.idx)找到对应数据的偏移量信息(.mrk),再通过偏移量直接从.bin文件中读取数据。

稀疏索引一行索引对应一段数据,而不是一行

建表

create table t_order_mt3(
  id UInt32,
	sku_id String,
	total_amount Decimal(16,2) TTL create_time+interval 10 
课程名称:ClickHouse入门实战与进阶课程简介:《ClickHouse入门实战与进阶》是一门旨在帮助学习者全面了解和掌握ClickHouse数据库的实用技能的课程。ClickHouse是一个高性能、可扩展且开源的列式数据库管理系统,特别适用于处理大规模数据分析和实时查询。本课程将引导学习者从入门到进阶,掌握ClickHouse的核心概念、功能和最佳实践。课程特色:全面介绍:课程从ClickHouse的基础知识开始,逐步深入到高级主题,确保学习者对ClickHouse的各个方面都有清晰的理解。实战导向:通过丰富的实例和实际场景,学习者将学习如何在实际项目中应用ClickHouse,从而提升他们的技能水平。进阶内容:除了基础知识,课程还涵盖了ClickHouse的高级主题,如数据模型设计、性能优化、高可用性配置、集群管理等,帮助学习者深入挖掘ClickHouse的潜力。互动学习:课程提供练习和作业,学习者可以通过实践巩固所学知识,并与其他学习者进行交流和讨论。适合人群:数据工程师和数据科学家,希望在大数据分析领域扩展他们的技能。数据库管理员和开发人员,有兴趣学习和应用高性能数据库技术。任何对ClickHouse感兴趣的技术爱好者和学习者。课程大纲:ClickHouse简介和安装配置ClickHouse的特点和优势安装和配置ClickHouse集群数据模型和数据导入列式存储和数据模型设计数据导入和导出查询和聚合基本查询语法和语义聚合函数和复杂查询性能优化和索引查询性能优化技巧索引设计和使用高可用性和故障恢复ClickHouse的高可用性配置故障恢复和数据备份集群管理和监控ClickHouse集群的管理和扩展监控和故障排除实际应用和案例研究ClickHouse在实际项目中的应用案例最佳实践和经验分享课程要求:基本的数据库和SQL知识对大数据分析和数据处理有兴趣有Linux系统和命令行操作经验者优先通过参加《ClickHouse入门实战与进阶》课程,您将获得深刻的ClickHouse知识,并能够应用这些技能解决大规模数据分析和查询的挑战。无论您是数据工程师、数据科学家还是数据库管理员,这门课程都将助您在职业发展中迈出重要的一步。现在就加入我们,开始您的ClickHouse之旅吧!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值