数据挖掘、OLAP、数据仓库和数据立方体的概念和关系

本文详细阐述了数据挖掘的定义及其在知识发现中的作用,包括数据清理、集成、选择和模式发现等步骤。同时,介绍了数据挖掘系统的基本类型,如集中式和分布式。此外,讨论了数据挖掘知识图谱,特别是文本数据挖掘在其中的地位。接着,解释了数据仓库、OLAP和数据立方体的概念,强调了它们在多维数据分析中的角色。最后,通过具体工具Mondrian的例子,说明了数据仓库、OLAP和数据立方体之间的关系。整体来看,数据挖掘和数据仓库技术是理解和分析大量数据的关键工具。

1.数据挖掘和数据挖掘系统

首先是数据挖掘,数据挖掘的定义如下:“数据挖掘是从大量数据中挖掘有趣模式和知识的过程”,作为知识发现过程,数据挖掘通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。然后是数据挖掘系统,定义如下:数据挖掘系统(data mining system)是指从存放在数据库数据仓库或其他信息库中的大量数据中挖掘出有趣知识的系统,数据挖掘系统主要在体系结构上进行研究,目前数据挖掘系统分为了集中式的数据挖掘系统和分布式的数据挖掘系统。

我查阅了相关文献,并没有一篇文献讲关于数据挖掘系统和数据挖掘之间的关系,所以这里我认为:只要使用了数据挖掘方法,并且体系结构基本符合数据挖掘系统,都可以称为数据挖掘系统。

2.数据挖掘知识图谱

aminer-开放数据中,给出了机器学习的知识图谱,我挑出来我认为重要的内容,那就是数据挖掘包含文本数据挖掘(text mining),文本数据挖掘包含了文本分类、文本聚类、自然语言处理等技术。从这个知识图谱中可以看出,数据挖掘是相当宽泛的概念。

3.数据仓库、OLAP和数据立方体

《数据挖掘:概念与技术》第三版中有关于它们之间的定义。

数据仓库:宽泛地讲,数据仓库是一种数据库,它与单位的操作数据库分别维护。数据仓库系统允许讲各种应用数据继承在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。在百度词条中关于数据仓库的介绍有这么一句:“数据仓库是一个过程而不是一个项目”。

OLAP:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取,从而获得对数据更深入了解的一类软件技术

数据仓库技术包含数据清理、数据集成和联机分析能力(OLAP)。

多维数据模型是数据仓库中数据组织的一种模型,由维和事实来定义,这种模型可以是星型模式、雪花模式和事实星座。

数据立方体:一种多维数据模型,允许以多维对数据建模和观察。注:近几年数据立方体的发展是文本立方体(Data Cube),也有人研究主题立方体(Topic Cube),即把主题聚类的结果放到立方体,但数据立方体仍然是主流,关于文本立方体的成熟的软件少得可怜,这些主要是韩家炜团队在研究,文本立方体结合信息检索。

综合上面的概念,我的理解如下:

多维数据模型由事实和维组成,数据立方体是多维数据模型的一种。数据仓库基于多维数据模型,数据仓库并不是特指某种数据库,而是面向主题的、时变的、非易失的数据集合,OLAP基于数据仓库,OLAP从数据仓库种获取数据,并在维上聚合并展示。

以具体的工具为例,Mondrian是ROLAP服务器,它基于MySQL,那么MySQL中的事实表和维表就是所谓的多维数据模型,而此时的MySQL就是数据仓库,我认为在Mondrian层面可以称为数据立方体(但其实也不是,Mondrian貌似是缓存了物化的数据,当有MDX查询时,会先访问缓存,只有不在缓存的才从数据仓库中获取)

另外,OLAP和数据挖掘结合称为OLAP,又叫做联机分析挖掘和多维数据挖掘,是指在cell中的挖掘。

参考文献

1.《数据挖掘:概念与技术》第三版

2.百度百科 数据挖掘 OLAP

3.《2008 Text cube Computing ir measures for multidimensional text database analysis》

4.《2010 Topic Cube Topic Modeling for OLAP on Multidimensional Text Databases》

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值