Xtream:用于不确定数据流连续查询的系统
1. 引言
在当今的众多应用场景中,我们常常需要处理海量的不确定数据流,例如传感器、RFID、GPS 和科学数据等。这些数据中的属性值往往容易出现误差,特别是在使用过时的读数时。而科学数据,包括估计值、实验测量值和假设数据,本身也具有不确定性。
大多数应用通常会忽略数据的不精确性,因为直接处理不确定性的效率较低。对于高速率不确定输入流的实时监控来说,这个问题会更加严重。处理这些不可避免的不确定数据,通常有两种方法:
1. 数据清洗
2. 在数据建模和查询处理中处理不确定性
数据清洗虽然是理想的方法,但并不总是可行的。许多应用更倾向于处理不确定性以及其中蕴含的有用信息。因此,我们将重点放在第二种方法上。要支持不确定性,就需要对数据管理系统中的数据模型和查询处理进行重新设计。数据模型应能够支持属性的概率分布、元组之间的相关性以及元组在流中的相关性置信度。查询处理中最重要的变化是支持概率阈值查询。
然而,概率数据流处理面临着一些挑战,使得其变得更加复杂:
- 元组间的相关性 :支持复杂的相关性需要图形模型,但有时应用程序更愿意忽略这些相关性,使用通用且高效的数据管理系统。
- 查询处理的效率 :即使忽略输入元组之间的相关性,也很难消除中间元组之间的相关性。在这种情况下,需要使用意向语义而非外延语义。
2. 相关工作
概率数据库相关的研究工作广泛,其主要挑战是如何高效地将查询处理与概率推理相结合。大多数概率数据库使用基于可能世界语义(PWS)的块独立不相交(BID)
超级会员免费看
订阅专栏 解锁全文
294

被折叠的 条评论
为什么被折叠?



