一、文章主要内容总结
本文提出了一种名为TabMT的新型掩码Transformer模型,专门用于生成合成表格数据。表格数据广泛应用于医疗、金融等领域,具有异构数据类型、分布多样及易缺失等特点,现有生成模型(如GANs、VAEs、扩散模型等)在鲁棒性、可扩展性、隐私保护及缺失数据处理方面存在不足。TabMT通过改进掩码策略、异构数据嵌入方法及温度缩放机制,有效解决了这些问题:
- 核心设计:采用双向掩码学习,支持任意顺序的字段生成,原生处理缺失数据(将缺失值掩码概率设为1);针对分类字段使用标准嵌入,连续字段通过量化与有序嵌入结合的方式建模。
- 性能验证:在15个不同规模(400~15万样本)的表格数据集上,TabMT的生成数据质量(通过MLE指标评估)优于或持平现有SOTA模型;在超3000万样本的Netflow大规模数据集上,展现出优异的可扩展性;通过温度缩放实现隐私与质量的可控权衡,DCR指标(隐私性)显著高于TabDDPM等模型;在25%数据缺失的场景下仍能保持高性能。
- 应用价值:适用于隐私保护、数据增强、异常检测等场景,尤其适配真实世界中异构、缺失、大规模的表格数据需求。
二、文章创新点
- 新型掩码Transformer架构:提出适用于表格数据生成的掩码策略,通过对每行数据的掩码概率进行均匀采样,解决了训练与生成过程中的分布不匹配问题;支持字段随机顺序生成,契合表格数据无固有顺序的特性。</

订阅专栏 解锁全文
948

被折叠的 条评论
为什么被折叠?



