2025_NIPS_TabMT: Generating tabular data with masked transformers

一、文章主要内容总结

本文提出了一种名为TabMT的新型掩码Transformer模型,专门用于生成合成表格数据。表格数据广泛应用于医疗、金融等领域,具有异构数据类型、分布多样及易缺失等特点,现有生成模型(如GANs、VAEs、扩散模型等)在鲁棒性、可扩展性、隐私保护及缺失数据处理方面存在不足。TabMT通过改进掩码策略、异构数据嵌入方法及温度缩放机制,有效解决了这些问题:

  1. 核心设计:采用双向掩码学习,支持任意顺序的字段生成,原生处理缺失数据(将缺失值掩码概率设为1);针对分类字段使用标准嵌入,连续字段通过量化与有序嵌入结合的方式建模。
  2. 性能验证:在15个不同规模(400~15万样本)的表格数据集上,TabMT的生成数据质量(通过MLE指标评估)优于或持平现有SOTA模型;在超3000万样本的Netflow大规模数据集上,展现出优异的可扩展性;通过温度缩放实现隐私与质量的可控权衡,DCR指标(隐私性)显著高于TabDDPM等模型;在25%数据缺失的场景下仍能保持高性能。
  3. 应用价值:适用于隐私保护、数据增强、异常检测等场景,尤其适配真实世界中异构、缺失、大规模的表格数据需求。

二、文章创新点

  1. 新型掩码Transformer架构:提出适用于表格数据生成的掩码策略,通过对每行数据的掩码概率进行均匀采样,解决了训练与生成过程中的分布不匹配问题;支持字段随机顺序生成,契合表格数据无固有顺序的特性。</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值