BIOSCAN-1M昆虫数据集相关总结与翻译
一、文章主要内容
本文围绕全球生物多样性评估需求,推出了BIOSCAN-1M昆虫数据集,并基于该数据集开展分类实验与相关分析,核心内容如下:
- 数据集构建背景:全球生态系统受气候变化影响,生物多样性追踪迫在眉睫,但传统分类方法依赖专家且效率低下,DNA条形码技术虽提供新路径,仍需结合人工智能实现规模化分类。在此背景下,国际生命条形码联盟(iBOL)主导的BIOSCAN项目推出该数据集,助力全球生物多样性调查。
- 数据集核心信息:
- 包含约112.8万张高质量昆虫显微镜图像,涵盖16个主要目、491个科等分类层级,每张图像均有专家标注的分类学信息。
- 配套遗传数据,包括原始核苷酸条形码序列和条形码索引编号(BIN),BIN作为物种的遗传替代标识,共90,918个独特BIN。
- 数据存在长尾分布的类别不平衡问题,且分类标签遵循层级结构(界-门-纲-目-科-属-种等),部分精细分类层级(如物种级)标注样本占比低(仅7.5%)。
- 数据预处理与实验设计:
- 开发基于DETR模型的裁剪工具处理图像,去除冗余背景,提升模型训练效率;将图像调整为256像素(短边)以优化存储与计算。
- 构建Small(5万样本)、Medium(20万样本)、Large(100万+样本)三个子集,分别开展目级(16类)和双翅目科级
订阅专栏 解锁全文
1786

被折叠的 条评论
为什么被折叠?



