2025_NIPS_A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset

BIOSCAN-1M昆虫数据集相关总结与翻译

一、文章主要内容

本文围绕全球生物多样性评估需求,推出了BIOSCAN-1M昆虫数据集,并基于该数据集开展分类实验与相关分析,核心内容如下:

  1. 数据集构建背景:全球生态系统受气候变化影响,生物多样性追踪迫在眉睫,但传统分类方法依赖专家且效率低下,DNA条形码技术虽提供新路径,仍需结合人工智能实现规模化分类。在此背景下,国际生命条形码联盟(iBOL)主导的BIOSCAN项目推出该数据集,助力全球生物多样性调查。
  2. 数据集核心信息
    • 包含约112.8万张高质量昆虫显微镜图像,涵盖16个主要目、491个科等分类层级,每张图像均有专家标注的分类学信息。
    • 配套遗传数据,包括原始核苷酸条形码序列和条形码索引编号(BIN),BIN作为物种的遗传替代标识,共90,918个独特BIN。
    • 数据存在长尾分布的类别不平衡问题,且分类标签遵循层级结构(界-门-纲-目-科-属-种等),部分精细分类层级(如物种级)标注样本占比低(仅7.5%)。
  3. 数据预处理与实验设计
    • 开发基于DETR模型的裁剪工具处理图像,去除冗余背景,提升模型训练效率;将图像调整为256像素(短边)以优化存储与计算。
    • 构建Small(5万样本)、Medium(20万样本)、Large(100万+样本)三个子集,分别开展目级(16类)和双翅目科级
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值