2025_NIPS_A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect Dataset

最新推荐文章于 2026-07-01 09:06:09 发布

原创最新推荐文章于 2026-07-01 09:06:09 发布 · 22 阅读

·

0

·

收录于

顶会论文

LLM Daily 专栏收录该内容

2914 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

BIOSCAN-1M昆虫数据集相关总结与翻译

一、文章主要内容

本文围绕全球生物多样性评估需求，推出了BIOSCAN-1M昆虫数据集，并基于该数据集开展分类实验与相关分析，核心内容如下：

数据集构建背景：全球生态系统受气候变化影响，生物多样性追踪迫在眉睫，但传统分类方法依赖专家且效率低下，DNA条形码技术虽提供新路径，仍需结合人工智能实现规模化分类。在此背景下，国际生命条形码联盟（iBOL）主导的BIOSCAN项目推出该数据集，助力全球生物多样性调查。
数据集核心信息：
- 包含约112.8万张高质量昆虫显微镜图像，涵盖16个主要目、491个科等分类层级，每张图像均有专家标注的分类学信息。
- 配套遗传数据，包括原始核苷酸条形码序列和条形码索引编号（BIN），BIN作为物种的遗传替代标识，共90,918个独特BIN。
- 数据存在长尾分布的类别不平衡问题，且分类标签遵循层级结构（界-门-纲-目-科-属-种等），部分精细分类层级（如物种级）标注样本占比低（仅7.5%）。
数据预处理与实验设计：
- 开发基于DETR模型的裁剪工具处理图像，去除冗余背景，提升模型训练效率；将图像调整为256像素（短边）以优化存储与计算。
- 构建Small（5万样本）、Medium（20万样本）、Large（100万+样本）三个子集，分别开展目级（16类）和双翅目科级

标签

#人工智能 #语言模型

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。