MinerU 团队新产品 | Sciverse 科学数据基座，把可信的科学知识接入你的 AI 工作流

原创于 2026-06-29 15:35:51 发布 · 50 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

Auto-Research 正在成为科研 AI 里热门方向之一。

它把科研 AI 从“单次问答”推向“自动化工作流”：让 Agent 围绕一个研究问题，连续完成文献检索、论文筛选、原文读取、证据整理、方法对比和综述生成，以此帮助研究者更快找到关键证据，更快推进科学发现。

但当科研 AI 进入这样的工作方式，底层数据能力就变得很关键。没有可信、完整、可追溯的科研数据基座，AI 很容易生成“看起来像科研”的内容，根本无法保证结论可靠、实验可复现、创新可验证。

现在，Sciverse来了！

Sciverse是 MinerU 团队重磅打造的科研数据基座。

它将海量公开学术文献，处理为原生 Agent 友好的 AI-Ready 科学数据，提供元数据检索、语义证据片段、原文上下文和图表资源，让科研 AI 不再停留于模型记忆和零散搜索结果，而是能够读取论文、理解上下文、调用关键证据，并追溯每一个结论的来源，通过 API、Skills 灵活调用方式，进入科研产品、RAG 系统、Agent 工作流，以及 Claude、Cursor、Codex 等 AI 工具，让 Agent 能够基于真实、可验证、可追溯的科学数据完成研究。

快来试试：

⭐ Sciverse 科学数据基座官网：https://sciverse.space

🧾 Sciverse API/Skills 文档：https://sciverse.space/docs

📚 Cookbook：https://sciverse.space/docs#cookbook

Sciverse 提供什么？

Sciverse 把论文、图书、专利、期刊、会议等公开的科学知识资产，处理成 Agent 可以直接调用的科学 AI-Ready 数据。其已覆盖：

● 4.66 亿条学术元数据

● 1.06 亿条图书记录

● 7000 万条专利记录

● 2,800 万余篇 AI-Ready 开放获取全文

Sciverse 覆盖论文、图书、专利的知识总览

这些跨学科、跨语种、多来源科学知识数据，已经被清洗、解析、结构化和索引，并通过 T+1 增量更新持续进入可调用状态。

与传统数据库不同，Sciverse不只返回“文献结果列表”，而是提供一套可直接进入科研工作流的科学证据能力。基于 Sciverse，科研 Agent 可以调用结构化元数据、全文片段、章节、图表、引用上下文和证据位置，完成更多细粒度研究任务，包括但不限于：

● 跨文档方法对比；

● 实验条件和数据集定位；

● 图表证据查找；

● 指标和结论抽取；

● 技术路线梳理；

● 论文与专利技术表达对照；

● 带来源的综述草稿生成；

● 研究方向持续追踪。

六个核心 API：从检索到证据再到图表资源

在 Auto-Research 工作流中，科研 Agent 需要的不只是“搜到论文”，而是稳定完成证据发现、论文筛选、字段理解、原文核验和图表调用。

Sciverse用六个核心 API 串起这条科研证据链路，为科研 Agent 工作流提供六类能力：从语义找证据，到结构化筛论文，再到论文关系扩展、原文校验和图表调用。

1. agentic-search：语义证据检索

当用户提出一个自然语言研究问题时，Agent 可以调用 agentic-search 获取相关文献中的可引用证据片段。

适合场景：Scientific RAG；文献综述 Agent；观点证据检索；Citation Grounding；Evidence Pack 构建。

典型链路：agentic-search -> content -> 带来源证据输出

2. meta-search：结构化元数据检索

当用户需要按年份、期刊、作者、学科、语言、引用数等条件筛选论文时，应使用 meta-search。

适合场景：高级论文筛选；论文清单生成；系统综述初筛；研究方向趋势扫描；学术产品中的筛选器和排序功能。

典型链路：meta-catalog -> meta-search -> 论文清单 / 统计分析

3. meta-catalog：字段能力发现

meta-catalog 用于查看 Sciverse 当前支持哪些元数据字段、字段类型和字段能力。Agent 或前端应用不应硬编码未知字段，而应该先通过 meta-catalog 获取可用字段，再构造 meta-search 查询。

适合场景：动态生成筛选器；检查字段是否可 filter / sort；避免 Agent 编造不存在的字段；构建稳定的高级检索体验。

典型链路：meta-catalog -> meta-search

4. meta-paper-relations：论文关系网络检索

meta-paper-relations 用于基于一篇论文的 unique_id，分页获取它的引用关系、参考文献关系和相关工作关系。当 Agent 已经通过 meta-search 找到目标论文后，可以继续调用 meta-paper-relations 扩展这篇论文的 citation network，获取 citations、references 或 related_works。

适合场景：引用网络分析；Related Work 扩展；系统综述滚雪球检索；从种子论文发现上游参考文献和下游引用论文；研究脉络追踪。

典型链路：meta-search -> meta-paper-relations -> 论文关系扩展 / 引用网络分析

5. content：读取原文上下文

content 用于按 doc_id + offset 读取论文原文片段。当 agentic-search 返回一个 evidence chunk 后，Agent 可以继续调用 content 读取该片段前后的上下文，确认原文是否真正支持某个论点。

适合场景：原文核验；论文阅读助手；综述证据扩展；Evidence Pack 构建；按段读取全文。

典型链路：agentic-search -> content

6. resource：获取 Figure / Table 资源

resource 用于获取论文中的 Figure / Table 等图表资源。Agent 可以先通过 content 读取全文 Markdown，从中提取图表路径，再调用 resource 获取图片或表格资源。

适合场景：图表证据检索；多模态 RAG；实验结果图分析；论文图表问答；科研报告和演示材料生成。

典型链路：agentic-search -> content -> resource

三条最常见的科研 AI 工作流

下面是三条最常见的工作流。

工作流一：文献综述 Agent

用户输入一个研究问题，例如：

请帮我综述 2020-2024 年 Transformer 在蛋白质结构预测领域的应用进展。

Agent 可以这样调用 Sciverse：

1. 调用 agentic-search，检索相关文献证据片段；
2. 对高相关片段调用 content，读取原文上下文；
3. 整理方法、实验条件、数据集、指标和结论；
4. 输出带` doc_id`、`offset`、`title、year` 等来源信息的综述草稿；
5. 用户或研究者再进行人工审阅和修改。

* 需要注意的是，Sciverse 提供证据和上下文，不替代最终科研判断。最终综述仍应由研究者审阅。

工作流二：Scientific RAG

很多 RAG 系统最大的问题是：召回内容不够可信，或者回答中缺少可核查来源。

使用 Sciverse 后，Scientific RAG 可以这样工作：

1. 用户提出科学问题；
2. 系统调用 agentic-search 获取相关 evidence chunks；
3. 根据 score 和来源信息过滤证据；
4. 必要时调用 content 补充上下文；
5. LLM 基于证据生成回答；
6. 回答中保留引用编号、doc_id、offset 和论文标题。

这样，LLM 的回答不再只是“看起来合理”，而是可以回到原文片段进行核查。

工作流三：图表证据与多模态分析

很多科研结论并不只存在于正文段落中，也存在于 Figure、Table、实验流程图和结果图中。

Sciverse 支持从文本证据进一步走向图表证据：

1. 调用 agentic-search 找到相关论文；
2. 调用 content 读取全文 Markdown；
3. 从 Markdown 中提取 Figure / Table 路径；
4. 调用 resource 获取图表资源；
5. 将图表交给多模态模型或科研应用分析；
6. 输出图表来源、论文标题、doc_id 和 file_name。