Auto-Research 正在成为科研 AI 里热门方向之一。
它把科研 AI 从“单次问答”推向“自动化工作流”:让 Agent 围绕一个研究问题,连续完成文献检索、论文筛选、原文读取、证据整理、方法对比和综述生成,以此帮助研究者更快找到关键证据,更快推进科学发现。
但当科研 AI 进入这样的工作方式,底层数据能力就变得很关键。没有可信、完整、可追溯的科研数据基座,AI 很容易生成“看起来像科研”的内容,根本无法保证结论可靠、实验可复现、创新可验证。
现在,Sciverse来了!
Sciverse是 MinerU 团队重磅打造的科研数据基座。
它将海量公开学术文献,处理为原生 Agent 友好的 AI-Ready 科学数据,提供元数据检索、语义证据片段、原文上下文和图表资源,让科研 AI 不再停留于模型记忆和零散搜索结果,而是能够读取论文、理解上下文、调用关键证据,并追溯每一个结论的来源,通过 API、Skills 灵活调用方式,进入科研产品、RAG 系统、Agent 工作流,以及 Claude、Cursor、Codex 等 AI 工具,让 Agent 能够基于真实、可验证、可追溯的科学数据完成研究。

快来试试:
⭐ Sciverse 科学数据基座官网:https://sciverse.space
🧾 Sciverse API/Skills 文档:https://sciverse.space/docs
📚 Cookbook:https://sciverse.space/docs#cookbook

Sciverse 提供什么?
Sciverse 把论文、图书、专利、期刊、会议等公开的科学知识资产,处理成 Agent 可以直接调用的科学 AI-Ready 数据。其已覆盖:
● 4.66 亿条学术元数据
● 1.06 亿条图书记录
● 7000 万条专利记录
● 2,800 万余篇 AI-Ready 开放获取全文

Sciverse 覆盖论文、图书、专利的知识总览
这些跨学科、跨语种、多来源科学知识数据,已经被清洗、解析、结构化和索引,并通过 T+1 增量更新持续进入可调用状态。
与传统数据库不同,Sciverse不只返回“文献结果列表”,而是提供一套可直接进入科研工作流的科学证据能力。基于 Sciverse,科研 Agent 可以调用结构化元数据、全文片段、章节、图表、引用上下文和证据位置,完成更多细粒度研究任务,包括但不限于:
● 跨文档方法对比;
● 实验条件和数据集定位;
● 图表证据查找;
● 指标和结论抽取;
● 技术路线梳理;
● 论文与专利技术表达对照;
● 带来源的综述草稿生成;
● 研究方向持续追踪。

六个核心 API:从检索到证据再到图表资源
在 Auto-Research 工作流中,科研 Agent 需要的不只是“搜到论文”,而是稳定完成证据发现、论文筛选、字段理解、原文核验和图表调用。
Sciverse用六个核心 API 串起这条科研证据链路,为科研 Agent 工作流提供六类能力:从语义找证据,到结构化筛论文,再到论文关系扩展、原文校验和图表调用。
1. agentic-search:语义证据检索
当用户提出一个自然语言研究问题时,Agent 可以调用 agentic-search 获取相关文献中的可引用证据片段。
适合场景:Scientific RAG;文献综述 Agent;观点证据检索;Citation Grounding;Evidence Pack 构建。
典型链路:agentic-search -> content -> 带来源证据输出
2. meta-search:结构化元数据检索
当用户需要按年份、期刊、作者、学科、语言、引用数等条件筛选论文时,应使用 meta-search。
适合场景:高级论文筛选;论文清单生成;系统综述初筛;研究方向趋势扫描;学术产品中的筛选器和排序功能。
典型链路:meta-catalog -> meta-search -> 论文清单 / 统计分析
3. meta-catalog:字段能力发现
meta-catalog 用于查看 Sciverse 当前支持哪些元数据字段、字段类型和字段能力。Agent 或前端应用不应硬编码未知字段,而应该先通过 meta-catalog 获取可用字段,再构造 meta-search 查询。
适合场景:动态生成筛选器;检查字段是否可 filter / sort;避免 Agent 编造不存在的字段;构建稳定的高级检索体验。
典型链路:meta-catalog -> meta-search
4. meta-paper-relations:论文关系网络检索
meta-paper-relations 用于基于一篇论文的 unique_id,分页获取它的引用关系、参考文献关系和相关工作关系。 当 Agent 已经通过 meta-search 找到目标论文后,可以继续调用 meta-paper-relations 扩展这篇论文的 citation network,获取 citations、references 或 related_works。
适合场景:引用网络分析;Related Work 扩展;系统综述滚雪球检索;从种子论文发现上游参考文献和下游引用论文;研究脉络追踪。
典型链路:meta-search -> meta-paper-relations -> 论文关系扩展 / 引用网络分析
5. content:读取原文上下文
content 用于按 doc_id + offset 读取论文原文片段。当 agentic-search 返回一个 evidence chunk 后,Agent 可以继续调用 content 读取该片段前后的上下文,确认原文是否真正支持某个论点。
适合场景:原文核验;论文阅读助手;综述证据扩展;Evidence Pack 构建;按段读取全文。
典型链路:agentic-search -> content
6. resource:获取 Figure / Table 资源
resource 用于获取论文中的 Figure / Table 等图表资源。Agent 可以先通过 content 读取全文 Markdown,从中提取图表路径,再调用 resource 获取图片或表格资源。
适合场景:图表证据检索;多模态 RAG;实验结果图分析;论文图表问答;科研报告和演示材料生成。
典型链路:agentic-search -> content -> resource

三条最常见的科研 AI 工作流
下面是三条最常见的工作流。
工作流一:文献综述 Agent
用户输入一个研究问题,例如:
请帮我综述 2020-2024 年 Transformer 在蛋白质结构预测领域的应用进展。
Agent 可以这样调用 Sciverse:
1. 调用 agentic-search,检索相关文献证据片段;
2. 对高相关片段调用 content,读取原文上下文;
3. 整理方法、实验条件、数据集、指标和结论;
4. 输出带` doc_id`、`offset`、`title、year` 等来源信息的综述草稿;
5. 用户或研究者再进行人工审阅和修改。
* 需要注意的是,Sciverse 提供证据和上下文,不替代最终科研判断。最终综述仍应由研究者审阅。
工作流二:Scientific RAG
很多 RAG 系统最大的问题是:召回内容不够可信,或者回答中缺少可核查来源。
使用 Sciverse 后,Scientific RAG 可以这样工作:
1. 用户提出科学问题;
2. 系统调用 agentic-search 获取相关 evidence chunks;
3. 根据 score 和来源信息过滤证据;
4. 必要时调用 content 补充上下文;
5. LLM 基于证据生成回答;
6. 回答中保留引用编号、doc_id、offset 和论文标题。
这样,LLM 的回答不再只是“看起来合理”,而是可以回到原文片段进行核查。
工作流三:图表证据与多模态分析
很多科研结论并不只存在于正文段落中,也存在于 Figure、Table、实验流程图和结果图中。
Sciverse 支持从文本证据进一步走向图表证据:
1. 调用 agentic-search 找到相关论文;
2. 调用 content 读取全文 Markdown;
3. 从 Markdown 中提取 Figure / Table 路径;
4. 调用 resource 获取图表资源;
5. 将图表交给多模态模型或科研应用分析;
6. 输出图表来源、论文标题、doc_id 和 file_name。

Sciverse 能接入哪些场景?
Sciverse 可接入科研 Agent、RAG 系统、数据管线和学术产品,支撑从文献综述、知识库建设到技术情报、数据集构建和产品集成的科研 AI 工作流
1. 文献综述 Agent
围绕一个研究问题,Agent 调用 Sciverse 检索相关论文,读取全文片段,提取方法、实验条件、数据集、指标和结论,生成带来源证据的综述草稿。适用于研究方向入门、课题背景梳理、近期进展总结和论文写作前的资料准备。
2. 科研知识库与 RAG 系统
课题组或产品团队可以将 Sciverse 接入 RAG pipeline,为内部知识库、科研问答系统和论文阅读工具提供结构化科学数据源。系统不仅可以召回论文记录,也可以调用正文片段、证据位置和来源信息,提升回答的可核查性。
3. 专利与技术情报分析
Sciverse 覆盖论文与专利数据,可用于技术路线梳理、专利 claims 对照、竞争情报分析和前沿方向监测。适用于企业研发、技术转移、产业研究、专利分析和科研管理场景。
4. 垂直领域数据集构建
开发者可以基于 Sciverse 构建特定学科或任务的数据集,用于模型评测、知识抽取、领域微调、论文计量分析和学术产品开发。相比从零开始做论文获取、PDF 解析、元数据清洗和全文索引,Sciverse 提供了更完整的数据底座和可追溯来源。
5. 学术产品与数据管线集成
Sciverse 提供 API 与 Skill 接入能力,可集成到 AI 学术搜索、自动综述、论文阅读、专利分析、技术情报和 Research Agent 产品中。

立即体验
Sciverse 已开放使用。快来试试~
⭐ Sciverse 科学数据基座官网:https://sciverse.space/
🧾 API/Skills 文档:https://sciverse.space/docs
📚 Cookbook:https://sciverse.space/docs#cookbook

写在最后——Sciverse 的边界
为了让科研 AI 工作流更可信,Sciverse 会坚持几个清晰边界:
● 提供科学数据、元数据、证据片段、全文上下文和图表资源;
● 不替代研究者做最终科学判断;
● 不保证每篇文献都有可读取全文或图表资源;
● 不鼓励 Agent 编造字段、引用或结论;
● 需要训练、批量处理或商业化集成时,应遵守数据来源、授权范围和平台账号权限。
Sciverse 的核心价值不是替用户“自动写完论文”,而是让科研 Agent 能够基于真实、可追溯、可调用的科学证据工作。
354

被折叠的 条评论
为什么被折叠?



