OpenAI、Anthropic、Google 都在推 Agent：Sciverse 该如何补上科研检索最后一公里

m0_61134850

417人浏览 · 2026-06-18 10:18:18

m0_61134850 · 2026-06-18 10:18:18 发布

导语

过去几个月，Agent、MCP、A2A、开源推理模型几乎同时升温。但科研场景很快暴露出一个现实问题：会调工具，不等于能给出可信结论。真正决定科研 Agent 上限的，不只是模型推理能力，而是它能否稳定拿到论文元数据、证据片段、原文上下文以及图表资源。Sciverse 的价值，正落在这条“证据级 RAG”链路上。

热点背景：为什么现在值得关注

如果把 2025 年以来的 Agent 进展放在一起看，会发现一个明显趋势：行业正在从“单轮聊天”转向“多工具、多代理、可验证工作流”。

2025 年 3 月 11 日，OpenAI 发布 Responses API 与 Agents SDK，把 web search、file search、computer use 这类内建工具正式推到 Agent 开发主路径中。
2025 年 4 月 9 日，Google 发布 A2A（Agent2Agent）协议，强调多 Agent 间的任务协作与互操作。
2025 年 4 月 29 日，阿里通义发布 Qwen3，明确把 agent capabilities 和对 MCP 的支持列为重点方向。
2025 年 5 月 1 日，Anthropic 发布 Integrations，将远程 MCP server 接入 Claude，并把 Research 与引用能力推到前台。

这些信号放在一起，说明一件事：

Agent 的竞争，正在从“谁更会想”转向“谁更能调用真实世界的高质量上下文”。

而科研恰好是最严格的试金石。因为科研任务不是“回答像不像”，而是“证据够不够、引用准不准、链路能不能复现”。

关键判断：通用联网搜索，不等于科研证据检索

通用 Agent 在科研任务里最容易踩的坑，不是模型不会总结，而是输入给模型的证据层不够硬。

一个科研问题，通常至少要分成四层信息需求：

层级	用户真正需要的东西	通用搜索常见问题	Sciverse 对应能力
元数据层	年份、期刊、引用数、DOI、筛选条件	很难稳定结构化过滤	`meta-catalog` + `meta-search`
语义召回层	与问题最相关的论文片段	结果相关但证据粒度粗	`agentic-search`
原文定位层	片段前后文、页码、偏移位置	只给摘要，无法回看上下文	`content`
资源层	图、表、补充材料	图表常被忽略或丢失	`resource`

这也是为什么科研 Agent 很难只靠“网页搜索 + 大模型总结”做好。
你可以得到一个流畅答案，但未必能得到一个可复查答案。

Sciverse 从哪里切入

结合 Sciverse 官网、GitHub 仓库和当前前端 demo，可以把它的切入点概括成一句话：

Sciverse 不是把论文喂给 LLM，而是在给科研 Agent 搭一条可追溯的证据管线。

从公开材料和项目内 PRD 看，Sciverse 当前面向的核心任务非常清晰：

自由检索：先把相关证据找准
生成研究综述：先检索，再拼 evidence pack，再交给模型生成结构化综述
筛选论文清单：优先做结构化过滤，而不是直接生成结论
跟踪研究方向：把一次性搜索变成可持续运行的 saved query / digest 机制

这套设计和当前 Agent 热点高度契合。MCP/A2A 解决的是“怎么接工具、怎么协作”；Sciverse 解决的是“科研工具接进来之后，到底返回什么证据，才能让结论更可信”。

技术拆解：一条适合科研 Agent 的证据工作流

一个更稳妥的科研 Agent 工作流，通常不是一步到位，而是分层推进：

用户问题
  -> meta-catalog（先看有哪些可过滤字段）
  -> meta-search（按年份/期刊/引用数做结构化筛选）
  -> agentic-search（对候选文献做语义检索）
  -> content（读取命中文本上下文）
  -> resource（按需取图表/资源）
  -> Evidence Pack
  -> LLM 生成综述 / 比较 / 路线判断
  -> 输出引用与可回链证据

这条链路的关键不是“多调用几个 API”，而是每一步都在缩小幻觉空间：

meta-search 先保证样本池相对干净
agentic-search 再把相关片段拉出来
content 负责把引用从“像”变成“能回看”
resource 补齐论文中的图表和多模态证据
最后才把整理过的 Evidence Pack 交给模型

这和很多通用 RAG 最大的不同在于：检索不是给模型找参考，而是在给结论建立证据边界。

可运行示例：先检索片段，再回读原文

下面这组 curl 可以直接运行，适合先验证最小链路。第一步做语义检索，第二步拿返回里的 doc_id、offset 回读原文上下文。

export SCIVERSE_API_TOKEN="your_token_here"

curl -X POST https://api.sciverse.space/agentic-search \
  -H "Authorization: Bearer $SCIVERSE_API_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "Compare recent methods for citation grounding in scientific RAG",
    "top_k": 5,
    "source_types": ["pdf", "web"],
    "mode": "balanced"
  }'

拿到命中结果中的 doc_id 和 offset 后，继续读取原文上下文：

curl "https://api.sciverse.space/content?doc_id=DOC_ID_FROM_PREV_STEP&offset=OFFSET_FROM_PREV_STEP&limit=4096" \
  -H "Authorization: Bearer $SCIVERSE_API_TOKEN"

如果你要把它接进 Agent，可以把这条链路封成两个工具：

search_scientific_evidence(query, filters)
read_scientific_context(doc_id, offset, limit)

模型先决定“查什么”，再决定“展开哪一段”，这样比一次性让模型读大段文献更省上下文，也更容易做引用约束。

一个更适合传播的判断

未来最有价值的科研 Agent，不是最像研究员聊天的那个，而是最像研究助理做证据整理的那个。

这也是 Sciverse 现在最值得讲的地方。它没有停在“帮你搜论文”，而是在往“可验证的科研工作流底座”走。

怎么评测这类系统

本文未进行实测跑分。下面给出一个可复现实验方案，适合团队内部比较“通用搜索式 Agent”与“证据级科研 Agent”。

实验目标

比较两类系统在科研问答/综述任务中的可验证性，而不是只比较答案流畅度。

建议任务

任务 A：生成某方向近 3 年研究综述提纲
任务 B：按年份、期刊、引用数筛出论文清单
任务 C：针对一个具体技术争议，给出支持与反对证据

建议数据集

自建小规模任务集：20-50 个真实科研问题
每个问题人工标注：
- 必须覆盖的关键词
- 至少 3 篇应命中的代表论文
- 至少 2 条关键证据片段
可补充公开论文语料或开放论文集合做候选池，但要记录版本与日期

评测维度

维度	说明	记录方式
引用可回查率	引文是否能定位到原文片段	人工复核 `doc_id/offset/page`
证据相关性	证据是否真正支撑结论	3 人盲审打分
过滤准确性	年份/期刊/引用数筛选是否正确	与人工标注比对
结论幻觉率	是否出现语料中不存在的论文/数据/结论	人工标注
工作流成本	调用了多少步、多少 tokens、多少人工修正	统一日志模板

调用步骤模板

用统一问题集分别调用两套系统
保存原始检索结果、Evidence Pack、最终回答
记录每条引用是否可回链到原文
人工判断“结论是否被证据充分支撑”
汇总为 CSV 或表格，保留时间戳与版本号

记录模板

question_id, system_name, retrieved_docs, cited_docs, citation_traceable, hallucination, filter_correct, reviewer_score, notes

如果后续真正跑实验，建议同时记录：

使用的模型版本
Sciverse API 版本或 openapi 版本
语料更新时间
问题集构造日期
是否启用 metadata filter / content read / resource read

落地建议：Sciverse 该怎么接入今天的 Agent 生态

如果你正在做科研 Agent，我更建议把 Sciverse 放在“证据层”而不是“最后一步生成层”。

一个实用接法是：

用通用大模型负责任务规划、分解和写作
用 Sciverse 负责论文筛选、证据召回、上下文回读和图表资源获取
用 MCP 或其他工具协议把这些能力暴露成可组合工具
把最终回答强制约束为“结论 + 引用 + 可回链证据”

这样做的好处不是模型更聪明，而是系统更可审计。
对科研场景来说，后者通常更重要。

结尾

Agent 的上半场在比谁先接上工具。
科研 Agent 的下半场，会比谁先建立证据基础设施。

如果你关心的是研究综述、论文筛选、方向跟踪，或者想把论文检索能力接进自己的 Agent 工作流，现在正是认真看 Sciverse 的时候。先从官方文档和 Agent Tools 仓库开始，把 meta-search + agentic-search + content 这条最小链路跑通，再考虑更复杂的多 Agent 编排，效率会高很多。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

【小白向】虾壳云一键部署即刻启用配置，搭建完成直接使用 OpenClaw v2.7.9 桌面自动化工具（最新安装包）

CSDN-OPC开发者社区

手写 Function Calling 引擎：从 JSON Schema 解析到工具路由与流式执行

Function Calling 是当前 AI Agent 系统的核心能力之一。当大语言模型需要调用外部工具时（搜索、计算、查数据库、调用 API），需要一个标准的协议来定义工具、解析模型输出、执行函数并返回结果。OpenAI 定义了业界主流的 Function Calling 规范——基于 JSON Schema 描述工具接口，模型返回结构化参数，由外部系统执行。但很多开发者只会在商业平台上调用

CSDN-OPC开发者社区

让 AI Agent 直接操作 Simulink：Simulink Agentic Toolkit MCP 配置踩坑全记录

摘要：Simulink Agentic Toolkit配置与问题解决本文详细记录了将AI Agent（Hermes Agent）通过MCP协议接入MATLAB/Simulink的完整过程。主要包含以下内容：工具介绍：Simulink Agentic Toolkit提供MCP协议支持，实现AI直接调用14种MATLAB/Simulink操作功能环境配置： MATLAB R2024b + Sim