Gemini 3.0 实测：迭代效率提升174%、正确率97%，DolphinDB AI Agent 迎来“跃迁时刻”！

基于研报复现因子，一直是研究员开拓思路、发掘新 Alpha 可能的常规手段之一。传统方式依赖研究员逐字研读、手动编码，耗时费力且容易遗漏。随着 AI 大模型的发展，业界开始尝试用 AI 自动复现研报，但大模型代码逻辑不准确、耗时长始终阻碍着这一应用从实验走向生产。

Starfish AI 研报分析助手是 DolphinDB 研发的智能研报因子挖掘与分析工具，其背后接入了综合性能较高的 DeepSeek 大模型，深度整合自然语言处理与量化投研业务逻辑，打通了【上传研报→解析因子→生成代码→回测评价→输出报告】全流程，为量化投研提供高效、精准的智能辅助。Starfish AI 研报分析助手虽然有着不错的表现，但在实际上线生产的过程中，我们还是会遇到两个普遍性的问题：首先是迭代时间过长，此前的版本中，平均需6.8次迭代才能得到可运行代码；其次是生成代码的正确率不够高，只有20%是符合真实研报逻辑且能够运行的代码；再者，模型对研报语言的理解偏差导致部分因子被疏漏。

随着 Gemini 3 在 11 月发布，Starfish AI 研报分析助手接入新模型后的表现也令人眼前一亮，我们挑选了20份覆盖不同风格的研报作为测试集，对因子复现、代码生成、准确度等核心能力进行测试，结果显示：在 Gemini 3 的加持下，Starfish AI 研报分析助手的因子代码跑通率（语法正确率）达到了97%，代码逻辑准确率达50%，模型的平均迭代效率提升了174%，较先前的大模型有了极大的提升。本文，我们带各位一探究竟。

01 Gemini 3 实测：Starfish AI 因子挖掘的效能跃迁

在 Starfish AI 研报分析助手中，用户可直接上传 PDF 研报，系统自动完成因子识别与代码生成。

我们选择了综合性能较好的 DeepSeek V3.1 为对比参照，在基于 DeepSeek V3.1 完成提示词和流程优化后，选取了20份样本外的研报（覆盖动量、价值、事件驱动等风格）作为测试集。在相同硬件环境、数据源、回测框架下，分别运行 Gemini 3 与 DeepSeek V3.1，记录因子挖掘成功率、迭代次数、代码正确率等多项核心指标。

测试结果：Gemini 3 在因子挖掘成功率与效率上全面领先

从测试结果来看，相较于 DeepSeek V3.1，Gemini 3 的引入在因子挖掘的"成功率"与"效率"两个核心维度均实现了显著突破：

在因子覆盖完整性上，Gemini 3 识别出了20份研报中的247个因子，挖掘出研报中约96%（247/250）的因子，而 DeepSeek V3.1 仅识别出76%的因子。
在代码生成层面，针对247个测试因子，Gemini 3 成功生成代码240个，成功率达97%，较 DeepSeek V3.1 的89%（172/192）提升近8个百分点，基本消除了"任务失败"的风险。
在迭代效率上，Gemini 3 生成代码的平均迭代次数较 DeepSeek V3.1 的6.3次减至2.33次，效率提升174%。
在真实因子复现层面，从"能生成代码"到"能正确复现研报逻辑"，中间隔着数据对齐、参数校准、逻辑校验等多重关卡。我们人工抽样15篇研报各一个因子进行测试，Gemini 3 实际成功率约50%，较 DeepSeek 约20%实现了巨大的突破。

深入细节观察，Gemini 3 的优势体现在"忠于原文"的严谨性上：在因子公式复现环节，它能更准确地复现研报中的数学表达，避免 DeepSeek 常见的"简化公式"倾向（如下图示例）。在代码复现时，Gemini 3 成功率更高且逻辑与研报高度一致，常见错误在于对部分 DolphinDB 函数的参数个数和入参形式不够熟悉，但通常在 1–2 次迭代内即可修复。

在极少数场景下，Gemini 3 会自行引入不必要的滚动窗口，或未能最优地使用mbeta、mcorr等 DolphinDB 内置函数，而使用复杂繁琐的计算步骤，对context by + interval这类精巧的分组逻辑理解也偶有偏差。对于这部分复杂公式的理解，仍需"人+AI"的协同模式——在量化投研中，人类专家需时刻守住创造性判断与风险校验的最后一道关卡。

02 Dlang 脚本代码生成：模型能力带来工具效果的提升

Starfish AI 研报分析助手的核心能力，在于将自然语言因子转化为高性能可执行的 Dlang 公式代码。DolphinDB 的脚本语言 Dlang 以其高性能和向量化计算著称，底层大模型的"理解-生成"能力直接决定了工具体验。

在换装 Gemini 3 后，我们对 Dlang 代码生成逻辑的正确率进行了严格的 Benchmark 测试。在 1481 个覆盖各类金融计算场景的测试问题中，相较 DeepSeek R1，Gemini 3 代码逻辑正确率从 17% 提升至 34%，这一跃升，正是 Starfish AI 性能突破的来源。简而言之，Gemini 3 有 1/3 的概率给出可直接运行的正确代码，其余情况也提供高度可用的逻辑框架。

需要强调的是，34%并非理论上限。随着 DolphinDB 将更多 Dlang 最佳实践、金融计算范式作为领域知识注入训练流程，该数字仍会持续攀升——工具的效率飞跃，本质上源于底层模型的“脑力”升级。

03 Starfish AI: “理解”的再进化

Gemini 3 的引入显著增强了 Starfish AI 研报分析助手的因子挖掘能力——其语义理解更深、代码逻辑更准、迭代效率更高。但这一功能仅是 Starfish AI 能力矩阵中的一个切面。Starfish AI 是 DolphinDB 面向量化投研构建的端到端解决方案，覆盖因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节，形成从因子研究到策略执行的完整闭环。在此基础上，其 AI 能力矩阵已实现因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写等智能化升级。

DolphinDB 与前沿大模型深度融合，使得量化研究的效率边界发生了实质性拓展。目前 Starfish AI 已面向专业金融机构开放试用，欢迎申请试用https://dolphindb.cn/product。