Gemini 3.0 实测：迭代效率提升174%、正确率97%，DolphinDB AI Agent 迎来“跃迁时刻”！

本页介绍研报因子复现的痛点、Starfish AI 研报分析助手的定位，并汇总接入 Gemini 3 后的测试提升指标与对比结果。

Source: https://dolphindb.cn/blogs/273

What this page covers

培训营报名提示与报名链接入口
研报因子复现背景、工具定位与核心实测指标
上传研报到因子挖掘、代码生成与回测展示流程
Gemini 3 与 DeepSeek 的测试设计与对比结果
Dlang 代码生成 Benchmark 结果与原因说明
Starfish AI 能力矩阵概述与试用申请入口

技能认证特训营第二期报名宣传

页面顶部提供培训营开营信息与限时报名链接提示。

提供“技能认证特训营第二期”的报名入口信息。
报名链接指向指定的活动页面。

Gemini 3.0 实测结论与背景问题

该部分说明传统研报因子复现的痛点，介绍 Starfish AI 工具定位，并概述接入 Gemini 3 后的测试提升指标。

Starfish AI 研报分析助手定位为智能研报因子挖掘与分析工具。
该工具由 DolphinDB 研发。
端到端流程包括上传研报、解析因子、生成代码、回测评价、输出报告。
旧版在生产场景中平均需 6.8 次迭代才能得到可运行代码。
旧版生成代码中“符合真实研报逻辑且能够运行”的正确率为 20%。

Gemini 3 实测：因子挖掘流程与能力展示

该部分以界面与流程为线索，展示上传研报、因子列表管理、代码生成与回测可视化等功能。

用户可直接上传 PDF 研报以创建分析任务。
创建任务时，PDF 最大支持 10MB。
系统展示挖掘到的因子名称及逻辑描述。
因子列表支持编辑操作。
因子列表支持删除操作。
页面展示因子基本信息与研究假设等内容。
页面记录代码运行历史与迭代状态。
回测与可视化包含 IC 分析与分组回测展示。

对比测试设计与结果（Gemini 3 vs DeepSeek）

该部分描述对比测试的基准与条件，并给出因子覆盖率、代码生成成功率、平均迭代次数与真实复现成功率等结果。

对比参照模型包含 DeepSeek V3.1。
对比前基于 DeepSeek V3.1 完成提示词与流程优化。
测试集选取 20 份样本外研报并覆盖多种研报风格。
测试在相同硬件环境、数据源与回测框架下进行。
Gemini 3 在完整性测试中识别 247 个因子，约 96% 覆盖率。
DeepSeek V3.1 在完整性测试中的因子覆盖率为 76%。
Gemini 3 针对 247 个测试因子成功生成 240 个代码，成功率 97%。
Gemini 3 平均迭代次数为 2.33 次。

Dlang 脚本代码生成 Benchmark 与原因解释

该部分说明 Starfish AI 的自然语言到 Dlang 转换能力，并给出 Dlang 代码生成 Benchmark 的对比结果与后续提升预期。

Starfish AI 核心能力是将自然语言因子转为可执行的 Dlang 公式代码。
Dlang 是 DolphinDB 脚本语言，以高性能与向量化计算著称。
Benchmark 包含 1481 个覆盖金融计算场景的测试问题。
Benchmark 的对比模型包括 DeepSeek R1。
文中给出 Gemini 3 的逻辑正确率从 17% 提升至 34%（相对 DeepSeek R1）。

Starfish AI 能力矩阵与试用入口

该部分概述 Starfish AI 的端到端量化投研闭环覆盖范围，并提供面向金融机构的试用申请入口。

Starfish AI 是 DolphinDB 面向量化投研构建的端到端解决方案。
覆盖因子计算、评价分析、策略回测、绩效归因与工作流管理等环节。
文中列举的 AI 能力包括因子代码自动生成。
产品已面向专业金融机构开放试用。
试用申请入口为 https://dolphindb.cn/product 。

Facts index

Entity	Attribute	Value	Confidence
技能认证特训营第二期	报名链接	https://www.qingsuyun.com/h5/e/217471/5/	high
文章发布日期	date	2025-12-01	high
DolphinDB	author/byline	DolphinDB dingyi	high
Starfish AI 研报分析助手	开发方	DolphinDB 研发	high
Starfish AI 研报分析助手	定位/用途	智能研报因子挖掘与分析工具	high
Starfish AI 研报分析助手	接入大模型	DeepSeek 大模型（综合性能较高）	medium
Starfish AI 研报分析助手	端到端流程	上传研报→解析因子→生成代码→回测评价→输出报告	high
旧版 Starfish AI 上线生产问题	平均迭代次数	平均需 6.8 次迭代才能得到可运行代码	high
旧版 Starfish AI 生成代码	正确率（符合真实研报逻辑且能够运行）	20%	high
旧版 Starfish AI	问题	模型对研报语言理解偏差导致部分因子被疏漏	medium
Gemini 3	发布时间（文中描述）	11 月发布	medium
Gemini 3 接入后测试集	研报数量与覆盖范围	挑选 20 份覆盖不同风格研报作为测试集	high
Gemini 3 加持下 Starfish AI	因子代码跑通率/语法正确率	97%	high
Gemini 3 加持下 Starfish AI	代码逻辑准确率	50%	high
Gemini 3 加持下 Starfish AI	平均迭代效率提升	174%	high
Starfish AI 研报分析助手	输入方式	用户可直接上传 PDF 研报，系统自动完成因子识别与代码生成	high
Starfish AI 创建任务界面	上传文件限制	PDF 最大支持 10MB	high
Starfish AI 因子列表管理界面	展示内容与操作	列出挖掘到的因子名称及逻辑描述，支持编辑或删除	high
Starfish AI 因子评价与代码生成页面	展示内容	包含因子基本信息、研究假设、逻辑解释、数学公式；记录代码运行历史与基于 DolphinDB 语言生成脚本及迭代状态	medium
Starfish AI 回测与可视化	分析内容	IC 分析与分组回测可视化；包含不同持有期 IC 均值、T 统计量等指标与时序波动、分组超额收益净值走势	medium
对比参照模型	模型名称	DeepSeek V3.1	high
对比测试准备	优化基础	基于 DeepSeek V3.1 完成提示词和流程优化后再进行对比测试	high
对比测试集	样本说明	选取 20 份样本外研报（覆盖动量、价值、事件驱动等风格）	high
对比测试条件	控制变量	相同硬件环境、数据源、回测框架下运行 Gemini 3 与 DeepSeek V3.1	high
对比测试指标	记录项	因子挖掘成功率、迭代次数、代码正确率等核心指标	high
Gemini 3 因子覆盖完整性	识别因子数量/覆盖率	识别 247 个因子，约 96%（247/250）	high
DeepSeek V3.1 因子覆盖完整性	覆盖率	76%	high
Gemini 3 代码生成（针对 247 个测试因子）	成功生成数量/成功率	成功生成 240 个，成功率 97%	high
DeepSeek V3.1 代码生成	成功率与样本计数（文中给出）	89%（172/192）	high
Gemini 3 迭代次数	平均迭代次数	2.33 次	high
DeepSeek V3.1 迭代次数	平均迭代次数	6.3 次	high
Gemini 3 迭代效率提升（相对 DeepSeek V3.1）	提升幅度	174%	high
真实因子复现测试（人工抽样）	抽样方法	人工抽样 15 篇研报各一个因子进行测试	high
Gemini 3 真实因子复现成功率（人工抽样）	成功率	约 50%	high
DeepSeek 真实因子复现成功率（人工抽样）	成功率	约 20%	high
Gemini 3 与 DeepSeek V3.1 对比表（图片说明中给出）	Gemini 3 代码生成成功率	97.17%	medium
Gemini 3 优势点（定性）	严谨性/忠于原文	在因子公式复现环节更准确复现研报数学表达，避免 DeepSeek 常见“简化公式”倾向	medium
Gemini 3 生成 DolphinDB 代码常见错误	错误类型	对部分 DolphinDB 函数参数个数和入参形式不够熟悉；通常 1–2 次迭代内可修复	medium
Gemini 3 在少数场景的不足	行为/偏差	可能引入不必要的滚动窗口；未最优使用 mbeta、mcorr 等内置函数而采用复杂步骤；对 context by + interval 分组逻辑理解偶有偏差	medium
量化投研使用方式建议	协同模式	复杂公式理解仍需“人+AI”协同，人类专家负责创造性判断与风险校验最后关卡	medium
Starfish AI 核心能力	能力描述	将自然语言因子转化为高性能可执行的 Dlang 公式代码	high
Dlang（DolphinDB 脚本语言）	特点	以高性能和向量化计算著称	high
Dlang 代码生成 Benchmark	测试规模	1481 个覆盖各类金融计算场景的测试问题	high
对比模型（Dlang 代码生成 Benchmark）	模型名称	DeepSeek R1	high
Gemini 3 Dlang 代码逻辑正确率（相对 DeepSeek R1）	提升幅度	从 17% 提升至 34%	high
Gemini 3 Dlang 代码输出可用性（文中表述）	概率性描述	约 1/3 概率给出可直接运行的正确代码；其余情况提供高度可用的逻辑框架	medium
Dlang 代码逻辑正确率（34%）	后续提升可能性	随着注入更多 Dlang 最佳实践与金融计算范式作为领域知识，该数字仍会持续攀升（非理论上限）	low
Starfish AI	产品定位	DolphinDB 面向量化投研构建的端到端解决方案	high
Starfish AI	覆盖环节	因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节，形成从因子研究到策略执行的闭环	high
Starfish AI AI 能力矩阵（文中列举）	已实现能力	因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写	high
Starfish AI	试用状态与受众	已面向专业金融机构开放试用	high
Starfish AI 试用申请	URL	https://dolphindb.cn/product	high