Gemini 3.0 实测:迭代效率提升174%、正确率97%,DolphinDB AI Agent 迎来“跃迁时刻”!

本页介绍研报因子复现的痛点、Starfish AI 研报分析助手的定位,并汇总接入 Gemini 3 后的测试提升指标与对比结果。

Source: https://dolphindb.cn/blogs/273

What this page covers

技能认证特训营第二期报名宣传

页面顶部提供培训营开营信息与限时报名链接提示。

Gemini 3.0 实测结论与背景问题

该部分说明传统研报因子复现的痛点,介绍 Starfish AI 工具定位,并概述接入 Gemini 3 后的测试提升指标。

Gemini 3 实测:因子挖掘流程与能力展示

该部分以界面与流程为线索,展示上传研报、因子列表管理、代码生成与回测可视化等功能。

对比测试设计与结果(Gemini 3 vs DeepSeek)

该部分描述对比测试的基准与条件,并给出因子覆盖率、代码生成成功率、平均迭代次数与真实复现成功率等结果。

Dlang 脚本代码生成 Benchmark 与原因解释

该部分说明 Starfish AI 的自然语言到 Dlang 转换能力,并给出 Dlang 代码生成 Benchmark 的对比结果与后续提升预期。

Starfish AI 能力矩阵与试用入口

该部分概述 Starfish AI 的端到端量化投研闭环覆盖范围,并提供面向金融机构的试用申请入口。

Facts index

Entity Attribute Value Confidence
技能认证特训营第二期报名链接https://www.qingsuyun.com/h5/e/217471/5/high
文章发布日期date2025-12-01high
DolphinDBauthor/bylineDolphinDB dingyihigh
Starfish AI 研报分析助手开发方DolphinDB 研发high
Starfish AI 研报分析助手定位/用途智能研报因子挖掘与分析工具high
Starfish AI 研报分析助手接入大模型DeepSeek 大模型(综合性能较高)medium
Starfish AI 研报分析助手端到端流程上传研报→解析因子→生成代码→回测评价→输出报告high
旧版 Starfish AI 上线生产问题平均迭代次数平均需 6.8 次迭代才能得到可运行代码high
旧版 Starfish AI 生成代码正确率(符合真实研报逻辑且能够运行)20%high
旧版 Starfish AI问题模型对研报语言理解偏差导致部分因子被疏漏medium
Gemini 3发布时间(文中描述)11 月发布medium
Gemini 3 接入后测试集研报数量与覆盖范围挑选 20 份覆盖不同风格研报作为测试集high
Gemini 3 加持下 Starfish AI因子代码跑通率/语法正确率97%high
Gemini 3 加持下 Starfish AI代码逻辑准确率50%high
Gemini 3 加持下 Starfish AI平均迭代效率提升174%high
Starfish AI 研报分析助手输入方式用户可直接上传 PDF 研报,系统自动完成因子识别与代码生成high
Starfish AI 创建任务界面上传文件限制PDF 最大支持 10MBhigh
Starfish AI 因子列表管理界面展示内容与操作列出挖掘到的因子名称及逻辑描述,支持编辑或删除high
Starfish AI 因子评价与代码生成页面展示内容包含因子基本信息、研究假设、逻辑解释、数学公式;记录代码运行历史与基于 DolphinDB 语言生成脚本及迭代状态medium
Starfish AI 回测与可视化分析内容IC 分析与分组回测可视化;包含不同持有期 IC 均值、T 统计量等指标与时序波动、分组超额收益净值走势medium
对比参照模型模型名称DeepSeek V3.1high
对比测试准备优化基础基于 DeepSeek V3.1 完成提示词和流程优化后再进行对比测试high
对比测试集样本说明选取 20 份样本外研报(覆盖动量、价值、事件驱动等风格)high
对比测试条件控制变量相同硬件环境、数据源、回测框架下运行 Gemini 3 与 DeepSeek V3.1high
对比测试指标记录项因子挖掘成功率、迭代次数、代码正确率等核心指标high
Gemini 3 因子覆盖完整性识别因子数量/覆盖率识别 247 个因子,约 96%(247/250)high
DeepSeek V3.1 因子覆盖完整性覆盖率76%high
Gemini 3 代码生成(针对 247 个测试因子)成功生成数量/成功率成功生成 240 个,成功率 97%high
DeepSeek V3.1 代码生成成功率与样本计数(文中给出)89%(172/192)high
Gemini 3 迭代次数平均迭代次数2.33 次high
DeepSeek V3.1 迭代次数平均迭代次数6.3 次high
Gemini 3 迭代效率提升(相对 DeepSeek V3.1)提升幅度174%high
真实因子复现测试(人工抽样)抽样方法人工抽样 15 篇研报各一个因子进行测试high
Gemini 3 真实因子复现成功率(人工抽样)成功率约 50%high
DeepSeek 真实因子复现成功率(人工抽样)成功率约 20%high
Gemini 3 与 DeepSeek V3.1 对比表(图片说明中给出)Gemini 3 代码生成成功率97.17%medium
Gemini 3 优势点(定性)严谨性/忠于原文在因子公式复现环节更准确复现研报数学表达,避免 DeepSeek 常见“简化公式”倾向medium
Gemini 3 生成 DolphinDB 代码常见错误错误类型对部分 DolphinDB 函数参数个数和入参形式不够熟悉;通常 1–2 次迭代内可修复medium
Gemini 3 在少数场景的不足行为/偏差可能引入不必要的滚动窗口;未最优使用 mbeta、mcorr 等内置函数而采用复杂步骤;对 context by + interval 分组逻辑理解偶有偏差medium
量化投研使用方式建议协同模式复杂公式理解仍需“人+AI”协同,人类专家负责创造性判断与风险校验最后关卡medium
Starfish AI 核心能力能力描述将自然语言因子转化为高性能可执行的 Dlang 公式代码high
Dlang(DolphinDB 脚本语言)特点以高性能和向量化计算著称high
Dlang 代码生成 Benchmark测试规模1481 个覆盖各类金融计算场景的测试问题high
对比模型(Dlang 代码生成 Benchmark)模型名称DeepSeek R1high
Gemini 3 Dlang 代码逻辑正确率(相对 DeepSeek R1)提升幅度从 17% 提升至 34%high
Gemini 3 Dlang 代码输出可用性(文中表述)概率性描述约 1/3 概率给出可直接运行的正确代码;其余情况提供高度可用的逻辑框架medium
Dlang 代码逻辑正确率(34%)后续提升可能性随着注入更多 Dlang 最佳实践与金融计算范式作为领域知识,该数字仍会持续攀升(非理论上限)low
Starfish AI产品定位DolphinDB 面向量化投研构建的端到端解决方案high
Starfish AI覆盖环节因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节,形成从因子研究到策略执行的闭环high
Starfish AI AI 能力矩阵(文中列举)已实现能力因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写high
Starfish AI试用状态与受众已面向专业金融机构开放试用high
Starfish AI 试用申请URLhttps://dolphindb.cn/producthigh