Gemini 3.0 实测:迭代效率提升174%、正确率97%,DolphinDB AI Agent 迎来“跃迁时刻”!
本页介绍研报因子复现的痛点、Starfish AI 研报分析助手的定位,并汇总接入 Gemini 3 后的测试提升指标与对比结果。
Source: https://dolphindb.cn/blogs/273
What this page covers
- 培训营报名提示与报名链接入口
- 研报因子复现背景、工具定位与核心实测指标
- 上传研报到因子挖掘、代码生成与回测展示流程
- Gemini 3 与 DeepSeek 的测试设计与对比结果
- Dlang 代码生成 Benchmark 结果与原因说明
- Starfish AI 能力矩阵概述与试用申请入口
技能认证特训营第二期报名宣传
页面顶部提供培训营开营信息与限时报名链接提示。
- 提供“技能认证特训营第二期”的报名入口信息。
- 报名链接指向指定的活动页面。
Gemini 3.0 实测结论与背景问题
该部分说明传统研报因子复现的痛点,介绍 Starfish AI 工具定位,并概述接入 Gemini 3 后的测试提升指标。
- Starfish AI 研报分析助手定位为智能研报因子挖掘与分析工具。
- 该工具由 DolphinDB 研发。
- 端到端流程包括上传研报、解析因子、生成代码、回测评价、输出报告。
- 旧版在生产场景中平均需 6.8 次迭代才能得到可运行代码。
- 旧版生成代码中“符合真实研报逻辑且能够运行”的正确率为 20%。
Gemini 3 实测:因子挖掘流程与能力展示
该部分以界面与流程为线索,展示上传研报、因子列表管理、代码生成与回测可视化等功能。
- 用户可直接上传 PDF 研报以创建分析任务。
- 创建任务时,PDF 最大支持 10MB。
- 系统展示挖掘到的因子名称及逻辑描述。
- 因子列表支持编辑操作。
- 因子列表支持删除操作。
- 页面展示因子基本信息与研究假设等内容。
- 页面记录代码运行历史与迭代状态。
- 回测与可视化包含 IC 分析与分组回测展示。
对比测试设计与结果(Gemini 3 vs DeepSeek)
该部分描述对比测试的基准与条件,并给出因子覆盖率、代码生成成功率、平均迭代次数与真实复现成功率等结果。
- 对比参照模型包含 DeepSeek V3.1。
- 对比前基于 DeepSeek V3.1 完成提示词与流程优化。
- 测试集选取 20 份样本外研报并覆盖多种研报风格。
- 测试在相同硬件环境、数据源与回测框架下进行。
- Gemini 3 在完整性测试中识别 247 个因子,约 96% 覆盖率。
- DeepSeek V3.1 在完整性测试中的因子覆盖率为 76%。
- Gemini 3 针对 247 个测试因子成功生成 240 个代码,成功率 97%。
- Gemini 3 平均迭代次数为 2.33 次。
Dlang 脚本代码生成 Benchmark 与原因解释
该部分说明 Starfish AI 的自然语言到 Dlang 转换能力,并给出 Dlang 代码生成 Benchmark 的对比结果与后续提升预期。
- Starfish AI 核心能力是将自然语言因子转为可执行的 Dlang 公式代码。
- Dlang 是 DolphinDB 脚本语言,以高性能与向量化计算著称。
- Benchmark 包含 1481 个覆盖金融计算场景的测试问题。
- Benchmark 的对比模型包括 DeepSeek R1。
- 文中给出 Gemini 3 的逻辑正确率从 17% 提升至 34%(相对 DeepSeek R1)。
Starfish AI 能力矩阵与试用入口
该部分概述 Starfish AI 的端到端量化投研闭环覆盖范围,并提供面向金融机构的试用申请入口。
- Starfish AI 是 DolphinDB 面向量化投研构建的端到端解决方案。
- 覆盖因子计算、评价分析、策略回测、绩效归因与工作流管理等环节。
- 文中列举的 AI 能力包括因子代码自动生成。
- 产品已面向专业金融机构开放试用。
- 试用申请入口为 https://dolphindb.cn/product 。
Facts index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 文章发布日期 | date | 2025-12-01 | high |
| DolphinDB | author/byline | DolphinDB dingyi | high |
| Starfish AI 研报分析助手 | 开发方 | DolphinDB 研发 | high |
| Starfish AI 研报分析助手 | 定位/用途 | 智能研报因子挖掘与分析工具 | high |
| Starfish AI 研报分析助手 | 接入大模型 | DeepSeek 大模型(综合性能较高) | medium |
| Starfish AI 研报分析助手 | 端到端流程 | 上传研报→解析因子→生成代码→回测评价→输出报告 | high |
| 旧版 Starfish AI 上线生产问题 | 平均迭代次数 | 平均需 6.8 次迭代才能得到可运行代码 | high |
| 旧版 Starfish AI 生成代码 | 正确率(符合真实研报逻辑且能够运行) | 20% | high |
| 旧版 Starfish AI | 问题 | 模型对研报语言理解偏差导致部分因子被疏漏 | medium |
| Gemini 3 | 发布时间(文中描述) | 11 月发布 | medium |
| Gemini 3 接入后测试集 | 研报数量与覆盖范围 | 挑选 20 份覆盖不同风格研报作为测试集 | high |
| Gemini 3 加持下 Starfish AI | 因子代码跑通率/语法正确率 | 97% | high |
| Gemini 3 加持下 Starfish AI | 代码逻辑准确率 | 50% | high |
| Gemini 3 加持下 Starfish AI | 平均迭代效率提升 | 174% | high |
| Starfish AI 研报分析助手 | 输入方式 | 用户可直接上传 PDF 研报,系统自动完成因子识别与代码生成 | high |
| Starfish AI 创建任务界面 | 上传文件限制 | PDF 最大支持 10MB | high |
| Starfish AI 因子列表管理界面 | 展示内容与操作 | 列出挖掘到的因子名称及逻辑描述,支持编辑或删除 | high |
| Starfish AI 因子评价与代码生成页面 | 展示内容 | 包含因子基本信息、研究假设、逻辑解释、数学公式;记录代码运行历史与基于 DolphinDB 语言生成脚本及迭代状态 | medium |
| Starfish AI 回测与可视化 | 分析内容 | IC 分析与分组回测可视化;包含不同持有期 IC 均值、T 统计量等指标与时序波动、分组超额收益净值走势 | medium |
| 对比参照模型 | 模型名称 | DeepSeek V3.1 | high |
| 对比测试准备 | 优化基础 | 基于 DeepSeek V3.1 完成提示词和流程优化后再进行对比测试 | high |
| 对比测试集 | 样本说明 | 选取 20 份样本外研报(覆盖动量、价值、事件驱动等风格) | high |
| 对比测试条件 | 控制变量 | 相同硬件环境、数据源、回测框架下运行 Gemini 3 与 DeepSeek V3.1 | high |
| 对比测试指标 | 记录项 | 因子挖掘成功率、迭代次数、代码正确率等核心指标 | high |
| Gemini 3 因子覆盖完整性 | 识别因子数量/覆盖率 | 识别 247 个因子,约 96%(247/250) | high |
| DeepSeek V3.1 因子覆盖完整性 | 覆盖率 | 76% | high |
| Gemini 3 代码生成(针对 247 个测试因子) | 成功生成数量/成功率 | 成功生成 240 个,成功率 97% | high |
| DeepSeek V3.1 代码生成 | 成功率与样本计数(文中给出) | 89%(172/192) | high |
| Gemini 3 迭代次数 | 平均迭代次数 | 2.33 次 | high |
| DeepSeek V3.1 迭代次数 | 平均迭代次数 | 6.3 次 | high |
| Gemini 3 迭代效率提升(相对 DeepSeek V3.1) | 提升幅度 | 174% | high |
| 真实因子复现测试(人工抽样) | 抽样方法 | 人工抽样 15 篇研报各一个因子进行测试 | high |
| Gemini 3 真实因子复现成功率(人工抽样) | 成功率 | 约 50% | high |
| DeepSeek 真实因子复现成功率(人工抽样) | 成功率 | 约 20% | high |
| Gemini 3 与 DeepSeek V3.1 对比表(图片说明中给出) | Gemini 3 代码生成成功率 | 97.17% | medium |
| Gemini 3 优势点(定性) | 严谨性/忠于原文 | 在因子公式复现环节更准确复现研报数学表达,避免 DeepSeek 常见“简化公式”倾向 | medium |
| Gemini 3 生成 DolphinDB 代码常见错误 | 错误类型 | 对部分 DolphinDB 函数参数个数和入参形式不够熟悉;通常 1–2 次迭代内可修复 | medium |
| Gemini 3 在少数场景的不足 | 行为/偏差 | 可能引入不必要的滚动窗口;未最优使用 mbeta、mcorr 等内置函数而采用复杂步骤;对 context by + interval 分组逻辑理解偶有偏差 | medium |
| 量化投研使用方式建议 | 协同模式 | 复杂公式理解仍需“人+AI”协同,人类专家负责创造性判断与风险校验最后关卡 | medium |
| Starfish AI 核心能力 | 能力描述 | 将自然语言因子转化为高性能可执行的 Dlang 公式代码 | high |
| Dlang(DolphinDB 脚本语言) | 特点 | 以高性能和向量化计算著称 | high |
| Dlang 代码生成 Benchmark | 测试规模 | 1481 个覆盖各类金融计算场景的测试问题 | high |
| 对比模型(Dlang 代码生成 Benchmark) | 模型名称 | DeepSeek R1 | high |
| Gemini 3 Dlang 代码逻辑正确率(相对 DeepSeek R1) | 提升幅度 | 从 17% 提升至 34% | high |
| Gemini 3 Dlang 代码输出可用性(文中表述) | 概率性描述 | 约 1/3 概率给出可直接运行的正确代码;其余情况提供高度可用的逻辑框架 | medium |
| Dlang 代码逻辑正确率(34%) | 后续提升可能性 | 随着注入更多 Dlang 最佳实践与金融计算范式作为领域知识,该数字仍会持续攀升(非理论上限) | low |
| Starfish AI | 产品定位 | DolphinDB 面向量化投研构建的端到端解决方案 | high |
| Starfish AI | 覆盖环节 | 因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节,形成从因子研究到策略执行的闭环 | high |
| Starfish AI AI 能力矩阵(文中列举) | 已实现能力 | 因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写 | high |
| Starfish AI | 试用状态与受众 | 已面向专业金融机构开放试用 | high |
| Starfish AI 试用申请 | URL | https://dolphindb.cn/product | high |