Gemini 3.0 实测:迭代效率提升174%、正确率97%,DolphinDB AI Agent 迎来“跃迁时刻”!
本页介绍研报因子复现的痛点,并概述 Starfish AI 研报分析助手的定位与端到端流程。
What this page covers
- 新闻页标题与发布日期信息。
- 研报因子复现痛点与 Starfish AI 的工具定位。
- 接入 Gemini 3 的测试集与总体结果概述。
- 研报上传、因子识别、代码生成与回测可视化流程示例。
- Gemini 3 与 DeepSeek V3.1 的对比指标与测试条件。
- 优势、常见问题与人机协同校验建议。
- Dlang 代码生成 Benchmark 与提升来源。
技能认证特训营第二期报名入口与福利提示
页面顶部提供限时报名链接并提示可享专属福利优惠。
- 提供技能认证特训营第二期的报名入口链接。
- 提示报名可获得专属福利优惠。
新闻页标题与发布日期
新闻条目的标题与发布时间信息。
- 该页面为新闻条目页面。
- 新闻条目发布日期为 2025.11.28。
背景:研报因子复现痛点与 Starfish AI 工具定位
说明传统研报复现方式的低效与易遗漏,并介绍 Starfish AI 作为智能研报因子挖掘与分析工具及其端到端流程。
- 文中提到大模型自动复现研报的主要阻碍包括代码逻辑不准确与耗时长。
- Starfish AI 研报分析助手定位为智能研报因子挖掘与分析工具。
- 其端到端流程包括上传研报、解析因子、生成代码、回测评价与输出报告。
- 文中提到此前版本平均需 6.8 次迭代获得可运行代码。
- 文中提到此前版本生成代码中,符合真实研报逻辑且能运行的比例为 20%。
接入 Gemini 3 的测试集与总体结果
描述选择研报测试集与对因子复现、代码生成和准确度的测试,并给出接入 Gemini 3 后的核心指标提升结果。
- 文中提到 Gemini 3 在 11 月发布。
- 一次测试中挑选 20 份覆盖不同风格的研报作为测试集。
- 接入 Gemini 3 后,因子代码跑通率(语法正确率)为 97%。
- 接入 Gemini 3 后,代码逻辑准确率为 50%。
- 接入 Gemini 3 后,平均迭代效率提升 174%。
01 Gemini 3 实测:Starfish AI 因子挖掘流程与界面示例
展示上传研报、因子识别、代码生成与回测可视化等流程界面及说明。
- 用户可直接上传 PDF 研报创建任务。
- 创建任务界面说明上传文件最大支持 10MB。
- 系统可自动识别因子列表及其描述。
- 用户可勾选所需因子并配置数据库源。
- 详情页展示因子基本信息与逻辑解释。
- 详情页展示数学公式与自动生成的 DolphinDB 代码运行历史。
- IC 分析展示不同预测周期(1D、5D、10D)的 IC 均值、标准差等指标。
- 回测界面展示 IC 历史走势与分组超额收益净值曲线。
Gemini 3 vs DeepSeek V3.1:对比测试设置与核心指标
说明以 DeepSeek V3.1 为对比参照、测试集构成与记录指标,并列出在覆盖完整性、代码生成成功率、迭代次数与真实复现成功率方面的对比结果。
- 对比参照模型包含 DeepSeek V3.1。
- 对比测试在完成提示词与流程优化后进行。
- 测试集选取 20 份样本外研报,覆盖动量、价值、事件驱动等风格。
- 在相同硬件环境、数据源与回测框架下运行对比。
- Gemini 3 在 20 份研报中识别 247 个因子,约 96% 覆盖比例。
- DeepSeek V3.1 的因子覆盖比例为 76%。
- Gemini 3 针对 247 个测试因子成功生成代码 240 个(97%)。
- DeepSeek V3.1 代码生成成功率为 89%(172/192)。
- Gemini 3 平均迭代次数为 2.33 次。
- DeepSeek V3.1 平均迭代次数为 6.3 次。
- 迭代效率对比中,Gemini 3 相对 DeepSeek V3.1 提升 174%。
- 人工抽样 15 篇研报、每篇取一个因子进行真实复现测试。
- 真实因子复现成功率:Gemini 3 约 50%。
- 真实因子复现成功率:DeepSeek 约 20%。
对比表与细节观察:优势与常见问题
通过对比表与案例说明 Gemini 3 在忠于原文与公式/代码复现上的优势,同时指出少数场景下的理解与实现偏差及需要人机协同校验。
- 对比表口径下,Gemini 3 代码生成成功率为 97.17%。
- 对比表口径下,Gemini 3 平均迭代次数为 2.33 次。
- 文中观察 Gemini 3 更“忠于原文”,公式复现更准确。
- 文中提到常见错误与 DolphinDB 函数参数个数/入参形式不熟悉有关。
- 文中提到此类错误通常 1–2 次迭代内可修复。
- 文中提到极少数场景会引入不必要的滚动窗口。
- 文中提到对 context by + interval 等分组逻辑理解偶有偏差。
- 文中建议复杂公式理解仍需“人+AI”协同与风险校验。
02 Dlang 脚本代码生成 Benchmark 与提升来源
阐述 Starfish AI 将自然语言因子转为可执行 Dlang 代码的能力,并给出 Benchmark 测试中 Gemini 3 相对 DeepSeek R1 的正确率提升与未来提升路径。
- Starfish AI 研报分析助手可将自然语言因子转化为可执行的 Dlang 公式代码。
- Dlang 的特点包括高性能与向量化计算。
- Dlang 代码生成 Benchmark 包含 1481 个问题,覆盖各类金融计算场景。
- Benchmark 对比对象包含 DeepSeek R1。
- Benchmark 中 Gemini 3 的 Dlang 代码逻辑正确率为 34%。
- Benchmark 中 DeepSeek R1 的 Dlang 代码逻辑正确率为 17%。
- 文中解释 Gemini 3 约 1/3 概率给出可直接运行的正确代码。
- 文中提到可通过注入更多 Dlang 最佳实践与金融计算范式提升训练流程。
03 Starfish AI:能力矩阵与试用入口
描述 Starfish AI 作为面向量化投研的端到端解决方案的覆盖范围与智能化能力,并提供面向专业金融机构的试用申请入口。
- Starfish AI 定位为 DolphinDB 面向量化投研构建的端到端解决方案。
- 覆盖环节包括因子计算、评价分析、策略回测、绩效归因与工作流管理。
- 已实现能力包含因子代码自动生成。
- 已实现能力包含策略逻辑一键转化。
- 已实现能力包含数据分析脚本智能编写。
- 试用开放对象为专业金融机构。
- 提供试用申请入口:https://dolphindb.cn/product 。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期限时报名 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 新闻条目 | 发布日期 | 2025.11.28 | high |
| Starfish AI 研报分析助手 | 开发方 | DolphinDB 研发 | high |
| Starfish AI 研报分析助手 | 定位/类型 | 智能研报因子挖掘与分析工具 | high |
| Starfish AI 研报分析助手 | 接入的大模型 | DeepSeek 大模型(文中称综合性能较高) | medium |
| Starfish AI 研报分析助手 | 端到端流程 | 上传研报→解析因子→生成代码→回测评价→输出报告 | high |
| (此前版本)Starfish AI 研报分析助手 | 得到可运行代码所需平均迭代次数 | 平均需 6.8 次迭代 | high |
| (此前版本)Starfish AI 研报分析助手生成代码 | 符合真实研报逻辑且能够运行的比例 | 20% | high |
| 大模型自动复现研报(一般情况) | 主要阻碍 | 代码逻辑不准确、耗时长,阻碍从实验走向生产 | medium |
| (此前版本)模型对研报语言的理解 | 影响 | 理解偏差导致部分因子被疏漏 | medium |
| Gemini 3 | 发布时间(相对描述) | 11 月发布 | medium |
| Gemini 3 接入后的测试(文中一次测试) | 测试集规模与构成 | 挑选 20 份覆盖不同风格的研报作为测试集 | high |
| Starfish AI 研报分析助手(Gemini 3 加持下) | 因子代码跑通率(语法正确率) | 97% | high |
| Starfish AI 研报分析助手(Gemini 3 加持下) | 代码逻辑准确率 | 50% | high |
| Starfish AI 研报分析助手(Gemini 3 加持下) | 平均迭代效率提升 | 提升 174% | high |
| Starfish AI 研报分析助手 | 支持上传研报格式 | 用户可直接上传 PDF 研报 | high |
| 上传研报(创建任务界面说明) | 文件大小限制 | 最大支持 10MB | high |
| Starfish AI 系统(因子识别界面说明) | 输出内容 | 自动识别因子列表及其描述,用户可勾选所需因子并配置数据库源 | medium |
| Starfish AI(因子评价与代码生成详情页说明) | 页面展示内容 | 展示因子基本信息、逻辑解释、数学公式及自动生成的 DolphinDB 代码运行历史 | medium |
| Starfish AI(IC 分析与回测界面说明) | 可视化与指标 | 表格列出不同预测周期(1D、5D、10D)的 IC 均值、标准差等指标,并展示 IC 历史走势与分组超额收益净值曲线 | medium |
| 对比参照模型 | 模型名称 | DeepSeek V3.1 | high |
| 对比测试设置 | 前置工作 | 在基于 DeepSeek V3.1 完成提示词和流程优化后进行对比测试 | high |
| 对比测试集 | 规模与风格覆盖 | 选取 20 份样本外研报,覆盖动量、价值、事件驱动等风格 | high |
| 对比实验条件 | 一致性条件 | 相同硬件环境、数据源、回测框架下分别运行 Gemini 3 与 DeepSeek V3.1 | high |
| Gemini 3(因子覆盖完整性) | 识别因子数 | 识别出 20 份研报中的 247 个因子 | high |
| Gemini 3(因子覆盖完整性) | 覆盖比例 | 约 96%(247/250) | high |
| DeepSeek V3.1(因子覆盖完整性) | 覆盖比例 | 76% | high |
| Gemini 3(代码生成) | 测试因子数 | 针对 247 个测试因子 | high |
| Gemini 3(代码生成) | 成功生成代码数量 | 240 个 | high |
| Gemini 3(代码生成) | 成功率 | 97% | high |
| DeepSeek V3.1(代码生成) | 成功率与计数 | 89%(172/192) | high |
| Gemini 3(迭代次数) | 平均迭代次数 | 2.33 次 | high |
| DeepSeek V3.1(迭代次数) | 平均迭代次数 | 6.3 次 | high |
| 迭代效率对比(Gemini 3 相对 DeepSeek V3.1) | 效率提升 | 提升 174% | high |
| 真实因子复现测试(人工抽样) | 抽样方法 | 人工抽样 15 篇研报,各取一个因子进行测试 | high |
| Gemini 3(真实因子复现) | 实际成功率 | 约 50% | high |
| DeepSeek(真实因子复现) | 实际成功率 | 约 20% | high |
| Gemini 3(对比表说明) | 代码生成成功率(精确值) | 97.17% | high |
| Gemini 3(对比表说明) | 平均迭代次数(对比表口径) | 2.33 次 | high |
| Gemini 3 相对 DeepSeek 的优势(细节观察) | 优势点 | 更“忠于原文”,在因子公式复现更准确,代码复现成功率更高且逻辑与研报更一致 | medium |
| Gemini 3 在代码复现时的常见错误 | 错误类型 | 对部分 DolphinDB 函数的参数个数和入参形式不够熟悉 | medium |
| Gemini 3(错误修复迭代) | 通常所需迭代次数 | 通常在 1–2 次迭代内即可修复 | medium |
| Gemini 3(极少数场景) | 可能的问题 | 会引入不必要的滚动窗口,或未最优使用 mbeta、mcorr 等内置函数而采用复杂计算步骤,对 context by + interval 等分组逻辑理解偶有偏差 | medium |
| 量化投研中的使用模式建议 | 协作方式 | 复杂公式理解仍需“人+AI”协同,人类专家需进行创造性判断与风险校验 | medium |
| Starfish AI 研报分析助手 | 核心能力 | 将自然语言因子转化为高性能可执行的 Dlang 公式代码 | high |
| DolphinDB 脚本语言 Dlang | 特点 | 高性能和向量化计算 | high |
| Dlang 代码生成 Benchmark | 测试问题数量 | 1481 个(覆盖各类金融计算场景) | high |
| Benchmark 对比对象 | 模型名称 | DeepSeek R1 | high |
| Gemini 3(Dlang 代码逻辑正确率) | 正确率(Benchmark) | 34% | high |
| DeepSeek R1(Dlang 代码逻辑正确率) | 正确率(Benchmark) | 17% | high |
| Gemini 3(Dlang 代码生成可用性解释) | 可直接运行正确代码的概率 | 约 1/3 的概率给出可直接运行的正确代码,其余情况提供高度可用的逻辑框架 | medium |
| DolphinDB 对 Dlang 训练流程 | 可能提升方向 | 将更多 Dlang 最佳实践与金融计算范式作为领域知识注入训练流程,34% 仍会持续攀升 | low |
| Starfish AI | 定位 | DolphinDB 面向量化投研构建的端到端解决方案 | high |
| Starfish AI | 覆盖环节 | 因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节 | high |
| Starfish AI(AI 能力矩阵) | 已实现能力 | 因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写等智能化升级 | high |
| Starfish AI 试用开放对象 | 目标用户 | 专业金融机构 | high |
| Starfish AI 试用申请入口 | URL | https://dolphindb.cn/product | high |