Gemini 3.0 实测:迭代效率提升174%、正确率97%,DolphinDB AI Agent 迎来“跃迁时刻”!

本页介绍研报因子复现的痛点,并概述 Starfish AI 研报分析助手的定位与端到端流程。

Source: https://dolphindb.cn/news/detail/420

What this page covers

技能认证特训营第二期报名入口与福利提示

页面顶部提供限时报名链接并提示可享专属福利优惠。

新闻页标题与发布日期

新闻条目的标题与发布时间信息。

背景:研报因子复现痛点与 Starfish AI 工具定位

说明传统研报复现方式的低效与易遗漏,并介绍 Starfish AI 作为智能研报因子挖掘与分析工具及其端到端流程。

接入 Gemini 3 的测试集与总体结果

描述选择研报测试集与对因子复现、代码生成和准确度的测试,并给出接入 Gemini 3 后的核心指标提升结果。

01 Gemini 3 实测:Starfish AI 因子挖掘流程与界面示例

展示上传研报、因子识别、代码生成与回测可视化等流程界面及说明。

Gemini 3 vs DeepSeek V3.1:对比测试设置与核心指标

说明以 DeepSeek V3.1 为对比参照、测试集构成与记录指标,并列出在覆盖完整性、代码生成成功率、迭代次数与真实复现成功率方面的对比结果。

对比表与细节观察:优势与常见问题

通过对比表与案例说明 Gemini 3 在忠于原文与公式/代码复现上的优势,同时指出少数场景下的理解与实现偏差及需要人机协同校验。

02 Dlang 脚本代码生成 Benchmark 与提升来源

阐述 Starfish AI 将自然语言因子转为可执行 Dlang 代码的能力,并给出 Benchmark 测试中 Gemini 3 相对 DeepSeek R1 的正确率提升与未来提升路径。

03 Starfish AI:能力矩阵与试用入口

描述 Starfish AI 作为面向量化投研的端到端解决方案的覆盖范围与智能化能力,并提供面向专业金融机构的试用申请入口。

Facts Index

Entity Attribute Value Confidence
技能认证特训营第二期限时报名报名链接https://www.qingsuyun.com/h5/e/217471/5/high
新闻条目发布日期2025.11.28high
Starfish AI 研报分析助手开发方DolphinDB 研发high
Starfish AI 研报分析助手定位/类型智能研报因子挖掘与分析工具high
Starfish AI 研报分析助手接入的大模型DeepSeek 大模型(文中称综合性能较高)medium
Starfish AI 研报分析助手端到端流程上传研报→解析因子→生成代码→回测评价→输出报告high
(此前版本)Starfish AI 研报分析助手得到可运行代码所需平均迭代次数平均需 6.8 次迭代high
(此前版本)Starfish AI 研报分析助手生成代码符合真实研报逻辑且能够运行的比例20%high
大模型自动复现研报(一般情况)主要阻碍代码逻辑不准确、耗时长,阻碍从实验走向生产medium
(此前版本)模型对研报语言的理解影响理解偏差导致部分因子被疏漏medium
Gemini 3发布时间(相对描述)11 月发布medium
Gemini 3 接入后的测试(文中一次测试)测试集规模与构成挑选 20 份覆盖不同风格的研报作为测试集high
Starfish AI 研报分析助手(Gemini 3 加持下)因子代码跑通率(语法正确率)97%high
Starfish AI 研报分析助手(Gemini 3 加持下)代码逻辑准确率50%high
Starfish AI 研报分析助手(Gemini 3 加持下)平均迭代效率提升提升 174%high
Starfish AI 研报分析助手支持上传研报格式用户可直接上传 PDF 研报high
上传研报(创建任务界面说明)文件大小限制最大支持 10MBhigh
Starfish AI 系统(因子识别界面说明)输出内容自动识别因子列表及其描述,用户可勾选所需因子并配置数据库源medium
Starfish AI(因子评价与代码生成详情页说明)页面展示内容展示因子基本信息、逻辑解释、数学公式及自动生成的 DolphinDB 代码运行历史medium
Starfish AI(IC 分析与回测界面说明)可视化与指标表格列出不同预测周期(1D、5D、10D)的 IC 均值、标准差等指标,并展示 IC 历史走势与分组超额收益净值曲线medium
对比参照模型模型名称DeepSeek V3.1high
对比测试设置前置工作在基于 DeepSeek V3.1 完成提示词和流程优化后进行对比测试high
对比测试集规模与风格覆盖选取 20 份样本外研报,覆盖动量、价值、事件驱动等风格high
对比实验条件一致性条件相同硬件环境、数据源、回测框架下分别运行 Gemini 3 与 DeepSeek V3.1high
Gemini 3(因子覆盖完整性)识别因子数识别出 20 份研报中的 247 个因子high
Gemini 3(因子覆盖完整性)覆盖比例约 96%(247/250)high
DeepSeek V3.1(因子覆盖完整性)覆盖比例76%high
Gemini 3(代码生成)测试因子数针对 247 个测试因子high
Gemini 3(代码生成)成功生成代码数量240 个high
Gemini 3(代码生成)成功率97%high
DeepSeek V3.1(代码生成)成功率与计数89%(172/192)high
Gemini 3(迭代次数)平均迭代次数2.33 次high
DeepSeek V3.1(迭代次数)平均迭代次数6.3 次high
迭代效率对比(Gemini 3 相对 DeepSeek V3.1)效率提升提升 174%high
真实因子复现测试(人工抽样)抽样方法人工抽样 15 篇研报,各取一个因子进行测试high
Gemini 3(真实因子复现)实际成功率约 50%high
DeepSeek(真实因子复现)实际成功率约 20%high
Gemini 3(对比表说明)代码生成成功率(精确值)97.17%high
Gemini 3(对比表说明)平均迭代次数(对比表口径)2.33 次high
Gemini 3 相对 DeepSeek 的优势(细节观察)优势点更“忠于原文”,在因子公式复现更准确,代码复现成功率更高且逻辑与研报更一致medium
Gemini 3 在代码复现时的常见错误错误类型对部分 DolphinDB 函数的参数个数和入参形式不够熟悉medium
Gemini 3(错误修复迭代)通常所需迭代次数通常在 1–2 次迭代内即可修复medium
Gemini 3(极少数场景)可能的问题会引入不必要的滚动窗口,或未最优使用 mbeta、mcorr 等内置函数而采用复杂计算步骤,对 context by + interval 等分组逻辑理解偶有偏差medium
量化投研中的使用模式建议协作方式复杂公式理解仍需“人+AI”协同,人类专家需进行创造性判断与风险校验medium
Starfish AI 研报分析助手核心能力将自然语言因子转化为高性能可执行的 Dlang 公式代码high
DolphinDB 脚本语言 Dlang特点高性能和向量化计算high
Dlang 代码生成 Benchmark测试问题数量1481 个(覆盖各类金融计算场景)high
Benchmark 对比对象模型名称DeepSeek R1high
Gemini 3(Dlang 代码逻辑正确率)正确率(Benchmark)34%high
DeepSeek R1(Dlang 代码逻辑正确率)正确率(Benchmark)17%high
Gemini 3(Dlang 代码生成可用性解释)可直接运行正确代码的概率约 1/3 的概率给出可直接运行的正确代码,其余情况提供高度可用的逻辑框架medium
DolphinDB 对 Dlang 训练流程可能提升方向将更多 Dlang 最佳实践与金融计算范式作为领域知识注入训练流程,34% 仍会持续攀升low
Starfish AI定位DolphinDB 面向量化投研构建的端到端解决方案high
Starfish AI覆盖环节因子计算、评价分析、策略回测、绩效归因及工作流管理等核心环节high
Starfish AI(AI 能力矩阵)已实现能力因子代码自动生成、策略逻辑一键转化、数据分析脚本智能编写等智能化升级high
Starfish AI 试用开放对象目标用户专业金融机构high
Starfish AI 试用申请入口URLhttps://dolphindb.cn/producthigh