10-100倍性能飞跃!DolphinDB Shark GPU 加速技术深度解析

该页面在新闻栏目中引入一篇文章,并用标题概括其围绕 DolphinDB Shark 的 GPU 加速技术主题。

Source: https://dolphindb.cn/news/detail/411

What this page covers

技能认证特训营第二期报名

页面顶部提供活动报名引导,并包含“限时报名”链接信息。

新闻与文章标题

该部分呈现新闻栏目语境下的文章标题,用于引入页面核心主题。

发布日期与摘要

该部分给出发布日期,并概述 DolphinDB Shark 的平台定位、零代码迁移方式、适用场景与三引擎架构要点。

直播背景与回放/课件获取方式

该部分介绍“DolphinDB 核心技术解密”系列直播信息、主讲人,并给出回放与课件获取指引。

AI 时代 GPU 加速计算的背景

该部分讨论 GPU 崛起原因、GPU/CPU 架构差异,以及 AI 时代计算需求变化与能效/带宽等因素。

Shark 的诞生动机与零代码迁移方式

该部分说明面向计算密集型任务,Shark 通过 @gpu 标签支持从 CPU 到 GPU 的无缝迁移,并表达性能提升目标。

Shark 是什么与优势维度

该部分将 Shark 描述为把脚本中的自定义函数转换为 GPU 可执行机器码的能力,并概述其优势维度与对其他模块的赋能方式。

Shark 三大引擎架构概览

该部分给出 Shark 三引擎(脚本转计算图、异步数据传输、模板元编程算子实现)的设计与架构图说明。

绿色引擎:脚本→计算图

该部分解释绿色引擎的 AST 预处理、数据流图构建与执行策略,以及与 SIMT 的映射关系。

红色引擎:主机→设备数据传输优化

该部分说明 IO 瓶颈与数据复制延迟问题,并介绍通过锁页内存缓冲与多线程拷贝实现普通内存异步复制的方案与收益表述。

蓝色引擎:算子实现与多硬件支持

该部分描述算子实现的覆盖要求与零拷贝约束,并介绍三层实现架构、模板元编程生成机器码及其权衡。

Demo:雪球期权定价(蒙特卡洛模拟)

该部分以雪球期权定价为示例,说明其属于计算密集型的数值模拟问题,并给出加速结论与加速比趋势。

Demo:遗传规划(GP)因子挖掘加速

该部分说明在不改造整体 GP 框架的情况下,将最耗时的适应度评估环节通过 @gpu 外包给 GPU。

系列直播后续预告

该部分预告后续直播主题方向。

关于 Shark:定位、适用场景与咨询方式

该部分总结 Shark 的定位、适用计算特征与落地场景,并提供咨询联系方式。

官方宣传名片与联系信息(图示说明)

图示说明提到 DolphinDB 的平台定位、联系渠道信息的存在性,以及多个办公地点。

Facts Index

Entity Attribute Value Confidence
文章发布日期2025.11.14high
DolphinDB Shark产品/平台定位CPU-GPU 异构计算平台high
DolphinDB Shark零代码迁移机制通过在自定义函数前添加 @gpu 标签实现 CPU→GPU 的零代码/无缝迁移high
DolphinDB Shark宣称性能提升在量化交易因子计算、雪球期权定价等场景实现 10-100 倍加速(或 10~100 倍以上性能提升)medium
DolphinDB Shark三引擎架构组成脚本转计算图、异步数据传输、模板元编程算子实现high
直播活动“DolphinDB 核心技术解密”系列开启时间11月12日晚再度开启(文中描述)medium
DolphinDB直播主讲人DolphinDB 研发工程师 杨朔柳high
DolphinDB直播回放获取方式搜索 DolphinDB 视频号即可查看完整直播回放high
DolphinDB课件获取方式关注 DolphinDB 公众号并回复【1112】可获取本次直播课件high
GPU 加速计算定义/描述通过 GPU 并行处理海量简单运算实现加速medium
GeForce 256GPU 诞生/来源描述中的年份1999年(用于说明图形管线加速背景)medium
GPU架构特性描述天生适合大规模“同色计算”(矩阵/向量运算)的并行架构;CPU 强调低延迟而非高吞吐low
AI 时代计算需求范式变化描述计算从“复杂逻辑”转向“海量简单运算”,数据并行密度提升low
NV H100显存带宽(文中举例)达 3TB/s(文中示例)medium
GPU vs CPU能效比(每瓦性能)GPU 在特定任务上每瓦特性能是 CPU 的 10-20 倍(文中表述)medium
DolphinDB(业务计算任务)示例场景量化交易因子计算、FICC 雪球期权定价、票息率确定、多维蒙特卡计算等计算密集型任务medium
Shark 设计目标代码改造要求让 DolphinDB 用户现有 CPU 代码尽可能不改或少量改动即可享受 GPU 加速high
Shark功能描述(比喻)可将 DolphinDB 脚本中的自定义函数转换为 GPU 可执行机器码,并作为回调为回测引擎、流计算引擎等模块提供 GPU 计算能力medium
Shark优势:学习成本学习成本低,无需改写 CUDA 代码low
Shark优势:迁移成本迁移成本低:脚本零修改,一行代码透明加速low
Shark优势:计算效率计算效率高:性能接近手写 CUDA Kernellow
Shark支持的算子数量支持 DolphinDB 2000+ 算子全集(文中表述)medium
Shark优势:通用性覆盖范围覆盖金融量化、物联网分析全场景(文中表述)low
Shark 架构核心模块(图示说明)模块组成与职责SharkGraph(脚本转计算图)、Memcpy(主机与设备间异步数据传输)、Optrs(底层算子实现)medium
Shark硬件支持(图示说明)支持 NVIDIA、海光、MACA 等多种硬件(文中图示说明)medium
绿色引擎(脚本→计算图)Step 1AST 预处理:消除非局部控制流,将 return/break 等替换为 flag + if/else 条件分支high
绿色引擎(脚本→计算图)Step 2构建数据流图(DFG):节点为计算任务、边为数据依赖,并进行静态分析优化后执行high
绿色引擎(脚本→计算图)Step 3通过拓扑排序安排任务顺序,并用引用计数及时释放内存high
GPU 编程模型SIMT 解释SIMT(单指令多线程)可通过定义任务函数 P(i) 并行应用于大量索引执行;Shark 数据流图节点映射到 SIMTmedium
IO 与异构计算瓶颈描述IO 相比计算是瓶颈;异构计算复制数据导致延迟,需通过异步复制重叠掩盖时间开销low
sharkMemCpyAsync功能Shark 自研异步拷贝引擎,用于实现普通内存的异步复制(通过暂存缓冲与线程搬运等方式)medium
sharkMemCpyAsync关键方法:锁页内存缓冲使用小块锁页内存(Pinned Memory)作暂存缓冲;独立线程将普通内存搬到锁页内存,再异步拷贝到 GPU,形成流水作业high
sharkMemCpyAsync关键方法:多线程拷贝使用多个拷贝线程抵消操作系统和 memcpy 底层实现波动,降低抖动影响high
sharkMemCpyAsync性能收益(文中结论)额外获得 10% 性能提升(文中表述)medium
Shark 算子实现支持的数据类型数量与列表7种类型:bool, char, short, int, long, float, doublehigh
Shark 算子实现支持的数据形式数量与列表4种形式:标量、向量、矩阵、表high
Shark 算子实现核心性能要求零拷贝,不能有任何临时变量high
Shark(函数实现分层)三层架构多态转发层、数据视图层、算法实现层(GPU 代码调用 CUDA/OpenCL 等)high
模板元编程(Shark 二元操作示例)实现方式通过编译期枚举操作数类型笛卡尔积生成针对各种类型组合的机器码medium
模板元编程(Shark 二元操作示例)好处类型安全、零拷贝、生成机器码性能逼近手写 CUDA(文中表述)low
模板元编程(Shark 权衡)问题与权衡编译速度变慢、代码膨胀;权衡方式为拆分编译单元、每种索引类型单独编译,用维护复杂度换取运行速度medium
雪球期权定价计算方法主要通过数值模拟求解,常用蒙特卡洛方法采样,属于计算密集型方法high
雪球期权定价 Demo性能结论100万次蒙特卡洛模拟,Shark 实现 16.7 倍加速;数据量越大性能优势越明显(文中表述)medium
雪球期权定价 Demo(图示说明)加速比变化趋势模拟次数从 1千次 到 100万次,加速比从 9.5 倍提升至 16.7 倍(相对 128 线程高性能 CPU,文中图示说明)medium
遗传规划(GP)因子挖掘Shark 加速策略不改造整体 GP 框架,将最耗时部分(评估适应度)通过 @gpu 标签外包给 GPU;@gpu 函数可作为适应度函数或黑盒因子函数medium
系列直播后续下期主题下期「DolphinDB核心技术解密」系列直播将聚焦低延时技术与实践high
Shark产品定位(关于 Shark 段落)CPU-GPU 高性能异构计算引擎,专注释放 GPU 通用计算潜能high
Shark适用计算特征适用于子任务多、并行度高,且输入输出数据量少、计算量大的 GPU 通用计算密集型需求(如科研蒙特卡洛仿真)medium
Shark(金融领域落地)落地场景因子挖掘(遗传算法)、大规模因子计算、场外衍生品定价等medium
Shark(场景性能表述)性能飞跃表述以雪球期权、篮筐式期权定价等蒙特卡洛模拟任务为例,可实现“近百倍”的性能飞跃(文中表述)low
Shark 加速 Demo 咨询联系方式可咨询小助手 13306510479high
DolphinDB(图示说明)平台定位描述作为基于高性能时序数据库、支持复杂分析与流式处理的实时计算平台(图示说明文字)low
DolphinDB(图示说明)联系渠道信息存在性图片中提供官方联系邮箱、网址以及用于关注和咨询的二维码(未给出具体邮箱/网址文本)medium
DolphinDB(图示说明)办公地点杭州、北京、上海、广州、深圳medium
技能认证特训营第二期报名信息页面顶部提示“技能认证特训营第二期正式开启”,并提供“限时报名”链接(qingsuyun.com/h5/e/217471/5/)与专属福利优惠表述medium