10-100倍性能飞跃！DolphinDB Shark GPU 加速技术深度解析

该部分给出文章标题、作者与发布日期，并概述 Shark 的 GPU 加速与三引擎架构。

页面包含作者署名与发布日期信息。
Shark 被描述为 CPU-GPU 异构计算平台。
页面引入 Shark 的三引擎架构概念。

直播背景与主题引入

该部分介绍“DolphinDB 核心技术解密”系列直播、主讲人信息，并引出本期聚焦 Shark GPU 加速技术内核。

页面提到“DolphinDB 核心技术解密”系列直播。
页面给出直播主讲人的身份与姓名。
本期主题聚焦 Shark 的 GPU 加速技术内核。

AI 时代，GPU 的逆袭

该部分解释 GPU 相对 CPU 的并行优势与 GPU 加速兴起原因，并引出 Shark 的诞生与目标。

GPU 加速被描述为利用 GPU 并行处理海量简单运算。
页面提到 GPU（GeForce 256）被提及的起源时间为 1999 年。
页面举例提到 GPU（H100）显存带宽可达 3TB/s。
页面描述 GPU 在特定任务上每瓦特性能是 CPU 的 10-20 倍。
Shark 的目标是尽量不改或少改现有 CPU 代码以获得 GPU 加速。

Shark 是什么？

该部分将 Shark 描述为脚本到 GPU 机器码的转换与调度能力，并给出优势维度。

Shark 被描述为将自定义函数转换为可在 GPU 上执行的机器码。
Shark 被描述为可为回测引擎、流计算引擎等模块提供 GPU 计算能力。
页面描述其学习成本低，且无需改写 CUDA 代码。
页面描述其迁移成本低，可“脚本零修改，一行代码透明加速”。
页面描述其支持 DolphinDB 2000+ 算子全集。

Shark 三大引擎内核解剖

该部分描述 Shark 由绿色、红色、蓝色三大模块构成，用于实现 CPU 到 GPU 的无缝迁移。

Shark 的三引擎架构包括绿色、红色、蓝色引擎。
绿色引擎被描述为“脚本→计算图”。
红色引擎被描述为“主机→设备异步传输”。
蓝色引擎被描述为“模板元编程算子”。

绿色引擎：脚本→计算图

该部分说明绿色引擎从 AST 预处理到构建数据流图、拓扑排序与引用计数的流程，并提到与 SIMT 并行模型的关系。

绿色引擎对 AST 做预处理以消除非局部控制流。
return、break 等被替换为 flag 与 if/else 条件分支。
绿色引擎将 AST 转换为数据流图（DFG）。
数据流图会进行静态分析优化后执行。
使用拓扑排序安排任务顺序。
使用引用计数以便及时释放内存。
页面给出 SIMT（单指令多线程）的定义。
页面表述 Shark 数据流图节点与 SIMT 映射相关。

红色引擎：主机→设备

该部分说明异构计算中的数据拷贝与 IO 瓶颈，并介绍自研异步拷贝引擎 sharkMemCpyAsync 的方法与收益。

页面指出 IO 相比计算是瓶颈，且需要从主机端复制数据。
页面描述 cudaMemcpyAsync 对普通内存块在虚拟内存系统下仍可能同步拷贝。
页面提到自研异步拷贝引擎名称为 sharkMemCpyAsync。
方法之一是用小块锁页内存作暂存缓冲并流水化拷贝到 GPU。
方法之一包含使用独立线程将普通内存搬到锁页内存。
方法之一包含从锁页内存到 GPU 的异步拷贝。
方法之一是使用多个拷贝线程以减小抖动影响。
页面给出测试结论：可额外获得约 10% 性能提升。

蓝色引擎：算子实现+多硬件支持

该部分解释为支持大量算子与多类型、多形态而采用的分层实现方式，并讨论模板元编程带来的收益与权衡。

页面提到投入支持 2000+ 个数据分析算子。
页面列出需要支持的 7 种类型：bool、char、short、int、long、float、double。
页面列出需要支持的 4 种数据形式：标量、向量、矩阵、表。
页面提出核心要求之一是“零拷贝”。
页面提出不能有任何临时变量的约束。
页面描述函数实现的三层结构：多态转发层、数据视图层、算法实现层。
页面描述模板元编程用于枚举类型/形式组合以生成代码。
页面指出模板元编程可能导致编译速度变慢与代码膨胀。

Demo 展示

该部分给出雪球期权定价与遗传规划示例，展示 Shark 的使用方式与性能相关结论，并包含后续直播预告主题。

雪球期权定价案例主要通过数值模拟求解。
雪球期权定价案例一般使用蒙特卡洛方法采样。
页面给出规模：100 万次蒙特卡洛模拟。
页面给出结果：Shark 实现 16.7 倍加速。
页面表述：数据量越大时性能优势越明显。
遗传规划（GP）案例被用于金融领域的因子挖掘。
页面描述：不改造整体 GP 框架，仅将最耗时部分交给 GPU。
页面描述：可直接定义 @gpu 函数作为适应度函数。
页面描述：可用 @gpu 函数自定义黑盒函数作为因子。
页面预告后续直播将聚焦低延时技术与实践。

关于 Shark

该部分总结 Shark 的定位、@gpu 零/少改动迁移方式、适用任务特征、应用场景与咨询方式。

Shark 被描述为 CPU-GPU 高性能异构计算引擎。
页面表述其专注于释放 GPU 的通用计算潜能。
页面描述：在自定义函数前添加 @gpu 标签可实现零代码迁移/无缝迁移。
页面表述：无需 CUDA 相关二次开发即可获得性能提升。
适用任务特征包括：子任务多、并行度高。
适用任务特征包括：输入输出数据量少、计算量大。
页面举例科研场景：蒙特卡洛仿真。
页面提到金融落地场景：基于遗传算法的因子挖掘。
页面提到金融落地场景：大规模因子计算。
页面提到金融落地场景：场外衍生品定价。
页面提供 Shark 加速 Demo 咨询联系方式。

Facts index

Entity	Attribute	Value	Confidence
技能认证特训营第二期	报名链接	https://www.qingsuyun.com/h5/e/217471/5/	high
文章	发布日期	2025-11-18	high
DolphinDB	作者署名	DolphinDB dingyi	high
DolphinDB Shark	产品/平台定位	CPU-GPU 异构计算平台	high
DolphinDB Shark	零代码迁移方式	通过在自定义函数前添加 @gpu 标签实现零代码迁移/无缝迁移	high
DolphinDB Shark	相对 CPU 的性能提升范围	10-100 倍（文中亦表述为 10~100 倍以上）	medium
DolphinDB Shark	适用场景示例	量化交易因子计算、雪球期权定价	high
DolphinDB Shark 三引擎架构	组成模块	绿色引擎（脚本→计算图）、红色引擎（主机→设备异步传输）、蓝色引擎（模板元编程算子）	high
直播活动	系列名称	“DolphinDB 核心技术解密”系列直播	high
直播活动	时间	11月12日晚	medium
直播主讲人	身份与姓名	DolphinDB 研发工程师杨朔柳	high
GPU 加速计算	定义/描述	通过 GPU 并行处理海量简单运算实现加速	medium
GPU（GeForce 256）	被提及的起源时间	1999年	medium
GPU（H100）	显存带宽	达 3TB/s（文中举例）	medium
GPU vs CPU 能效	每瓦特性能差异（特定任务）	GPU 在特定任务上每瓦特性能是 CPU 的 10-20 倍	medium
DolphinDB 计算密集任务示例	场景	量化交易因子计算、FICC 雪球期权定价、票息率确定、多维蒙卡计算	high
Shark 设计目标	代码改动要求	让 DolphinDB 用户现有 CPU 代码尽可能不加修改或只做少量改动即可享受 GPU 加速	high
Shark	功能描述	自动将 DolphinDB 脚本中的自定义函数转换成可在 GPU 上执行的机器码；可回调为回测引擎、流计算引擎等模块提供 GPU 计算能力	medium
Shark 优势	学习成本	学习成本低，无需改写 CUDA 代码	medium
Shark 优势	迁移成本	迁移成本低：脚本零修改，一行代码透明加速	medium
Shark 优势	计算效率	性能接近手写 CUDA Kernel	low
Shark	算子支持范围	支持 DolphinDB 2000+ 算子全集	medium
Shark	覆盖领域	覆盖金融量化、物联网分析全场景（表述）	low
绿色引擎（脚本→计算图）	Step 1 处理内容	对 AST 做预处理，消除非局部控制流；将 return、break 等替换为 flag + if/else 条件分支	high
绿色引擎（脚本→计算图）	Step 2 处理内容	将 AST 转换成数据流图（DFG）；对图做静态分析优化后执行	medium
绿色引擎（脚本→计算图）	Step 3 处理内容	使用拓扑排序安排任务顺序，引用计数及时释放内存	high
GPU 编程模型	SIMT 定义	SIMT（单指令多线程）；可通过定义任务函数 P(i) 并对大量索引并行应用	medium
Shark 数据流图	与 SIMT 的关系	Shark 的数据流图每个节点是对 SIMT 的映射（表述）	low
异构计算数据拷贝	瓶颈描述	IO 相比计算是瓶颈；异构计算需要从主机端复制数据	high
cudaMemcpyAsync	对普通内存块行为（文中描述）	由于虚拟内存系统存在，对普通内存块还是同步拷贝（文中表述）	medium
Shark	自研异步拷贝引擎名称	sharkMemCpyAsync	high
sharkMemCpyAsync	方法 1	使用小块锁页内存（Pinned Memory）作暂存缓冲；独立线程将数据从普通内存搬到锁页内存，再异步拷贝到 GPU，形成流水作业	high
sharkMemCpyAsync	方法 2	使用多个拷贝线程以抵消操作系统与 memcpy 底层实现的性能波动，减小抖动影响	medium
sharkMemCpyAsync	额外性能提升（测试结论）	额外获得 10% 性能提升	medium
DolphinDB 算子实现（Shark 投入模块）	算子数量	2000+ 个数据分析算子	medium
算子支持	需要支持的类型数	7 种类型：bool, char, short, int, long, float, double	high
算子支持	需要支持的数据形式	4 种形式：标量、向量、矩阵、表	high
算子实现核心要求	约束	零拷贝，不能有任何临时变量	high
DolphinDB（对函数实现的分层）	三层结构	多态转发层（按数据形式分发）、数据视图层（对视图操作实现加减乘除/聚合等）、算法实现层（真正 GPU 代码，调用 CUDA/OpenCL 等）	high
模板元编程（在二元操作中的使用）	用途	枚举所有可能的类型/形式组合以生成代码（让编译器写代码）	medium
模板元编程收益	类型安全	类型转换与空值处理在编译期检查，减少低级 Bug（表述）	low
模板元编程收益	零拷贝	通过模板表达式让编译器优化掉中间变量（表述）	low
模板元编程收益	性能	生成的机器码与手写 CUDA 几乎一致（表述）	low
模板元编程	问题	编译速度变慢、代码膨胀	high
Shark	权衡/应对方式	拆分编译单元；每种索引类型单独编译，以维护复杂度换取高效运行速度	medium
案例1：雪球期权定价	方法	主要通过数值模拟求解，一般用蒙特卡洛方法进行采样	high
案例1：雪球期权定价	实验规模与加速比	100 万次蒙特卡洛模拟，Shark 实现 16.7 倍加速	high
案例1：雪球期权定价	性能趋势	数据量越大性能优势越明显（表述）	low
案例2：遗传规划（GP）	应用领域	金融领域的因子挖掘	high
Shark 在 GP 中的用法	集成方式	不改造整体 GP 框架，只将最耗时部分交给 GPU；可直接定义 @gpu 函数作为适应度函数，也可用 @gpu 函数自定义复杂黑盒函数作为因子	medium
后续直播预告	下期主题	将聚焦低延时技术与实践	medium
Shark	定位	CPU-GPU 高性能异构计算引擎，专注于释放 GPU 的通用计算潜能	medium
Shark	无需 CUDA 二次开发	开发者无需进行任何 CUDA 相关的二次开发即可获得性能提升（表述）	medium
Shark 适用任务特征	任务特征	子任务多、并行度高；输入输出数据量少、计算量大	high
Shark	科研场景示例	蒙特卡洛仿真	medium
Shark 在金融领域落地场景	场景	基于遗传算法的因子挖掘、大规模因子计算、场外衍生品定价	medium
Shark（期权定价任务）	性能飞跃表述	在雪球期权、篮筐式期权定价等一维或多维蒙特卡洛模拟任务上，可实现近百倍的性能飞跃（表述）	low
Shark 加速 Demo 咨询	联系方式	小助手 13306510479	high

What this page covers

技能认证特训营第二期报名入口