收下这份白皮书，解锁高性能自动因子挖掘新体验！

本页围绕因子挖掘的挑战，介绍 DolphinDB 的 CPU-GPU 异构计算平台 Shark 及其自动因子挖掘应用 Shark GPLearn，并提供白皮书的工作原理、架构、特性与案例概览。

Source: https://dolphindb.cn/news/detail/329

What this page covers

新闻栏目、标题与发布日期信息。
Shark 与 Shark GPLearn 的背景与白皮书介绍。
白皮书获取路径（开发者中心 → 白皮书）。
遗传算法与行业因子挖掘实践的背景介绍。
Shark GPLearn 的基本概念与性能对比要点。
架构实现与 GPExecutor 执行流程概览。
功能特性与优势点列表。

技能认证特训营第二期报名提示

页面顶部提供限时报名入口，并提示可享福利优惠。

提供“技能认证特训营第二期”的限时报名入口信息。
提示报名可享专属福利优惠。

新闻栏目与标题日期

内容标注为“新闻”，并展示标题与发布日期。

页面将内容归类在“新闻”栏目下。
新闻标题为“收下这份白皮书，解锁高性能自动因子挖掘新体验！”。
新闻发布日期为 2024.12.11。

背景与产品/白皮书介绍（Shark 与 Shark GPLearn）

介绍因子挖掘挑战，并引出 Shark 平台与 Shark GPLearn 应用，以及白皮书覆盖的内容范围。

因子挖掘被描述为构建有效投资模型的核心之一。
传统因子挖掘方法被指出存在效率与数据处理方面的不足。
Shark 被描述为 DolphinDB 推出的 CPU-GPU 异构计算平台。
Shark GPLearn 被描述为基于遗传算法的自动因子挖掘应用。
白皮书覆盖工作原理、架构实现、功能特性与应用案例。

获取白皮书的路径指引（官网开发者中心/白皮书）

指引用户通过官网“开发者中心”进入“白皮书”栏目获取完整资料，并配有界面截图说明。

获取方式为访问官网“开发者中心”。
在“开发者中心”中进入“白皮书”栏目获取资料。
截图演示从“开发者中心”导航至“白皮书”。
截图展示“自动因子挖掘”相关选项与白皮书封面预览。

白皮书内容预览总览

该部分引出对白皮书主要内容的快速预览。

提供对白皮书主要内容的预览入口性说明。
后续章节按模块展示白皮书内容要点。

背景介绍（遗传算法与行业实践）

介绍遗传算法概念、流程与进化策略，并概述金融行业因子挖掘实践方法与挑战，包含流程图说明。

介绍遗传算法的概念。
介绍遗传算法的流程与进化策略（如交叉变异与子树变异）。
概述金融行业因子挖掘的实践方法（如回归分析与遗传算法）。
提及金融行业因子挖掘面临的挑战。
流程图包含“随机初始化公式”步骤。
流程图包含“评估并计算适应度”步骤。
流程图包含“判断是否满足迭代次数或适应度要求”的条件判断。
满足条件后输出最优因子结果；不满足则进化变异并循环。

基本概念（设计构想、原理与性能对比）

说明 Shark GPLearn 的设计构想与工作原理，并给出与传统 python gplearn 的性能对比信息。

说明 Shark GPLearn 高性能因子挖掘功能的设计构想。
说明 Shark GPLearn 的工作原理。
提及与传统 python gplearn 的性能对比。
图注说明对比基于“千万级数据”。
运行耗时对比：Shark GPLearn 9.5 秒。
运行耗时对比：python gplearn 822.01 秒。

架构实现（模块与执行流程）

介绍 Shark 的组成模块，并概述 Shark GPLearn 架构与 GPExecutor 的执行流程。

Shark 组成模块包含数据转换层。
Shark 组成模块包含自动因子挖掘。
架构图包含 GPLearnEngine 组件。
GPLearnEngine 涵盖种群初始化、适应度计算与进化变异。
架构图包含 GPExecutor 组件。
GPExecutor 接收公式并执行高性能并行计算。

功能特性（优势点）

列出 Shark GPLearn 的优势与特性要点。

提供更丰富的算子库。
支持在三维数据中挖掘因子。
支持单机多卡挖掘。
强调充分释放 GPU 计算性能。

应用案例（股票日频K线因子挖掘流程）

以股票日频 K 线数据为例，给出因子挖掘流程，并提及代码与调参说明。

案例基于股票日频 K 线数据进行因子挖掘。
流程步骤包含数据清洗。
流程步骤包含模型训练。
流程步骤包含因子评价。
提供可参考的代码与调参说明（以提及形式出现）。

未来规划（国产计算卡适配与功能扩展）

描述对更多计算卡的适配计划，以及算子与自定义函数能力的扩展方向。

未来规划包含除 NVIDIA GPU 外适配更多国产计算卡。
适配计划旨在满足信创需求并降低用户成本。
计划扩展对更多数据分析算子的支持。
计划允许用户通过脚本语言定义更灵活的自定义函数。

Facts Index

Entity	Attribute	Value	Confidence
技能认证特训营第二期	status	正式开启，提供限时报名入口并提示可享专属福利优惠	medium
新闻《收下这份白皮书，解锁高性能自动因子挖掘新体验！》	publication_date	2024.12.11	high
因子挖掘（投资模型）	importance	因子挖掘一直是构建有效投资模型的核心之一	low
传统因子挖掘方法	limitations	逐渐暴露出计算效率低、无法处理复杂三维数据等不足	medium
Shark	description	DolphinDB 推出的 CPU-GPU 异构计算平台	high
Shark	key_application	基于遗传算法的自动因子挖掘：Shark GPLearn	high
Shark GPLearn	benefit	企业可以利用 GPU 大幅提升因子挖掘效率	medium
Shark GPLearn 高性能因子挖掘白皮书	scope	全面介绍工作原理、架构实现、功能特性以及应用案例	high
白皮书获取方式	access_path	访问官网【开发者中心】-【白皮书】获取完整资料	high
DolphinDB 官网界面截图（开发者中心→白皮书）	depicts	演示通过“开发者中心”导航至“白皮书”，突出“自动因子挖掘”选项并展示《Shark 高性能因子挖掘平台白皮书》封面预览	high
白皮书“背景介绍”部分	includes	遗传算法的概念、流程与进化策略（交叉变异、子树变异等），以及金融行业因子挖掘实践方法（回归分析、遗传算法等）与挑战	high
遗传算法总体流程图	described_steps	初始化随机生成公式→评估计算适应度→判断是否达到迭代次数或满足适应度要求；不满足则选择并进化变异生成新公式循环；满足则输出最优因子结果	high
白皮书“基本概念”部分	includes	Shark GPLearn 高性能因子挖掘功能的设计构想、工作原理，以及与传统 python gplearn 的性能对比	high
Shark GPLearn vs python gplearn 运行耗时对比（千万级数据）	runtime_seconds	Shark GPLearn：9.5 秒；gplearn：822.01 秒（图注说明为千万级数据）	medium
白皮书“架构实现”部分	includes	Shark 组成模块为数据转换层和自动因子挖掘；并介绍 Shark GPLearn 基本架构和 GPExecutor 执行流程	high
Shark GPLearn 架构图	components	包含数据转换层、GPLearnEngine（种群初始化、适应度计算、进化变异）以及 GPExecutor；GPExecutor 接收公式并执行高性能并行计算	high
Shark GPLearn	advantages	更丰富的算子库；支持在三维数据中挖掘因子；支持单机多卡挖掘；充分释放 GPU 计算性能	medium
Shark GPLearn 应用案例	example	基于股票日频 K 线数据的因子挖掘	high
Shark GPLearn 因子挖掘流程（案例）	process	数据清洗→模型训练→因子评价，并提供可参考的代码和调参说明	high
Shark GPLearn 未来规划	hardware_support	除支持 NVIDIA GPU 外，将适配更多国产计算卡，以满足信创需求并降低用户成本	medium
Shark GPLearn 未来规划	capability_expansion	扩展对更多数据分析算子的支持，并允许用户通过脚本语言定义更灵活的用户自定义函数	medium