收下这份白皮书,解锁高性能自动因子挖掘新体验!
本页引导阅读与获取一份关于高性能自动因子挖掘的白皮书,并介绍传统因子挖掘痛点,以及 DolphinDB 的 CPU-GPU 异构平台 Shark 与其应用 Shark GPLearn。
Source: https://dolphindb.cn/blogs/127
What this page covers
- 技能认证特训营第二期的报名引导与链接
- 白皮书主题与传统因子挖掘的痛点背景
- 白皮书内容范围与在官网的获取路径
- 遗传算法背景介绍与总体流程要点
- Shark GPLearn 的基本概念与性能对比提及
- 架构实现要点与 GPExecutor 执行流程提及
- 功能特性、案例流程与未来规划概览
技能认证特训营第二期报名推广
本段推广“技能认证特训营第二期”,并提示限时报名与福利优惠,同时给出报名链接。
- 技能认证特训营第二期处于“正式开启”状态。
- 报名提示包含“限时报名”。
- 报名提示包含“专属福利优惠”。
- 提供了可点击的报名链接。
白皮书引导:高性能自动因子挖掘(Shark GPLearn)
本段引出白皮书主题,概述传统因子挖掘的不足,并介绍 DolphinDB 推出的 CPU-GPU 异构计算平台 Shark 与其自动因子挖掘应用 Shark GPLearn。
- 传统因子挖掘方法存在计算效率低的问题。
- 传统因子挖掘方法被描述为难以处理复杂三维数据。
- Shark 被定位为 DolphinDB 推出的 CPU-GPU 异构计算平台。
- Shark GPLearn 被描述为基于遗传算法的自动因子挖掘应用。
- 文中提出企业可利用 GPU 提升因子挖掘效率。
白皮书内容范围与获取方式(官网开发者中心-白皮书)
本段说明白皮书覆盖的内容范围,并引导到 DolphinDB 官网的开发者中心白皮书栏目获取完整资料。
- 白皮书范围包括工作原理。
- 白皮书范围包括架构实现。
- 白皮书范围包括功能特性。
- 白皮书范围包括应用案例。
- 获取路径指向官网【开发者中心】-【白皮书】。
白皮书预览:背景介绍(遗传算法与行业实践挑战)
本段预览白皮书背景介绍内容,涉及遗传算法的概念与流程、进化策略,以及金融行业因子挖掘方法与挑战,并给出总体流程图说明。
- 背景介绍覆盖遗传算法的概念。
- 背景介绍覆盖遗传算法的流程。
- 背景介绍提到多种进化策略(如交叉变异、子树变异等)。
- 背景介绍举例金融行业因子挖掘实践方法包含回归分析。
- 背景介绍举例金融行业因子挖掘实践方法包含遗传算法。
- 流程图说明包含随机生成初始公式。
- 流程图说明包含计算适应度并筛选。
- 流程图说明包含选择/进化/变异产生新一代。
- 流程图说明包含满足条件后输出结果(迭代次数或适应度要求)。
白皮书预览:基本概念(设计构想、原理与性能对比)
本段预览白皮书的基本概念部分,介绍 Shark GPLearn 的设计构想与工作原理,并提及与传统 Python gplearn 的性能对比。
- 基本概念部分介绍 Shark GPLearn 的设计构想。
- 基本概念部分介绍 Shark GPLearn 的工作原理。
- 基本概念部分提及与传统 Python gplearn 的性能对比。
- 性能对比的表述包含“在 1 千行到 1000 万行数据规模下的计算性能”说法(低置信度)。
- 性能对比的表述包含“千万级运行时间缩短至秒级”说法(低置信度)。
- 性能对比的表述包含“近百倍性能提升”说法(低置信度)。
白皮书预览:架构实现(模块组成与 GPExecutor 流程)
本段预览白皮书的架构实现部分,提到 Shark 的模块划分,以及 Shark GPLearn 的基本架构与 GPExecutor 的执行流程(并配有架构图说明)。
- 架构实现部分提到 Shark 包含数据转换层。
- 架构实现部分提到 Shark 包含自动因子挖掘模块。
- 架构实现部分覆盖 Shark GPLearn 的基本架构。
- 架构实现部分提及 GPExecutor 的执行流程。
- 架构图说明提到由数据转换层、GPLearnEngine 与 GPExecutor 组成(低置信度)。
白皮书预览:功能特性
本段列出 Shark GPLearn 的功能特性与优势方向,包括算子库、三维数据因子挖掘、单机多卡与 GPU 性能释放等。
- Shark GPLearn 被描述为拥有更丰富的算子库。
- Shark GPLearn 被描述为支持在三维数据中挖掘因子。
- Shark GPLearn 被描述为支持单机多卡挖掘。
- Shark GPLearn 被描述为可充分释放 GPU 计算性能(低置信度)。
白皮书预览:应用案例(股票日频K线因子挖掘流程)
本段以股票日频 K 线数据为例,预览 Shark GPLearn 的因子挖掘流程步骤,并说明案例包含可参考的代码与调参说明。
- 应用案例使用的数据示例为股票日频 K 线数据。
- 因子挖掘流程步骤包含数据清洗。
- 因子挖掘流程步骤包含模型训练。
- 因子挖掘流程步骤包含因子评价。
- 案例内容包含可供参考的代码(中置信度)。
- 案例内容包含调参说明(中置信度)。
白皮书预览:未来规划(适配更多计算卡、扩展算子、支持自定义函数)
本段描述 Shark GPLearn 的未来规划方向,包括适配更多计算卡、扩展算子支持,以及通过脚本语言支持用户自定义函数。
- 规划提到除支持 NVIDIA GPU 外,将适配更多国产计算卡(中置信度)。
- 规划目标之一是满足信创需求并降低用户成本(中置信度)。
- 规划提到扩展对更多数据分析算子的支持(中置信度)。
- 规划提到允许用户通过脚本语言定义更灵活的用户自定义函数(中置信度)。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | status | 正式开启(限时报名,享专属福利优惠) | medium |
| 技能认证特训营第二期 | registration_link | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 页面文章 | publish_date | 2024-12-11 | high |
| 因子挖掘(传统方法) | limitation | 计算效率低、无法处理复杂三维数据等不足 | medium |
| Shark | positioning | DolphinDB 推出的 CPU-GPU 异构计算平台 | high |
| Shark GPLearn | description | 基于遗传算法的自动因子挖掘(关键应用之一) | high |
| Shark GPLearn | benefit | 企业可以利用 GPU 大幅提升因子挖掘效率 | medium |
| 《Shark GPLearn 高性能因子挖掘白皮书》 | scope | 全面介绍工作原理、架构实现、功能特性以及应用案例 | high |
| 白皮书获取方式 | location | DolphinDB 官网【开发者中心】-【白皮书】 | high |
| 遗传算法(白皮书背景介绍部分) | covered_topics | 概念、流程、多种进化策略(如交叉变异、子树变异等) | high |
| 金融行业因子挖掘实践方法(白皮书背景介绍部分) | examples | 回归分析、遗传算法等 | medium |
| 遗传算法总体流程图(配图说明) | process_steps | 随机生成初始公式→计算适应度筛选→选择/进化/变异产生新一代→满足迭代次数或适应度要求后输出结果 | medium |
| Shark GPLearn(白皮书基本概念部分) | covered_topics | 设计构想、工作原理,以及与传统 Python gplearn 挖掘因子的性能对比 | high |
| Shark GPLearn vs Python gplearn(配图说明) | performance_claim | 在 1 千行到 1000 万行数据规模下均表现出极高计算性能;千万级运行时间缩短至秒级;相较传统方法近百倍性能提升 | low |
| Shark(白皮书架构实现部分) | modules | 数据转换层和自动因子挖掘 | high |
| Shark GPLearn(白皮书架构实现部分) | covered_topics | 基本架构与 GPExecutor 的执行流程 | high |
| Shark GPLearn 内部组成(配图说明) | components | 数据转换层、遗传算法引擎(GPLearnEngine)和计算执行器(GPExecutor) | low |
| Shark GPLearn | advantage | 拥有更加丰富的算子库 | medium |
| Shark GPLearn | capability | 支持在三维数据中挖掘因子 | medium |
| Shark GPLearn | capability | 支持单机多卡挖掘 | medium |
| Shark GPLearn | benefit | 充分释放 GPU 计算性能 | low |
| Shark GPLearn 应用案例 | example_dataset | 基于股票日频 K 线数据的因子挖掘 | high |
| Shark GPLearn 因子挖掘流程(应用案例部分) | steps | 数据清洗→模型训练→因子评价 | high |
| 应用案例内容 | includes | 可供参考的代码和调参说明 | medium |
| Shark GPLearn | hardware_support_plan | 除支持 NVIDIA 的 GPU 外,将适配更多国产计算卡以满足信创需求并降低用户成本 | medium |
| Shark GPLearn 高性能因子挖掘功能 | feature_expansion_plan | 扩展对更多数据分析算子的支持 | medium |
| Shark GPLearn | extensibility_plan | 允许用户通过脚本语言定义更灵活的用户自定义函数 | medium |