新闻

收下这份白皮书,解锁高性能自动因子挖掘新体验!

2024.12.11

因子挖掘一直是构建有效投资模型的核心之一。目前,随着金融市场对数据分析能力要求的不断提升,传统的因子挖掘方法逐渐暴露出计算效率低、无法处理复杂三维数据等不足。

在这样的背景下,DolphinDB 推出 CPU-GPU 异构计算平台——Shark,其中一大关键应用便是基于遗传算法的自动因子挖掘 Shark GPLearn 。借助 Shark GPLearn,企业可以利用 GPU 大幅提升因子挖掘效率。

为了让用户深入了解这一工具,DolphinDB 撰写了 Shark GPLearn 高性能因子挖掘白皮书,全面介绍其工作原理、架构实现、功能特性以及应用案例。

欢迎访问官网【开发者中心】-【白皮书】获取完整资料!

接下来,让我们快速预览 Shark GPLearn 高性能因子挖掘白皮书的主要内容:

背景介绍

介绍遗传算法的概念、流程和多种进化策略,如交叉变异、子树变异等,介绍了目前金融行业在因子挖掘中的实践方法,如回归分析、遗传算法等,以及各种方法面临的挑战。

遗传算法总体流程

基本概念

介绍 Shark GPLearn 高性能因子挖掘功能的设计构想、工作原理,以及与用传统 python gplearn 挖掘因子的性能对比。

不同数据规模下,Shark GPLearn 与 gplearn 的运行时间对比,时间单位为秒(s)

架构实现

介绍构成 Shark 的组成模块:数据转换层和自动因子挖掘,主要包含各个模块的工作原理和适用场景。其中详细介绍了 Shark GPLearn 的基本架构和 GPExecutor 的执行流程。

Shark GPLearn 自动因子挖掘基本架构

功能特性

介绍 Shark GPLearn 与其他因子挖掘框架相比具有的独特优势和特性,如拥有更加丰富的算子库、支持在三维数据中挖掘因子、支持单机多卡挖掘、充分释放 GPU 计算性能等。

应用案例

基于股票日频 K 线数据的因子挖掘为例,介绍使用 Shark GPLearn 进行因子挖掘的基本流程:数据清洗→模型训练→因子评价,以及可供参考的代码和调参说明。

未来规划

除了支持 NVIDIA 的 GPU 外,Shark GPLearn 将适配更多国产计算卡,更好地满足信创需求,降低用户成本。此外,Shark GPLearn 高性能因子挖掘功能将会扩展对更多数据分析算子的支持,并且允许用户通过脚本语言定义更加灵活的用户自定义函数。