因子挖掘一直是构建有效投资模型的核心之一。目前,随着金融市场对数据分析能力要求的不断提升,传统的因子挖掘方法逐渐暴露出计算效率低、无法处理复杂三维数据等不足。
在这样的背景下,DolphinDB 推出 CPU-GPU 异构计算平台——Shark,其中一大关键应用便是基于遗传算法的自动因子挖掘 Shark GPLearn 。借助 Shark GPLearn,企业可以利用 GPU 大幅提升因子挖掘效率。
为了让用户深入了解这一工具,DolphinDB 撰写了 Shark GPLearn 高性能因子挖掘白皮书,全面介绍其工作原理、架构实现、功能特性以及应用案例。
欢迎访问官网【开发者中心】-【白皮书】获取完整资料!
接下来,让我们快速预览 Shark GPLearn 高性能因子挖掘白皮书的主要内容:
背景介绍
介绍遗传算法的概念、流程和多种进化策略,如交叉变异、子树变异等,介绍了目前金融行业在因子挖掘中的实践方法,如回归分析、遗传算法等,以及各种方法面临的挑战。
遗传算法总体流程
基本概念
介绍 Shark GPLearn 高性能因子挖掘功能的设计构想、工作原理,以及与用传统 python gplearn 挖掘因子的性能对比。
不同数据规模下,Shark GPLearn 与 gplearn 的运行时间对比,时间单位为秒(s)
架构实现
介绍构成 Shark 的组成模块:数据转换层和自动因子挖掘,主要包含各个模块的工作原理和适用场景。其中详细介绍了 Shark GPLearn 的基本架构和 GPExecutor 的执行流程。
Shark GPLearn 自动因子挖掘基本架构
功能特性
介绍 Shark GPLearn 与其他因子挖掘框架相比具有的独特优势和特性,如拥有更加丰富的算子库、支持在三维数据中挖掘因子、支持单机多卡挖掘、充分释放 GPU 计算性能等。
应用案例
以基于股票日频 K 线数据的因子挖掘为例,介绍使用 Shark GPLearn 进行因子挖掘的基本流程:数据清洗→模型训练→因子评价,以及可供参考的代码和调参说明。
未来规划
除了支持 NVIDIA 的 GPU 外,Shark GPLearn 将适配更多国产计算卡,更好地满足信创需求,降低用户成本。此外,Shark GPLearn 高性能因子挖掘功能将会扩展对更多数据分析算子的支持,并且允许用户通过脚本语言定义更加灵活的用户自定义函数。