Shark 高性能因子挖掘平台白皮书

为解决传统挖掘因子方法效率低、无法处理三维数据等挑战,DolphinDB 推出了 CPU-GPU 异构计算平台 Shark,包含自动因子挖掘 Shark GPLearn 和因子计算 DeviceEngine 两大应用。其中,Shark GPLearn 支持用户直接从数据库中读取数据,调用遗传算法进行自动因子挖掘,并加速因子计算,具有算子库丰富、支持单机多卡训练、提供分组语义等特性。借助 Shark GPLearn,企业可以高效地从历史数据中挖掘因子,构建因子模型。

white-paperwhite-paper

内容概况

本白皮书系统地介绍了 Shark GPLearn 高性能因子挖掘功能的工作原理、架构实现、功能特性和场景应用等,主要包含以下内容:

背景简介:介绍了遗传算法的概念、流程和多种进化策略,如交叉变异、子树变异等,介绍了目前金融行业在因子挖掘中的实践方法,如回归分析、遗传算法等,以及各种方法面临的挑战。

基本概念:介绍了 Shark GPLearn 高性能因子挖掘功能的设计构想、工作原理,以及与用传统 python gplearn 挖掘因子的性能对比。

架构实现:介绍了构成 Shark 的三大模块:数据转换层、自动因子挖掘和因子计算,主要包含各个模块的工作原理和适用场景。

功能特性:介绍了 Shark GPLearn 与其他因子挖掘框架相比具有的独特优势和特性,如拥有更加丰富的算子库、支持在三维数据中挖掘因子、支持单机多卡挖掘、充分释放 GPU 计算性能等。

应用案例:以基于股票日频 K 线数据的因子挖掘为例,介绍了使用 Shark GPLearn 进行因子挖掘的基本流程:数据清洗→模型训练→因子评价,以及可供参考的代码和调参说明。

获取 Shark 高性能因子挖掘平台白皮书