基于中高频数据的极速因子投研

客户案例引言说明:WILLIAM O’NEIL 因高频时序数据处理需求选择 DolphinDB,并引出工程师分享。

Source: https://dolphindb.cn/customer-case/detail/2

What this page covers

技能认证特训营第二期报名提示

页面顶部包含活动报名提示与限时报名链接。

导航/面包屑与客户名称

页面提供指向客户案例列表的导航链接,并标示客户名称 WILLIAM O’NEIL。

基于中高频数据的极速因子投研

主标题与引言说明:WILLIAM O’NEIL 因高频时序数据处理需求选择 DolphinDB,并引出工程师分享。

公司与团队背景(WILLIAM O’NEIL 简介)

介绍 WILLIAM O’NEIL 的成立时间、服务对象与规模,以及上海信息科技团队的职责。

我们用 DolphinDB 做了什么

概述使用 DolphinDB 处理时序数据的范围、主要任务类型与每日新增数据规模。

因子研发

用 DolphinDB 的分布式与流计算能力进行因子存储、计算、建模、衍生因子实时计算与回测(含 replay 回放)。

处理中高频数据

使用时间序列聚合引擎生成分钟级 K 线、生成状态因子并输出到流表,以提升分钟级研究精度与处理效率。

搭建 tick 级数据流架构

使用 Kafka 连接数据流并传入 DolphinDB 进行计算分析;利用流计算框架与流数据表实现处理、发布订阅与批流一体,并提及毫秒级延时。

回顾数据库选型

对比 KDB+、Cassandra、DolphinDB 三套方案,并说明未采纳原因与最终选择 DolphinDB 的过程与结果。

对 DolphinDB 的评价

从高性能、易上手与技术支持响应三个维度给出使用评价,并包含学习周期与交付速度等表述。

文章最后(总结与推荐)

总结 DolphinDB 带来的业务改善,并表示会向国外同事推荐与期望其国际知名度提升。

客户简介

以行业与公司概况形式再次给出客户背景信息(私募;成立时间;服务机构数量与业务)。

Facts Index

Entity Attribute Value Confidence
WILLIAM O’NEIL选择的产品经过市场调研与产品性能测试,最终选择了 DolphinDBhigh
原有系统架构(WILLIAM O’NEIL)对高频数据处理的适配性面对高频数据处理需求,原有系统架构难以进行有效处理high
WILLIAM O’NEIL(威廉欧奈尔)成立时间1963年成立high
WILLIAM O’NEIL(威廉欧奈尔)业务定位致力于为投资机构和投资者提供投资建议和独立调研报告high
WILLIAM O’NEIL(威廉欧奈尔)服务的投资机构数量已服务超过500家世界顶级投资机构high
威廉欧奈尔信息科技上海有限公司团队职责范围负责公司所有量化基金产品的业务,同时进行所有数据相关的技术研发high
DolphinDB(在 WILLIAM O’NEIL)处理的数据类型与用途处理所有时序数据,主要用于因子研发、中高频数据处理和 tick 级流数据处理high
每日新增数据量(WILLIAM O’NEIL)规模1000万~5000万条级别high
每日新增数据(若存为 CSV)体积总共为 4~5 GBhigh
因子研发(WILLIAM O’NEIL 使用 DolphinDB)数据来源与方式结合财报和日线数据衍生出大量因子high
DolphinDB用于因子研发的能力分布式存储、分布式计算和实时流计算可用于因子存储、计算和建模high
DolphinDB(因子研发场景)对海量数据集处理与开发效率可快速处理海量数据集,并用内置多范式编程语言高效开发不同风格因子medium
DolphinDB(因子研发流程)衍生因子生成方式在计算得到一些因子后,可再次使用 DolphinDB 实时计算产生基于这些因子的衍生因子high
投研效率(因子研发)变化投研效率得到极大提升low
DolphinDB(因子评估)用途用于因子评估以测试因子有效性high
因子回测(此前方案)工具栈之前使用 Python 加上国外某知名云服务商的数据库进行因子回测medium
DolphinDB回测工具提供一些高效的回测工具medium
DolphinDB replay 函数用途可模拟真实生产环境,通过模拟回放将数据注入到流计算框架中,方便回测计算high
DolphinDB replay 回放回放形式与速率控制可使用不同回放形式,并设置不同回放速率进行匀速、倍速或极速回放high
DolphinDB replay 回放多表回放能力可将多个表的数据回放到同一张表中high
WILLIAM O’NEIL 因子回测业务迁移计划未来计划将该块业务逐渐迁移到 DolphinDB 中high
中高频历史数据量(WILLIAM O’NEIL)规模历史数据大概在 TB 级别high
DolphinDB(处理中高频数据)行情数据处理方式对输入的行情数据使用时间序列聚合引擎生成分钟级 K 线high
DolphinDB(处理中高频数据)因子生成方式根据分钟级 K 线使用自定义函数生成状态因子high
DolphinDB(处理中高频数据)输出与后续计算将输出结果指向另一个流数据表以方便之后的其他计算high
日线数据处理(WILLIAM O’NEIL)效果在 DolphinDB 助力下实现日线数据的高效处理medium
研究精度(WILLIAM O’NEIL)变化将研究的数据精度推进到分钟级high
研发效率(WILLIAM O’NEIL)变化在降低开发成本基础上极大提升研发效率low
tick 级数据流架构(WILLIAM O’NEIL)搭建时间去年搭建medium
Kafka 与 DolphinDB(WILLIAM O’NEIL)数据流架构使用 Kafka 连接数据流,然后传到 DolphinDB 中进行计算分析,最后得到所需数据high
tick 级数据流框架(WILLIAM O’NEIL)实时产出能力能够实时产生所需的市场信号medium
DolphinDB实时流计算框架核心部件最核心的部件是流计算引擎和流数据表high
流数据引擎(DolphinDB)支持的操作可进行时间序列处理、横截面处理、窗口处理、表关联和异常检测等操作high
流数据表(DolphinDB)作用可作为简化版的消息中间件,实现数据发布和订阅high
批流一体(WILLIAM O’NEIL 使用 DolphinDB)实现方式投研阶段封装的基于批量数据开发的因子函数可无缝投入实际生产,实现批流一体medium
DolphinDB(在 WILLIAM O’NEIL 环境)延时水平延时可以控制在毫秒级medium
DolphinDB(在 WILLIAM O’NEIL 环境)对需求满足度毫秒级延时完全满足需求low
此前中低频数据分析(WILLIAM O’NEIL)主要工具主要使用 Python 进行分析计算high
原系统(Python 为主的体系)在高频数据需求下的问题不能满足理想数据处理需求,尤其数据分析反应速度非常慢high
新产品选型需求(WILLIAM O’NEIL)能力要求需要高效处理时序数据,并且方便未来扩展high
KDB+未采纳原因语言晦涩、学习成本过高high
NoSQL Cassandra未采纳原因需要额外招人重构搭建且后续需专人维护,会极大增加成本high
DolphinDB 进入选型讨论的时间点时间21年初medium
金融行业时序数据产品格局(页面表述)趋势“非 KDB+ 即 DolphinDB”的两家争霸趋势low
DolphinDB(相对 KDB+ 的脚本/语言)脚本简洁性对照 KDB+ 算法例子展示后,使用 DolphinDB 语言编写脚本明显更简洁medium
DolphinDB(性能对比)相对 KDB+ 的性能在一些例子中,性能超越了 KDB+medium
基金经理(WILLIAM O’NEIL)对 KDB+ 的熟悉度当时基金经理们大多熟悉 KDB+medium
选型表决结果(WILLIAM O’NEIL)最终方案DolphinDB 以压倒性优势胜出medium
DolphinDB(总体评价)印象最深的特点高性能、易上手与及时支持medium
DolphinDB(性能)实时计算与响应速度可对实时数据快速计算与分析,实现毫秒级响应速度medium
DolphinDB(性能)对需求满足度完全满足高效处理时序数据的需求low
DolphinDB 脚本语言与 Python 的相似性脚本语言类似 Pythonmedium
DolphinDB学习支持资源提供很多官方的技术教程medium
具备 C 或 Python 开发经验的同事上手开发所需时间(页面表述)只需要2周、最多1个月即可对布置的项目上手开发medium
DolphinDB 技术支持团队响应速度评价响应速度非常好low
DolphinDB 新接口/函数需求交付(页面个案描述)上线周期不到一个月,需求会随着 DolphinDB 的新版本同时上线medium
DolphinDB(业务影响)整体改善给业务带来了极大的改善low
WILLIAM O’NEIL(跨国公司)推荐行为与国外同事交流时会推荐性能优秀的时序数据库 DolphinDBmedium
DolphinDB(国际发展期望)期望希望未来在国际上打出更高知名度low
客户行业行业私募high