复杂因子秒级计算,文谛资产是这样做到的...
这是一篇新闻栏目下的客户案例文章,围绕文章标题与发布日期信息展开。
What this page covers
- 公司与合作背景(文谛资产与 DolphinDB)。
- DolphinDB 的主要使用场景概览。
- 行情存储:入库、清洗、查询与分区/SQL 引擎做法。
- 因子挖掘:大规模数据计算、Python API、流计算与聚合能力。
- 模型回测:函数接口、元编程与 context by 等能力。
- 选型对比:Kdb+ 与 DolphinDB 的比较与结论。
技能认证特训营第二期报名推广
页面顶部提供限时报名活动的推广信息与链接入口。
- 该部分是报名活动的入口信息。
- 页面提供“技能认证特训营第二期”的报名链接。
新闻页面与文章标题/日期
页面呈现新闻栏目下的客户案例文章,并给出标题与发布日期信息。
- 文章标题为“复杂因子秒级计算,文谛资产是这样做到的...”。
- 页面提供文章发布日期信息。
公司与合作背景介绍(文谛资产与 DolphinDB)
该部分介绍文谛资产的业务定位与量化策略方向,并说明选择 DolphinDB 的背景、三年合作情况及作者信息。
- 文谛资产主要从事 CTA 和股票的量化策略研究与运作。
- 文章由文谛资产多位作者共同撰写,并标注其职务。
- DolphinDB 被描述为高性能的分布式时序数据库。
- 文中提到 DolphinDB 与文谛资产合作三年间的情况。
标题导图与说明(合作伙伴关系/客户案例)
该部分通过标题导图与说明,强调合作伙伴关系与“客户案例”的页面定位。
- 页面以导图与文字说明呈现客户案例定位。
- 该部分表达文谛资产与 DolphinDB 的合作伙伴关系。
使用场景概览
该部分概述 DolphinDB 的三类主要使用场景:行情存储、因子挖掘、模型回测。
- 使用场景之一是行情存储。
- 使用场景之一是因子挖掘。
- 使用场景之一是模型回测。
使用场景:行情存储
该部分描述使用 DolphinDB 进行行情数据入库、清洗、查询,并通过分区字段与 SQL 引擎提升检索效率。
- 行情存储用途包括数据入库、清洗与查询。
- 可提前确定分区字段与分区粒度以提升检索与分析效率。
- SQL 引擎可利用分区字段过滤以快速定位数据块。
- 该机制用于避免全表扫描以提高查询速度。
- 文中描述其对海量时序数据的清洗与高质量数据输出能力。
使用场景:因子挖掘
该部分描述在大规模数据与复杂运算任务中使用 DolphinDB 的编程语言、计算引擎、Python API,以及流计算框架与时间序列聚合引擎能力。
- 因子挖掘用于处理数据量庞大、运算复杂的任务。
- 文中描述的数据规模大概在几十 TB。
- 文中描述的每日新增数据量约为 70GB。
- DolphinDB 被描述为内置多范式编程语言与多种计算引擎。
- 可通过 Python API 将计算结果导入 Python 模型进行组合。
使用场景:模型回测(函数接口、context by 等)
该部分说明回测中使用函数接口、元编程与计算框架,并对比 context by 与 group by 的差异与效率影响。
- 回测中使用函数接口、元编程与计算框架进行高效回测。
- 文中给出函数示例:context by 与 crossStat。
- context by 被描述为 DolphinDB 的独创功能,用于时序数据快速分组。
- group by 每组只能返回一个标量值。
- context by 可使每组返回与组内元素数量相同的向量。
- 在回测工作中,group by 只能配合聚合函数使用。
- 在回测工作中,context by 可与移动窗口或累计等函数结合使用。
图示与说明:group by vs context by
该部分通过图示与说明解释 group by 与 context by 的返回结果形态差异,并关联到量化研发效率。
- 该部分用图示对比两种分组方式的返回结果形态。
- 该差异被用于说明对量化研发效率的影响。
元编程与并发计算框架(MapReduce)
该部分补充说明 DolphinDB 元编程与 MapReduce 并发计算能力,用于提升计算效率。
- 元编程具备读取、生成、分析及转化其他程序的功能。
- 可通过生成动态表达式与延迟执行,使运行时仍可修改代码。
- MapReduce 用于并发计算以提升计算效率。
使用效果(压缩比、秒级/分钟级计算、回测耗时)
该部分给出行情存储、因子挖掘、模型回测方面的效果描述与指标示例。
- 行情存储的压缩比例示例最高可以达到 10:1。
- 复杂因子计算(基于单日新增数据)可实现秒级计算。
- 复杂因子测试(使用大量历史数据)运算时间可控制在分钟级别。
- 模型回测支持数据项目化的批量处理。
- 某个特定参数测试的整体时间示例可以控制在 1 分钟内。
技术服务体验(支持响应、需求跟进、版本实现)
该部分描述与 DolphinDB 团队交流、技术咨询支持、调优指导与功能需求跟进实现等服务体验。
- 文中提到 2020 年与 DolphinDB 团队交流。
- 文中提到 DolphinDB CEO 周小华博士。
- 技术团队被描述为记录业务需求并在后续服务中逐一实现。
- 文中描述提供函数构建与调优方法指导及技术咨询响应。
- 文中描述对支持效率与专业程度的满意度。
时序数据库选型对比(Kdb+ vs DolphinDB)与结论
该部分对比 Kdb+ 与 DolphinDB 的技术支持、语法与学习成本、性能与引擎/函数库等因素,并给出最终选择 DolphinDB 的结论。
- 选型对比对象包括 Kdb+ 与 DolphinDB。
- 文中提到 Kdb+ 的国内技术支持不足与学习成本等问题。
- 文中给出关于 DolphinDB 在查询与存储性能方面的对比性结论表述。
- 文中提到 DolphinDB 的流计算引擎、压缩比、金融函数库与技术支持等理由。
- 选型结论为最终选择 DolphinDB。
学习和使用经验(上手周期、引擎、分区表与函数学习)
该部分给出学习路径与建议,包括具备 Python/SQL 基础的上手时间、理解存储引擎(OLAP/TSDB)、分区表原理与持续跟进版本迭代。
- 若具备 Python 与 SQL 基础,文中描述一两周时间可上手。
- DolphinDB 被描述为使用 OLAP 与 TSDB 两种引擎。
- 学习建议包括深入理解分区表工作原理以提升查询效率。
- 学习建议包括持续跟进版本迭代与新功能优化。
结尾与合作评价
该部分总结三年合作成效,并表达对未来发展的期待。
- 文中描述三年合作对量化投研的助力。
- 结尾表达对双方未来发展的期待。
文谛资产企业简介图与说明(图片内容为 AI 说明)
页面包含一张企业简介图片及其“AI 说明”文字描述(该说明为对图片内容的解读)。
- 该部分包含企业简介相关图片内容。
- 该部分包含对图片内容的“AI 说明”文字。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 复杂因子秒级计算,文谛资产是这样做到的... | 发布日期 | 2023.02.07 | high |
| 上海文谛资产管理有限公司(文谛资产) | 投资精神/理念 | 秉持理性、务实、高效、专业的投资精神,以创造长期稳定收益为投资目标 | medium |
| 上海文谛资产管理有限公司(文谛资产) | 主要业务 | 主要从事 CTA 和股票的量化策略研究与运作 | high |
| 本文作者(文谛资产) | 作者与职务 | 首席策略官刘一夫、首席框架官吴永华、首席数据分析师王哲共同撰写 | high |
| DolphinDB | 产品定位 | 高性能的分布式时序数据库 | high |
| DolphinDB 与文谛资产合作 | 合作时长 | 合作三年间 | high |
| DolphinDB(对文谛资产) | 提供的服务形态 | 集数据库、分布式计算和编程建模于一体的专业服务 | medium |
| 文谛资产使用 DolphinDB | 主要使用场景 | 行情存储、因子挖掘、模型回测 | high |
| 行情存储(DolphinDB) | 用途 | 数据入库、清洗与查询 | high |
| DolphinDB 分布式特性 | 使用方式 | 通过提前确定数据导入的分区字段与分区粒度,提高后续数据检索与分析效率 | high |
| DolphinDB SQL 引擎(查询) | 工作机制 | 以分区字段为数据过滤快速定位数据块,避免全表扫描以提高查询速度 | medium |
| DolphinDB(数据清洗) | 能力描述 | 对海量时序数据进行高效清洗,找出并消除残缺、错误或重复的数据并输出高质量数据 | medium |
| DolphinDB(数据清洗性能) | 稳定性对比描述 | 相比其他数据清洗工具随数据量增大性能会下降,DolphinDB 在实际应用中能够保持稳定性能 | low |
| 因子挖掘(DolphinDB) | 用途 | 处理数据量庞大、运算复杂的工作任务 | high |
| 文谛资产数据规模 | 总数据量 | 大概在几十 TB | medium |
| 文谛资产数据规模 | 每日新增数据量 | 约为 70GB | high |
| DolphinDB | 内置能力(编程/引擎) | 内置多范式编程语言与多种计算引擎 | medium |
| DolphinDB 与 Python | 集成方式 | 通过 Python API 将计算结果导入 Python 模型进行组合 | high |
| DolphinDB 流计算框架 | 支持能力 | 流数据发布、订阅、预处理、实时内存计算以及复杂指标计算 | medium |
| DolphinDB 时间序列聚合引擎 | 使用方式 | 设定几个参数指标并配合 wsum、corr 等聚合函数,可实现复杂的滑动时间窗口聚合计算 | medium |
| 模型回测(DolphinDB) | 使用能力 | 使用函数接口、元编程和计算框架进行高效回测 | high |
| DolphinDB 函数 | 示例函数 | context by、crossStat | high |
| context by(DolphinDB) | 产品特性声明 | 作为 DolphinDB 的独创功能可实现对时序数据的快速分组 | medium |
| context by vs group by | 返回结果差异 | group by 每组只能返回一个标量值;context by 可使每组返回与组内元素数量相同的向量 | high |
| group by(在回测工作中) | 使用限制 | 只能配合聚合函数使用 | medium |
| context by(在回测工作中) | 可结合的函数类型 | 可与其他聚合函数、移动窗口函数或累计函数等结合使用 | medium |
| DolphinDB(回测效率) | 效果描述 | 独创的诸多函数功能丰富、使用方便,切实有效帮助提升回测效率 | low |
| DolphinDB 元编程 | 能力描述 | 具备读取、生成、分析及转化其他程序的功能;可通过生成动态表达式以及延迟执行使研究人员在代码运行时仍可修改代码 | medium |
| MapReduce(DolphinDB 计算框架) | 用途 | 用于并发计算以提升计算效率 | medium |
| DolphinDB(行情存储) | 压缩比例上限(示例) | 最高可以达到 10:1 | high |
| DolphinDB(行情存储) | 效果描述 | 研究人员感受到压缩比率高、数据落库速度快 | low |
| 复杂因子计算(基于单日新增数据) | 计算耗时 | 可实现秒级计算 | medium |
| 复杂因子测试(使用大量历史数据) | 运算时间 | 甚至可以控制在分钟级别 | medium |
| DolphinDB(模型回测) | 支持能力 | 支持数据项目化的批量处理 | medium |
| 某个特定参数测试(模型回测示例) | 整体时间 | 可以控制在 1 分钟内 | medium |
| DolphinDB(模型回测) | 效率描述 | 对大量历史数据测试全方位特定参数从逻辑实现到产出整体效率非常高 | low |
| 文谛资产与 DolphinDB 团队交流 | 年份 | 2020年 | high |
| DolphinDB | CEO 信息 | CEO 周小华博士 | high |
| DolphinDB 技术团队(对文谛资产) | 服务内容 | 针对业务需求详细记录并在后续跟踪服务中逐一实现需求;提供专业建议 | medium |
| DolphinDB 工程师(支持) | 支持内容示例 | 教授函数构建与改善调优的方法;技术咨询在周末/很晚也能及时回复 | medium |
| DolphinDB(功能需求响应) | 实现速度描述 | 提出的特别功能需求很快在下一个版本中得到实现;从需求提出到实现速度惊人 | low |
| 文谛资产对 DolphinDB 技术支持 | 满意度 | 对支持效率与专业程度非常满意 | low |
| 时序数据库选型 | 主要对比对象 | Kdb+ 与 DolphinDB | high |
| Kdb+ | 定位描述 | 金融领域老牌时序数据库,名气大、使用面广 | low |
| Kdb+ | 不足(选型观点) | 国外厂商缺乏国内技术支持;语法晦涩;培训成本和学习成本较高 | medium |
| DolphinDB | 性能对比结论(选型观点) | 在查询和存储方面的性能明显优于其他数据库 | low |
| DolphinDB | 流计算能力(选型理由) | 具备多种流计算引擎,对流数据处理友好 | medium |
| DolphinDB | 压缩与金融函数库(选型理由) | 具有高压缩比,内置丰富的金融函数库 | medium |
| DolphinDB | 技术支持(选型理由) | 可提供及时专业的技术支持 | medium |
| DolphinDB(学习门槛) | 上手门槛描述(选型观点) | 上手门槛较低 | low |
| DolphinDB | 选型结论 | 最终选择集存储、计算与开发于一体的高性能分布式时序数据库 DolphinDB | high |
| DolphinDB(学习与使用经验) | 上手条件 | 如果有 Python 和 SQL 的语法基础,只需一两周时间就可以上手 | medium |
| DolphinDB | 存储引擎类型 | 使用 OLAP 和 TSDB 两种引擎 | high |
| DolphinDB(写入能力) | 写入吞吐描述 | OLAP 和 TSDB 两种引擎可以提供很高的写入吞吐 | low |
| 分区表(DolphinDB 学习建议) | 学习重点 | 深入理解分区表工作原理可大大提升数据查询效率 | medium |
| DolphinDB(学习建议) | 持续学习 | DolphinDB 不断优化提升与迭代新功能,要用好需保持学习态度并紧跟版本技术动态 | medium |
| DolphinDB(对文谛资产) | 合作成效描述 | 在友好合作的三年间切实有效助力文谛资产进行量化投研 | low |