上海财经大学基于 DolphinDB 的量化高频数据中心系统介绍
本页介绍上海财经大学团队因历史数据采集与访问性能问题选择并采购 DolphinDB,并由主讲人介绍基于 DolphinDB 的量化高频数据中心系统。
What this page covers
- 案例概述与背景(为什么选择 DolphinDB)。
- 旧系统痛点与历史技术尝试。
- 研发背景与个性化行情需求。
- 数据类型、采集频率、覆盖范围与规模。
- 功能架构:采集、调度、存储、ETL 与接口。
- 性能测试:写入、读取与实时计算。
- 选型原因与使用体验(性能、分布式、学习门槛)。
技能认证特训营第二期报名活动 (cta)
页面顶部提供活动通知与限时报名链接。
- 提供“技能认证特训营第二期”的报名入口。
- 报名链接指向 qingsuyun.com 的活动页面。
页面导航与当前位置 (navigation)
页面包含客户案例入口与“上海财经大学”相关的当前位置导航信息。
- 提供客户案例相关的导航入口。
- 展示面包屑式的当前位置提示。
上海财经大学基于 DolphinDB 的量化高频数据中心系统介绍(概述) (hero)
上财团队因历史数据采集与访问性能问题选择并采购 DolphinDB,并说明文章主讲人与主题。
- 选择 DolphinDB 的动因包含历史数据采集慢与访问慢等问题。
- 动因还包括行情实时处理困难等问题。
- 团队在试用体验良好后于 2019 年正式采购 DolphinDB。
- 主讲人由谢斐教授介绍基于 DolphinDB 的量化高频数据中心系统。
既有系统痛点与技术尝试 (definition)
旧系统在存储、压缩、调用和运算方面存在问题,并回顾 HDF5 检索系统与 Hive 等尝试及不足。
- 旧系统在数据存储、压缩、调用和运算方面存在较大问题。
- 旧系统需要耗费大量时间进行数据整理。
- 可存储 HDF5 并直接检索的系统存在响应速度慢的问题。
- 该类系统还存在无法动态管理数据的问题。
- Hadoop Hive 系列不利于高效研究结构化数据。
新系统目标与总体介绍范围 (product_overview)
基于 DolphinDB 的量化高频数据中心系统总体性能良好,并说明后续将从多个维度介绍系统。
- 系统主要解决长时间采集多数据点的问题。
- 系统覆盖实时因子计算相关问题。
- 系统覆盖高频数据采集相关问题。
- 后续介绍维度包括研发背景、数据类型、架构与性能测试。
- 系统已成为教学和科研中的重要工具。
客户案例封面图(图示说明) (misc)
包含封面图片及其 AI 说明,主题指向上财与 DolphinDB 客户案例。
- 展示客户案例相关的封面图元素。
- 配套文本说明指向上财与 DolphinDB 的案例主题。
研发背景 (definition)
列出个性化行情需求、历史采集与实时处理现状,以及自建系统难点。
- 行情厂商标准数据无法满足部分个性化拼接规则需求。
- 历史数据采集面临数据量大、采集慢与访问慢的问题。
- 采集一年数据可能耗时数天且难以保证无遗漏。
- 实时处理方面缺乏高效的内存型数据库以实时计算因子。
- 自建采集工具成本高,且高频处理系统开发难度高。
数据类型 (product_overview)
说明研究数据类型、采集频率、覆盖范围与入库规模。
- 主要研究 level2 公开数据。
- 快照数据频率为每只股票每 3 秒一次。
- 逐笔成交与逐笔委托数据以 10 毫秒频率采集多笔。
- 通过数据商获取实时采集数据与盘后数据。
- 入库数据覆盖 2013 年至今的市场全景数据,原始数据约 60TB。
功能架构 (feature_list)
概述系统的采集、调度、存储、ETL 一致性与多语言接口扩展能力。
- 支持高速、自动采集证券或期货的历史数据。
- 借助 AirFlow 工作流平台进行全自动调度处理。
- DolphinDB 用作高性能分布式数据库进行数据存储。
- 采用 ETL 统一数据结构以保证一致性、稳定性与质量。
- 支持 Python、C++、C#、Java 等接口对接第三方系统。
中心功能模块介绍 (how_it_works)
介绍数据中心六大模块,并描述采集、存储、处理、应用、监控与对外接口的内容。
- 系统包含六大模块:采集、存储、处理、上层应用、状态监控、对外接口。
- 数据采集模块支持 CSV 文件与多类数据源的采集。
- DolphinDB 存储 Ticks、Bar、合约信息、因子与自定义合约等。
- PostgresSQL 存储日志、任务、计划与门户前端数据库信息。
- 数据处理模块包含 Builder 与 Validator 等能力。
架构介绍 (how_it_works)
说明 AirFlow 调度标识与顺序控制,数据写入 DolphinDB 集群/内存并拼接校验,提供输出与后台管理能力。
- 使用 TaskID 与 JobID 控制调度运行顺序与状态。
- 调度机制可保证数据采集完整性与出错重做。
- 采集数据写入 DolphinDB 集群与内存以便调用。
- 写入后对数据进行拼接与校验处理。
- 系统提供 Exporter 输出接口与 Manager 后台配置管理。
写入性能测试 (comparison)
在同等硬件条件下对比 MongoDB 与 DolphinDB 写入一周 Tick 数据的耗时,并说明实现方式与限制。
- 测试对比对象为 MongoDB 与 DolphinDB 的写入性能。
- 测试数据为上期所一周 Tick 数据(712 万条)。
- MongoDB 入库一周 tick 级数据约 1000 秒左右。
- DolphinDB 入库一周 tick 级数据约 120 秒左右。
- 结论:DolphinDB 写入速度超过 MongoDB 近 8 倍。
- 限制:DolphinDB 目前不支持同区多线程写入。
- 入库程序可进行任务分派以实现入库保存。
读取性能测试 (comparison)
描述读取一年数据的测试,并提到分区分表方案与实际速度描述。
- 读取测试任务为读取深市某股票一年数据并给出测试结果(图示)。
- 根据技术专家建议采用分区分表的新方案。
- 页面提到优化后实际速度比表中速度更快(未给出具体数值)。
实时数据计算性能 (comparison)
说明借助 DolphinDB 流计算引擎实现 10 毫秒内因子计算,并支持订阅多个合约与因子数据。
- 借助 DolphinDB 流计算引擎可实现 10 毫秒内因子计算。
- 示例因子包括将行情数据转换为均线与 K 线等。
- 因子计算结果可进行存储。
- 系统可按需求订阅多个合约数据。
- 系统可按需求订阅多个因子数据。
选择 DolphinDB (value_proposition)
从性能、分布式稳定性与学习门槛等角度阐述选型原因与使用体验。
- 研究场景中日数据量约八千万到一亿条。
- 处理耗时从约 3 小时缩短到约 30 分钟(使用 DolphinDB 一站式服务)。
- 团队使用的 DolphinDB 集群所有节点总内存为 1.0TB。
- 使用体验提到可自动进行分布式计算且处理较稳定快速。
- 教学体验:学生有 Python 基础时,学习 SQL 后约一周可上手 DolphinDB。
综上所述(应用与合作评价) (case_study)
总结系统满足业务需求、用于教学科研与合作项目,并给出对 DolphinDB 的评价与合作描述。
- 系统满足每天进行实时策略回测等业务需求。
- 系统满足模拟交易等业务需求。
- 系统用于学校科研项目及与券商、基金公司等合作项目。
- 页面提到 DolphinDB 在相关课程中成为重要组成部分。
- 页面包含对 DolphinDB 的主观评价与合作期待(未量化)。
客户案例封面图(再次出现) (trust_signal)
再次展示客户案例封面图并附 AI 说明。
- 封面图在页面后段重复出现以强化案例主题呈现。
- 配套说明仍指向上财与 DolphinDB 客户案例主题。
客户简介 (misc)
给出行业类别与上海财经大学的概况信息。
- 客户行业类别为高校。
- 上海财经大学位于上海市。
- 页面描述其为教育部直属重点大学(表述来自页面)。
- 页面列出“双一流”“211工程”“985工程优势学科创新平台”等标签。
- 页面提到其起源于 1917 年南京高等师范学校开设的商科。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 上海财经大学实验团队 | 尝试搭建新系统的原因 | 为解决大量历史数据采集慢、访问慢以及行情实时处理困难等问题。 | high |
| 上海财经大学实验团队(历史尝试) | 使用过的存储/系统 | 尝试过使用Hadoop、MongoDB等存储数据,但性能不能满足需求。 | high |
| 上海财经大学 | 正式采购 DolphinDB 时间 | 2019年(由于良好的试用体验正式采购DolphinDB) | high |
| 本文主讲人 | 身份与内容介绍 | 由谢斐教授介绍基于DolphinDB的量化高频数据中心系统。 | high |
| 上海财经大学旧系统 | 主要问题 | 在数据存储、压缩、调用和运算方面存在很大问题,需要耗费大量时间进行数据整理。 | high |
| 专门压缩系统(存储大量二进制文件) | 无法处理的问题 | 无法处理多来源冗余等问题。 | high |
| 可存储HDF5并直接检索的系统(上财团队总结经验后建立) | 不足 | 响应速度慢、无法动态管理数据。 | high |
| Hadoop hive 系列 | 不足 | 不能高效研究结构化数据,需要将结构化问题转化为MapReduce脚本后处理。 | high |
| 基于 DolphinDB 的量化高频数据中心系统(Python编写) | 总体表现与解决的问题 | 总体性能良好,主要解决长时间采集多数据点、实时因子计算和高频数据采集等问题;已成为教学和科研中的重要工具。 | high |
| 量化高频数据中心系统 | 后续介绍范围 | 从研发背景、数据类型、功能架构、性能测试、选择DolphinDB和综上所述等方面介绍系统。 | high |
| 行情厂商标准数据 | 无法满足的个性化需求 | 无法提供自定义的MinBar、HourBar、连续合约及自定义合约等拼接规则,导致量化策略无法实现。 | high |
| 历史数据采集现状(上财团队) | 问题 | 数据量大,采集慢,访问慢;采集一年数据可能要耗时几天,无法保证数据没有遗漏。 | high |
| 行情实时处理现状(上财团队) | 问题 | 缺乏高效的内存型数据库,无法实时计算因子。 | high |
| 自建系统/工具(上财团队) | 困难 | 自建数据库采集工具成本高,高频处理系统开发难度高。 | high |
| 研究数据 | 数据类型与频率 | 主要研究level2公开数据:每只股票每3秒快照数据;逐笔成交与逐笔委托数据每10毫秒采集多笔。 | high |
| 数据获取方式 | 数据来源与范围 | 通过数据商获取实时采集数据和盘后数据;范围为全市场,包括股票、债券、商品期货、金融期货和期权等。 | high |
| 入库数据规模(上财团队研究) | 时间范围与体量 | 入库2013年至今的市场全景数据;原始数据总计约60TB。 | high |
| 量化高频数据中心系统(功能架构) | 高速自动采集能力 | 可高速、自动采集证券或期货的历史数据(相较传统方案采用性能优秀、可靠性高的架构设计)。 | medium |
| 量化高频数据中心系统 | 工作流平台 | 借助AirFlow工作流平台全自动调度处理金融资产高频历史数据。 | high |
| 量化高频数据中心系统 | 策略/工具数据计算基础 | 结合实时行情为多因子量化投资策略等工具提供高效完整的数据计算基础。 | medium |
| DolphinDB | 在系统中的用途 | 作为高性能分布式数据库用于数据存储。 | high |
| 量化高频数据中心系统 | ETL方案作用 | 采用ETL统一数据结构,保证数据质量和前后依赖关系,同时确保一致性和稳定性。 | high |
| 量化高频数据中心系统 | 第三方接口支持 | 支持Python、C++、C#、Java等接口对接第三方系统。 | high |
| 量化高频数据中心系统 | 中心功能模块数量与名称 | 六大模块:数据采集、数据存储、数据处理、上层应用、状态监控和对外接口。 | high |
| 数据采集模块 | 支持的数据文件与数据源 | 支持CSV文件;可采集SQL、Orcale、万德、国泰安、通联、聚宽等数据源的历史行情、实时行情及基础数据。 | medium |
| 数据存储模块(DolphinDB) | 存储内容 | DolphinDB存储流模式和库模式的Ticks和Bar、合约信息、基类、因子及自定义合约。 | high |
| 数据存储模块(PostgresSQL) | 存储内容 | PostgresSQL存储数据中心的日志、任务、自动或手动计划及门户前端数据库信息。 | high |
| 数据处理模块 | Builder功能 | 拼接历史及实时Ticks为MinBar和HourBar,以及连续合约和配对合约。 | high |
| 数据处理模块 | Validator功能 | 校检日线数据和Tick数据的准确性。 | high |
| 上层应用模块 | 组成与功能 | 管理后台提供合约管理(查询、自定义合约、连续合约和因子等);采集任务管理包括自动/手动采集、计划任务管理及数据完整性检查。 | high |
| 状态应用模块 | 提供能力 | 提供AirFlow调度平台运行状态、日志服务及通知网关。 | high |
| 对外接口模块 | API支持 | 支持Python、C++、C#等API接口。 | high |
| 数据中心调度(AirFlow) | 调度标识与作用 | 使用TaskID、JobID调度系统运行顺序和状态;可保证数据采集完整性与出错重做机制。 | high |
| 数据中心数据写入与处理 | 写入位置与处理步骤 | 将采集数据写入DolphinDB集群和内存以方便调用,并对数据进行拼接和校验。 | high |
| 数据中心系统 | Exporter与Manager | 系统提供Exporter输出接口;通过Manager后台对整体进行配置和管理。 | high |
| 写入性能测试 | 对比对象与数据集 | 在同等硬件条件下对比MongoDB与DolphinDB存储上海期货交易所一周Tick数据(712万条)的入库性能。 | high |
| 写入性能测试结果(MongoDB) | 入库耗时 | 入库一周tick级数据约1000秒左右。 | high |
| 写入性能测试结果(DolphinDB) | 入库耗时 | 入库上海期货交易所一周tick级数据约120秒左右。 | high |
| DolphinDB vs MongoDB(写入) | 速度对比结论 | DolphinDB写入速度超过MongoDB近8倍。 | high |
| DolphinDB | 多线程写入限制 | 目前还不支持同区多线程写入。 | high |
| 入库程序(基于DolphinDB特性编写) | 作用 | 进行任务分派以实现入库保存(在同区多线程写入不支持的情况下)。 | high |
| 采购决策(上财团队) | 与性能改进的关系 | 相比MongoDB的速度提升效果明显,足以支持下决心采购这套商业系统。 | medium |
| DolphinDB技术支持团队 | 提供的支持内容 | 在数据入库和分区等方面提供方案,保证及时、专业的技术支持。 | medium |
| 读取性能测试 | 测试任务 | 用基于DolphinDB研发的系统读取深市某股票一年数据并给出测试结果(图示)。 | medium |
| 读取方案调整 | 优化措施 | 根据DolphinDB技术专家建议,对数据进行分区分表的新方案。 | high |
| 读取性能(优化后) | 速度描述 | 目前的实际速度要比表中的速度更加快。 | low |
| DolphinDB流计算引擎 | 实时因子计算能力 | 实际使用中可以实现10毫秒内因子计算(例如将行情数据转换为均线、K线等因子后存储)。 | high |
| 系统订阅能力 | 订阅对象 | 可按需求订阅多个合约和因子数据。 | medium |
| 上海财经大学 | 2018年采购硬件规模 | 采购5台服务器(256GB内存、十几TB硬盘)和一套服务系统,用于研究市场微观结构等。 | high |
| 订单簿相关数据规模(上财研究场景) | 日数据量 | 每天约八千万到一亿条。 | high |
| 处理耗时对比(上财团队) | 使用DolphinDB前后耗时 | 之前每天处理数据约3小时;现在使用DolphinDB一站式服务约30分钟完成处理。 | high |
| 单机历史数据占用(高频量化研究) | 内存压力描述 | 以周为单位、一年的历史数据在单机上占用很大内存。 | medium |
| 上财团队(研究硬件) | 曾使用服务器内存 | 曾使用512GB内存的服务器研究市场结构课题。 | high |
| 全市场截面查询场景数据量(上财团队) | 所需数据量 | 约500GB左右,经常会超限。 | high |
| 分布式处理系统需求(上财团队) | 产生原因 | 需要分布式处理系统;团队并非并行处理专家,面对500GB以上场景较为力不从心。 | high |
| DolphinDB集群资源(上财团队) | 总内存 | 所有节点总内存为1.0TB。 | high |
| DolphinDB(上财使用体验) | 稳定性与自动分布式计算 | 处理该数量级数据比较稳定快速,可以自动进行分布式计算。 | medium |
| DolphinDB学习门槛(上财教学体验) | 脚本语言与上手速度 | 脚本语言类SQL;学生有Python基础,学习SQL后大概一周能上手DolphinDB。 | medium |
| 课程教学内容(上财) | 覆盖主题 | 包括数据导入、查询、策略回测及DolphinDB特性操作(如表拼接)。 | high |
| DolphinDB(面向金融与量化投资学生) | 易用性评价 | 上手容易、使用友好的数据库。 | low |
| 量化高频数据中心系统(基于DolphinDB) | 业务需求覆盖 | 满足每天进行实时策略回测、模拟交易等业务需求。 | medium |
| 量化高频数据中心系统(使用场景) | 适用项目类型 | 用于学校科研项目及与券商、基金公司等合作项目,尤其在高频量化场景中使用。 | medium |
| 上海财经大学课程 | DolphinDB的重要性 | DolphinDB已成为量化投资和程序化交易课程中非常重要的一部分。 | medium |
| DolphinDB(上财评价) | 特性评价 | 好学、好用、好维护,适合IT力量薄弱的机构。 | low |
| 上海财经大学与DolphinDB合作关系 | 合作描述 | 互相尊重、友好积极,期望未来有更多合作机会。 | low |
| 客户简介 | 行业 | 高校。 | high |
| 上海财经大学(Shanghai University of Finance and Economics) | 地理位置 | 位于上海市。 | high |
| 上海财经大学 | 隶属关系 | 中华人民共和国教育部直属的重点大学。 | medium |
| 上海财经大学 | 资质/项目标签 | 位列国家“双一流”、[68]“211工程”、“985工程优势学科创新平台”。 | medium |
| 上海财经大学 | 起源时间与起源描述 | 源于1917年南京高等师范学校开设的商科。 | high |
| 上海财经大学 | 学校定位描述 | 中国人自主创办的第一所研究商学的高等学府。 | medium |