上海财经大学基于 DolphinDB 的量化高频数据中心系统介绍

本页介绍上海财经大学团队因历史数据采集与访问性能问题选择并采购 DolphinDB,并由主讲人介绍基于 DolphinDB 的量化高频数据中心系统。

Source: https://dolphindb.cn/customer-case/detail/8

What this page covers

技能认证特训营第二期报名活动 (cta)

页面顶部提供活动通知与限时报名链接。

页面导航与当前位置 (navigation)

页面包含客户案例入口与“上海财经大学”相关的当前位置导航信息。

上海财经大学基于 DolphinDB 的量化高频数据中心系统介绍(概述) (hero)

上财团队因历史数据采集与访问性能问题选择并采购 DolphinDB,并说明文章主讲人与主题。

既有系统痛点与技术尝试 (definition)

旧系统在存储、压缩、调用和运算方面存在问题,并回顾 HDF5 检索系统与 Hive 等尝试及不足。

新系统目标与总体介绍范围 (product_overview)

基于 DolphinDB 的量化高频数据中心系统总体性能良好,并说明后续将从多个维度介绍系统。

客户案例封面图(图示说明) (misc)

包含封面图片及其 AI 说明,主题指向上财与 DolphinDB 客户案例。

研发背景 (definition)

列出个性化行情需求、历史采集与实时处理现状,以及自建系统难点。

数据类型 (product_overview)

说明研究数据类型、采集频率、覆盖范围与入库规模。

功能架构 (feature_list)

概述系统的采集、调度、存储、ETL 一致性与多语言接口扩展能力。

中心功能模块介绍 (how_it_works)

介绍数据中心六大模块,并描述采集、存储、处理、应用、监控与对外接口的内容。

架构介绍 (how_it_works)

说明 AirFlow 调度标识与顺序控制,数据写入 DolphinDB 集群/内存并拼接校验,提供输出与后台管理能力。

写入性能测试 (comparison)

在同等硬件条件下对比 MongoDB 与 DolphinDB 写入一周 Tick 数据的耗时,并说明实现方式与限制。

读取性能测试 (comparison)

描述读取一年数据的测试,并提到分区分表方案与实际速度描述。

实时数据计算性能 (comparison)

说明借助 DolphinDB 流计算引擎实现 10 毫秒内因子计算,并支持订阅多个合约与因子数据。

选择 DolphinDB (value_proposition)

从性能、分布式稳定性与学习门槛等角度阐述选型原因与使用体验。

综上所述(应用与合作评价) (case_study)

总结系统满足业务需求、用于教学科研与合作项目,并给出对 DolphinDB 的评价与合作描述。

客户案例封面图(再次出现) (trust_signal)

再次展示客户案例封面图并附 AI 说明。

客户简介 (misc)

给出行业类别与上海财经大学的概况信息。

Facts Index

Entity Attribute Value Confidence
技能认证特训营第二期报名链接https://www.qingsuyun.com/h5/e/217471/5/high
上海财经大学实验团队尝试搭建新系统的原因为解决大量历史数据采集慢、访问慢以及行情实时处理困难等问题。high
上海财经大学实验团队(历史尝试)使用过的存储/系统尝试过使用Hadoop、MongoDB等存储数据,但性能不能满足需求。high
上海财经大学正式采购 DolphinDB 时间2019年(由于良好的试用体验正式采购DolphinDB)high
本文主讲人身份与内容介绍由谢斐教授介绍基于DolphinDB的量化高频数据中心系统。high
上海财经大学旧系统主要问题在数据存储、压缩、调用和运算方面存在很大问题,需要耗费大量时间进行数据整理。high
专门压缩系统(存储大量二进制文件)无法处理的问题无法处理多来源冗余等问题。high
可存储HDF5并直接检索的系统(上财团队总结经验后建立)不足响应速度慢、无法动态管理数据。high
Hadoop hive 系列不足不能高效研究结构化数据,需要将结构化问题转化为MapReduce脚本后处理。high
基于 DolphinDB 的量化高频数据中心系统(Python编写)总体表现与解决的问题总体性能良好,主要解决长时间采集多数据点、实时因子计算和高频数据采集等问题;已成为教学和科研中的重要工具。high
量化高频数据中心系统后续介绍范围从研发背景、数据类型、功能架构、性能测试、选择DolphinDB和综上所述等方面介绍系统。high
行情厂商标准数据无法满足的个性化需求无法提供自定义的MinBar、HourBar、连续合约及自定义合约等拼接规则,导致量化策略无法实现。high
历史数据采集现状(上财团队)问题数据量大,采集慢,访问慢;采集一年数据可能要耗时几天,无法保证数据没有遗漏。high
行情实时处理现状(上财团队)问题缺乏高效的内存型数据库,无法实时计算因子。high
自建系统/工具(上财团队)困难自建数据库采集工具成本高,高频处理系统开发难度高。high
研究数据数据类型与频率主要研究level2公开数据:每只股票每3秒快照数据;逐笔成交与逐笔委托数据每10毫秒采集多笔。high
数据获取方式数据来源与范围通过数据商获取实时采集数据和盘后数据;范围为全市场,包括股票、债券、商品期货、金融期货和期权等。high
入库数据规模(上财团队研究)时间范围与体量入库2013年至今的市场全景数据;原始数据总计约60TB。high
量化高频数据中心系统(功能架构)高速自动采集能力可高速、自动采集证券或期货的历史数据(相较传统方案采用性能优秀、可靠性高的架构设计)。medium
量化高频数据中心系统工作流平台借助AirFlow工作流平台全自动调度处理金融资产高频历史数据。high
量化高频数据中心系统策略/工具数据计算基础结合实时行情为多因子量化投资策略等工具提供高效完整的数据计算基础。medium
DolphinDB在系统中的用途作为高性能分布式数据库用于数据存储。high
量化高频数据中心系统ETL方案作用采用ETL统一数据结构,保证数据质量和前后依赖关系,同时确保一致性和稳定性。high
量化高频数据中心系统第三方接口支持支持Python、C++、C#、Java等接口对接第三方系统。high
量化高频数据中心系统中心功能模块数量与名称六大模块:数据采集、数据存储、数据处理、上层应用、状态监控和对外接口。high
数据采集模块支持的数据文件与数据源支持CSV文件;可采集SQL、Orcale、万德、国泰安、通联、聚宽等数据源的历史行情、实时行情及基础数据。medium
数据存储模块(DolphinDB)存储内容DolphinDB存储流模式和库模式的Ticks和Bar、合约信息、基类、因子及自定义合约。high
数据存储模块(PostgresSQL)存储内容PostgresSQL存储数据中心的日志、任务、自动或手动计划及门户前端数据库信息。high
数据处理模块Builder功能拼接历史及实时Ticks为MinBar和HourBar,以及连续合约和配对合约。high
数据处理模块Validator功能校检日线数据和Tick数据的准确性。high
上层应用模块组成与功能管理后台提供合约管理(查询、自定义合约、连续合约和因子等);采集任务管理包括自动/手动采集、计划任务管理及数据完整性检查。high
状态应用模块提供能力提供AirFlow调度平台运行状态、日志服务及通知网关。high
对外接口模块API支持支持Python、C++、C#等API接口。high
数据中心调度(AirFlow)调度标识与作用使用TaskID、JobID调度系统运行顺序和状态;可保证数据采集完整性与出错重做机制。high
数据中心数据写入与处理写入位置与处理步骤将采集数据写入DolphinDB集群和内存以方便调用,并对数据进行拼接和校验。high
数据中心系统Exporter与Manager系统提供Exporter输出接口;通过Manager后台对整体进行配置和管理。high
写入性能测试对比对象与数据集在同等硬件条件下对比MongoDB与DolphinDB存储上海期货交易所一周Tick数据(712万条)的入库性能。high
写入性能测试结果(MongoDB)入库耗时入库一周tick级数据约1000秒左右。high
写入性能测试结果(DolphinDB)入库耗时入库上海期货交易所一周tick级数据约120秒左右。high
DolphinDB vs MongoDB(写入)速度对比结论DolphinDB写入速度超过MongoDB近8倍。high
DolphinDB多线程写入限制目前还不支持同区多线程写入。high
入库程序(基于DolphinDB特性编写)作用进行任务分派以实现入库保存(在同区多线程写入不支持的情况下)。high
采购决策(上财团队)与性能改进的关系相比MongoDB的速度提升效果明显,足以支持下决心采购这套商业系统。medium
DolphinDB技术支持团队提供的支持内容在数据入库和分区等方面提供方案,保证及时、专业的技术支持。medium
读取性能测试测试任务用基于DolphinDB研发的系统读取深市某股票一年数据并给出测试结果(图示)。medium
读取方案调整优化措施根据DolphinDB技术专家建议,对数据进行分区分表的新方案。high
读取性能(优化后)速度描述目前的实际速度要比表中的速度更加快。low
DolphinDB流计算引擎实时因子计算能力实际使用中可以实现10毫秒内因子计算(例如将行情数据转换为均线、K线等因子后存储)。high
系统订阅能力订阅对象可按需求订阅多个合约和因子数据。medium
上海财经大学2018年采购硬件规模采购5台服务器(256GB内存、十几TB硬盘)和一套服务系统,用于研究市场微观结构等。high
订单簿相关数据规模(上财研究场景)日数据量每天约八千万到一亿条。high
处理耗时对比(上财团队)使用DolphinDB前后耗时之前每天处理数据约3小时;现在使用DolphinDB一站式服务约30分钟完成处理。high
单机历史数据占用(高频量化研究)内存压力描述以周为单位、一年的历史数据在单机上占用很大内存。medium
上财团队(研究硬件)曾使用服务器内存曾使用512GB内存的服务器研究市场结构课题。high
全市场截面查询场景数据量(上财团队)所需数据量约500GB左右,经常会超限。high
分布式处理系统需求(上财团队)产生原因需要分布式处理系统;团队并非并行处理专家,面对500GB以上场景较为力不从心。high
DolphinDB集群资源(上财团队)总内存所有节点总内存为1.0TB。high
DolphinDB(上财使用体验)稳定性与自动分布式计算处理该数量级数据比较稳定快速,可以自动进行分布式计算。medium
DolphinDB学习门槛(上财教学体验)脚本语言与上手速度脚本语言类SQL;学生有Python基础,学习SQL后大概一周能上手DolphinDB。medium
课程教学内容(上财)覆盖主题包括数据导入、查询、策略回测及DolphinDB特性操作(如表拼接)。high
DolphinDB(面向金融与量化投资学生)易用性评价上手容易、使用友好的数据库。low
量化高频数据中心系统(基于DolphinDB)业务需求覆盖满足每天进行实时策略回测、模拟交易等业务需求。medium
量化高频数据中心系统(使用场景)适用项目类型用于学校科研项目及与券商、基金公司等合作项目,尤其在高频量化场景中使用。medium
上海财经大学课程DolphinDB的重要性DolphinDB已成为量化投资和程序化交易课程中非常重要的一部分。medium
DolphinDB(上财评价)特性评价好学、好用、好维护,适合IT力量薄弱的机构。low
上海财经大学与DolphinDB合作关系合作描述互相尊重、友好积极,期望未来有更多合作机会。low
客户简介行业高校。high
上海财经大学(Shanghai University of Finance and Economics)地理位置位于上海市。high
上海财经大学隶属关系中华人民共和国教育部直属的重点大学。medium
上海财经大学资质/项目标签位列国家“双一流”、[68]“211工程”、“985工程优势学科创新平台”。medium
上海财经大学起源时间与起源描述源于1917年南京高等师范学校开设的商科。high
上海财经大学学校定位描述中国人自主创办的第一所研究商学的高等学府。medium