“跨越数据边界:企业级实时计算平台构想”

页面引出演讲全文,并阐述大会主题与将 DolphinDB 打造成企业级实时计算平台的定位。

Source: https://dolphindb.cn/news/detail/296

What this page covers

技能认证特训营第二期限时报名入口

页面顶部提供活动报名提示与外链入口。

新闻栏目与文章标题信息

标识内容属于新闻栏目,并给出文章标题与发布日期。

峰会背景与演讲主题简介

介绍年度峰会举办信息、演讲者与演讲主题,并概述 DolphinDB 从大数据平台到实时计算平台的演进与 Orca 构想。

演讲全文引入与开场定位

引出演讲全文并阐述大会主题与将 DolphinDB 打造成企业级实时计算平台的定位。

DolphinDB 发展历程:定位演变

讲述早期商业化与市场定位变化,从“一站式大数据平台”到“国产高性能时序数据库”,并说明定位带来的市场反馈与认知差异。

架构演进对比:六年前与当前

通过两张架构图及说明对比 DolphinDB 早期与当前架构能力的扩展与增强。

企业级实时计算平台构想与命名 Orca

提出多集群协同的企业级实时计算平台需求,解释 Orca 命名由来及对企业级平台的朴素定义(协同、全局数据访问、企业级运维资源管控)。

特性一:金融业务支持的深度与宽度

论证实时计算平台需在金融业务上具备足够深度与广度,涵盖量化策略开发流程与多业务线支持,强调 DolphinDB 的金融业务中间件能力与覆盖场景扩展。

新型开发模式:锯齿开发模型与业务中间件形态

描述 DolphinDB 的组成与业务中间件的四种实现方式,并提出共享底座的锯齿开发模型以提升效率降低成本,同时回应复杂度担忧与开放标准接口计划。

核心问题二:数据一致性与技术方案

定义企业级实时计算平台需解决的数据一致性(全局唯一数据视图)挑战,说明非技术与技术成因,并列出拟采用/计划推出的技术方案与版本节点。

核心问题三:计算依赖与声明式 API 构想

说明金融任务依赖关系的复杂性与现有底层 API 的表达不足,提出引入声明式 API 将业务逻辑与实现解耦并由系统负责优化与调度。

运维、监控与资源管控:多集群管理与弹性伸缩

提出多集群运维监控与资源管控需求,计划通过新增 MoM 节点、多种可视化手段与状态管理实现多集群管理与资源弹性。

结语与路线图:四个版本节点

总结打造企业级实时计算平台的研发投入与计划,给出未来一年分四个版本发布核心功能的时间节点并进行动员致谢。

Facts Index

Entity Attribute Value Confidence
技能认证特训营第二期报名链接https://www.qingsuyun.com/h5/e/217471/5/high
文章发布日期2024.09.09high
2024 DolphinDB 年度峰会(“以实时,见未来”)举办日期9 月 6 日high
2024 DolphinDB 年度峰会举办地点杭州high
DolphinDB演讲者与身份创始人、CEO 周小华博士high
演讲主题标题跨越数据边界:企业级实时计算平台构想high
DolphinDB 产品定位(未来)目标定位打造为企业级的实时计算平台high
DolphinDB 发展路径演进阶段从“一站式大数据平台”到“高性能时序数据库”,再到“实时计算平台”high
DolphinDB早期市场定位名称一站式大数据平台high
InfluxDB市场地位(当时)时序数据库市场基本由国外开源产品 InfluxDB 占据medium
DolphinDB标签/定位(随后)国产高性能时序数据库high
Snowflake上市与市值(叙述中)20 年在纽交所上市,市值超 330 亿美元medium
PingCap融资金额(叙述中)2.7 亿美元融资medium
DolphinDB(六年前架构)系统组成(概述)分布式存储层、脚本引擎、批计算引擎、包含 600 余个函数的库,主要服务于单一 OLAP 数据库medium
DolphinDB(当前架构)计算引擎能力新增流计算与 GPU 异构计算medium
DolphinDB(当前架构)存储层能力包含 TSDB、OLAP、向量数据库等在内的多模存储引擎medium
DolphinDB 函数库规模函数数量(当前)2000+high
DolphinDB 函数库规模函数数量(过去)600+high
DolphinDB 多模态存储引擎引擎数量与列表从单一 OLAP 引擎扩展到 5 个引擎:OLAP、TSDB、PKEY、IMOLTP、VECTORhigh
DolphinDB 计算层新增能力增加流计算和 GPU 计算 Sharkhigh
DolphinDB 业务中间件能力扩充方式函数个数提升(600+→2000+),并增加大量插件、计算引擎和脚本模块覆盖金融业务medium
金融机构使用现状(DolphinDB)多集群现象一个机构拥有多个 DolphinDB 集群越来越普遍medium
企业级实时计算平台需求点多集群的数据访问、计算、运维需求越来越迫切high
企业级实时计算平台瓶颈复杂任务/事件依赖关系难以简单清晰表达成为瓶颈high
企业级实时计算平台产品命名Orca(虎鲸)high
单集群版本名称与对应Dolphin(海豚)high
GPU 版本名称与对应Shark(鲨鱼)high
复杂事件处理引擎名称与对应Octopus(章鱼)high
Orca 命名原因(比喻)特性对应虎鲸力量大、速度快、聪明、擅长家族协同作战,类比多集群多部门协同medium
企业级实时计算平台(作者理解)协同支持对象与重点协同支持金融机构多部门业务,尤其是复杂批计算/流计算任务或数据依赖关系表达要简单高效high
企业级实时计算平台(数据访问)访问方式给全局唯一标识即可得到所需数据,用户无需关心版本、位置、集群/服务器、是否同集群或是否高峰high
企业级实时计算平台(运维资源)管理范围运维监控与资源管控需企业级,可对整个机构全部集群进行管理high
实时计算平台关键行业场景金融业务需要足够深度和宽度支持high
普通量化策略开发流程阶段特征工程、因子评价、策略回测、代码转写、结果校验,最终实盘运行high
计算平台业务支持不足后果策略研发落地耗时耗力,可能不如直接用 Pythonmedium
金融机构业务线范围示例权益、FICC、行情、投研、交易、风控、合规等high
平台业务支持宽度不足风险各业务系统易演变为孤立烟囱系统或信息孤岛high
DolphinDB差异化优势(声明)对金融业务的友好支持是其引以为傲且区别于其它基础软件的显著点low
DolphinDB 覆盖金融业务场景覆盖数量(描述)从单一权益量化投研场景扩展到覆盖十余个场景medium
DolphinDB 软件概括组成多模态存储 + 批计算 + 流计算 + 编程语言 + 业务中间件high
业务中间件实现方式内置函数库、内置引擎、插件、模块(4 种方式)high
锯齿开发模型核心区别不同业务系统共享由存储、计算和业务中间件构成的强大底座,懂业务的人写脚本或调 API 快速二次开发high
锯齿开发模型效果(声明)可大大提升金融业务开发效率、降低投入成本low
业务中间件对系统复杂度的影响(回应)技术观点业务中间件并非系统核心;无论开发 1 个或 100/1000 个中间件,DolphinDB 基础架构保持不变且不会增加系统复杂度medium
业务中间件生态开放计划将更开放暴露标准接口,更多中间件交由客户或第三方开发medium
企业级实时计算平台核心问题之一需要解决数据一致性问题(全局唯一数据视图)high
全局唯一数据视图支撑的业务业务范围行情、投研、交易、绩效、风控、合规等的数据写入、查询和计算high
数据一致性概念对齐类比/一致概念与资管领域 IBOR 数据模型倡导的数据一致性或“黄金单一数据源”标准是同一类问题medium
金融机构数据一致性非技术原因示例厂商不愿开放数据接口;合规要求部门间防火墙隔离数据high
DolphinDB 数据一致性方案存算分离发布计划采用存算分离与对用户无感的缓存解决数据不一致;第一个版本计划 10 月初发布medium
DolphinDB已发布能力集群间异步数据复制high
DolphinDB 数据一致性方案分布式复制协议示例Raft Learner 等分布式复制协议medium
DolphinDB 权限与跨集群计划能力与时间年底版本推出更全面的单点登录方案medium
DolphinDB在推能力跨集群的 SQL 计算能力medium
DolphinDB 数据管理在推方法集群 + 集群内目录的二级数据目录管理方法(用于全局数据目录/全局唯一地址标识数据资源)medium
企业级实时计算平台另一个挑战计算依赖问题(部门间、任务间、模块间依赖)high
风险指标计算计算形态事后风控批处理与事中风控流式计算都会呈现复杂计算依赖图high
实时计算依赖链触发机制(示例)行情和头寸变化会触发后续模型/指标变化,最终计算机构风险指标medium
企业级实时计算模式价值(金融)业务价值(声明)可大大提升机构对市场反应灵敏度low
DolphinDB 现有底层 API不足不擅长表达复杂依赖关系;用户编写此类任务代码复杂且难维护,结合分布式与高可用更晦涩high
DolphinDB 计划能力新接口形态引入声明式(declarative)的 API 描述金融业务需求逻辑与任务依赖;后台将高层逻辑转化为底层 API 调用high
声明式 API 方式好处(描述)业务描述与具体实现分离;便于系统进行资源分配、调度、状态管理、副本选择、高可用与计划优化medium
DolphinDB 运维能力(当前)范围限制目前只具备单一集群的运维能力high
金融客户集群数量(现状)数量描述已有数十家金融客户运行着 2 个以上的 DolphinDB 集群medium
DolphinDB 多集群运维计划实现方式通过几个版本迭代提供多集群运维能力medium
DolphinDB新增节点类型Master of Master(MoM)节点,用于便捷实现多集群运维high
DolphinDB 可视化监控监控手段通过全局数据目录、计算依赖图、Dashboard 对集群与运行任务提供可视化监控并支持下钻诊断high
Orca 计算资源弹性能力实时计算任务做好状态管理,可低代价迁移到其他节点,计算资源具备较好弹性伸缩能力medium
企业级实时计算平台核心功能实现计划发布节奏分 4 个版本:今年 10 月、明年 1 月、5 月和 9 月high
DolphinDB 研发规划(时间范围)研发重点打造企业级实时计算平台将是接下来一年最核心的研发工作medium
DolphinDB研发积累时长(叙述)已打下 12 年的基础medium