“跨越数据边界:企业级实时计算平台构想”
页面引出演讲全文,并阐述大会主题与将 DolphinDB 打造成企业级实时计算平台的定位。
What this page covers
- 活动报名入口与外链信息。
- 新闻栏目、文章标题与发布日期信息。
- 年度峰会背景、演讲者、主题与平台演进概述。
- DolphinDB 架构演进对比(过去与当前)。
- Orca 构想:多集群协同的企业级实时计算平台定义。
- 核心问题:数据一致性与方案计划。
- 核心问题:计算依赖与声明式 API 构想。
技能认证特训营第二期限时报名入口
页面顶部提供活动报名提示与外链入口。
- 页面包含“技能认证特训营第二期”的报名链接信息。
- 该入口指向外部 H5 页面链接。
新闻栏目与文章标题信息
标识内容属于新闻栏目,并给出文章标题与发布日期。
- 文章标题为“跨越数据边界:企业级实时计算平台构想”。
- 文章发布日期以页面文字形式给出。
- 页面将该内容归类在新闻栏目下。
峰会背景与演讲主题简介
介绍年度峰会举办信息、演讲者与演讲主题,并概述 DolphinDB 从大数据平台到实时计算平台的演进与 Orca 构想。
- 页面给出峰会的举办日期与举办地点信息。
- 页面给出演讲者身份与姓名信息。
- 页面概述 DolphinDB 的演进方向与平台构想。
演讲全文引入与开场定位
引出演讲全文并阐述大会主题与将 DolphinDB 打造成企业级实时计算平台的定位。
- 本节作为演讲全文的引入与开场部分。
- 本节明确提出将 DolphinDB 打造为企业级实时计算平台的定位。
DolphinDB 发展历程:定位演变
讲述早期商业化与市场定位变化,从“一站式大数据平台”到“国产高性能时序数据库”,并说明定位带来的市场反馈与认知差异。
- 早期市场定位名称包括“一站式大数据平台”。
- 随后定位标签包括“国产高性能时序数据库”。
- 本节讨论市场认知与反馈随定位变化而变化。
架构演进对比:六年前与当前
通过两张架构图及说明对比 DolphinDB 早期与当前架构能力的扩展与增强。
- 六年前架构被概述为面向单一 OLAP 数据库的组成结构。
- 当前架构新增流计算与 GPU 异构计算能力。
- 当前存储层被描述为包含多模存储引擎。
- 函数库规模被描述为从 600+ 增长到 2000+。
- 多模态存储引擎由单一 OLAP 扩展为 5 个引擎列表。
企业级实时计算平台构想与命名 Orca
提出多集群协同的企业级实时计算平台需求,解释 Orca 命名由来及对企业级平台的朴素定义(协同、全局数据访问、企业级运维资源管控)。
- 多集群的数据访问、计算、运维需求被描述为更迫切。
- 企业级实时计算平台产品命名为 Orca(虎鲸)。
- 平台定义包含“全局唯一标识获取所需数据”的访问方式描述。
- 平台定义包含面向全机构全部集群的企业级运维与资源管控。
- 复杂任务/事件依赖关系难以清晰表达被指出为瓶颈。
特性一:金融业务支持的深度与宽度
论证实时计算平台需在金融业务上具备足够深度与广度,涵盖量化策略开发流程与多业务线支持,强调 DolphinDB 的金融业务中间件能力与覆盖场景扩展。
- 金融业务被描述为需要足够深度与宽度的支持。
- 量化策略开发流程包含多个阶段步骤的串联。
- 金融机构业务线被举例为多个不同方向。
- 业务支持宽度不足可能导致系统演变为信息孤岛。
- DolphinDB 覆盖金融业务场景的范围被描述为扩展到十余个场景。
新型开发模式:锯齿开发模型与业务中间件形态
描述 DolphinDB 的组成与业务中间件的四种实现方式,并提出共享底座的锯齿开发模型以提升效率降低成本,同时回应复杂度担忧与开放标准接口计划。
- DolphinDB 被概括为多模态存储、批计算、流计算、编程语言与业务中间件的组合。
- 业务中间件实现方式包括函数库、引擎、插件、模块。
- 锯齿开发模型强调共享底座并支持脚本或 API 进行二次开发。
- 页面回应“中间件增加复杂度”的担忧,强调基础架构保持不变的观点。
- 页面提到将更开放标准接口,更多中间件交由客户或第三方开发。
核心问题二:数据一致性与技术方案
定义企业级实时计算平台需解决的数据一致性(全局唯一数据视图)挑战,说明非技术与技术成因,并列出拟采用/计划推出的技术方案与版本节点。
- 平台需求之一是数据一致性问题与全局唯一数据视图。
- 非技术因素示例包括接口开放意愿与合规隔离要求。
- 方案提到采用存算分离与对用户无感的缓存以缓解不一致。
- 已发布能力包括集群间异步数据复制。
- 计划推进跨集群 SQL 计算与单点登录方案。
核心问题三:计算依赖与声明式 API 构想
说明金融任务依赖关系的复杂性与现有底层 API 的表达不足,提出引入声明式 API 将业务逻辑与实现解耦并由系统负责优化与调度。
- 风险指标计算可呈现复杂的计算依赖图。
- 行情与头寸变化被描述为可触发后续模型/指标变化。
- 现有底层 API 被描述为不擅长表达复杂依赖关系。
- 计划引入声明式 API 用于描述需求逻辑与任务依赖。
- 该方式被描述为有助于系统调度、状态管理与高可用相关处理。
运维、监控与资源管控:多集群管理与弹性伸缩
提出多集群运维监控与资源管控需求,计划通过新增 MoM 节点、多种可视化手段与状态管理实现多集群管理与资源弹性。
- 当前运维能力被描述为主要具备单一集群运维能力。
- 计划通过版本迭代提供多集群运维能力。
- 新增节点类型包括 Master of Master(MoM)。
- 可视化监控手段包括全局数据目录、计算依赖图与 Dashboard。
- 状态管理被描述为支持任务迁移与资源弹性伸缩。
结语与路线图:四个版本节点
总结打造企业级实时计算平台的研发投入与计划,给出未来一年分四个版本发布核心功能的时间节点并进行动员致谢。
- 核心功能实现计划被描述为分四个版本发布。
- 打造企业级实时计算平台被描述为接下来一年核心研发工作。
- 研发积累时长被叙述为已打下 12 年基础。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 文章 | 发布日期 | 2024.09.09 | high |
| 2024 DolphinDB 年度峰会(“以实时,见未来”) | 举办日期 | 9 月 6 日 | high |
| 2024 DolphinDB 年度峰会 | 举办地点 | 杭州 | high |
| DolphinDB | 演讲者与身份 | 创始人、CEO 周小华博士 | high |
| 演讲主题 | 标题 | 跨越数据边界:企业级实时计算平台构想 | high |
| DolphinDB 产品定位(未来) | 目标定位 | 打造为企业级的实时计算平台 | high |
| DolphinDB 发展路径 | 演进阶段 | 从“一站式大数据平台”到“高性能时序数据库”,再到“实时计算平台” | high |
| DolphinDB | 早期市场定位名称 | 一站式大数据平台 | high |
| InfluxDB | 市场地位(当时) | 时序数据库市场基本由国外开源产品 InfluxDB 占据 | medium |
| DolphinDB | 标签/定位(随后) | 国产高性能时序数据库 | high |
| Snowflake | 上市与市值(叙述中) | 20 年在纽交所上市,市值超 330 亿美元 | medium |
| PingCap | 融资金额(叙述中) | 2.7 亿美元融资 | medium |
| DolphinDB(六年前架构) | 系统组成(概述) | 分布式存储层、脚本引擎、批计算引擎、包含 600 余个函数的库,主要服务于单一 OLAP 数据库 | medium |
| DolphinDB(当前架构) | 计算引擎能力 | 新增流计算与 GPU 异构计算 | medium |
| DolphinDB(当前架构) | 存储层能力 | 包含 TSDB、OLAP、向量数据库等在内的多模存储引擎 | medium |
| DolphinDB 函数库规模 | 函数数量(当前) | 2000+ | high |
| DolphinDB 函数库规模 | 函数数量(过去) | 600+ | high |
| DolphinDB 多模态存储引擎 | 引擎数量与列表 | 从单一 OLAP 引擎扩展到 5 个引擎:OLAP、TSDB、PKEY、IMOLTP、VECTOR | high |
| DolphinDB 计算层 | 新增能力 | 增加流计算和 GPU 计算 Shark | high |
| DolphinDB 业务中间件能力 | 扩充方式 | 函数个数提升(600+→2000+),并增加大量插件、计算引擎和脚本模块覆盖金融业务 | medium |
| 金融机构使用现状(DolphinDB) | 多集群现象 | 一个机构拥有多个 DolphinDB 集群越来越普遍 | medium |
| 企业级实时计算平台 | 需求点 | 多集群的数据访问、计算、运维需求越来越迫切 | high |
| 企业级实时计算平台 | 瓶颈 | 复杂任务/事件依赖关系难以简单清晰表达成为瓶颈 | high |
| 企业级实时计算平台产品 | 命名 | Orca(虎鲸) | high |
| 单集群版本 | 名称与对应 | Dolphin(海豚) | high |
| GPU 版本 | 名称与对应 | Shark(鲨鱼) | high |
| 复杂事件处理引擎 | 名称与对应 | Octopus(章鱼) | high |
| Orca 命名原因(比喻) | 特性对应 | 虎鲸力量大、速度快、聪明、擅长家族协同作战,类比多集群多部门协同 | medium |
| 企业级实时计算平台(作者理解) | 协同支持对象与重点 | 协同支持金融机构多部门业务,尤其是复杂批计算/流计算任务或数据依赖关系表达要简单高效 | high |
| 企业级实时计算平台(数据访问) | 访问方式 | 给全局唯一标识即可得到所需数据,用户无需关心版本、位置、集群/服务器、是否同集群或是否高峰 | high |
| 企业级实时计算平台(运维资源) | 管理范围 | 运维监控与资源管控需企业级,可对整个机构全部集群进行管理 | high |
| 实时计算平台 | 关键行业场景 | 金融业务需要足够深度和宽度支持 | high |
| 普通量化策略开发流程 | 阶段 | 特征工程、因子评价、策略回测、代码转写、结果校验,最终实盘运行 | high |
| 计算平台业务支持不足 | 后果 | 策略研发落地耗时耗力,可能不如直接用 Python | medium |
| 金融机构业务线 | 范围示例 | 权益、FICC、行情、投研、交易、风控、合规等 | high |
| 平台业务支持宽度不足 | 风险 | 各业务系统易演变为孤立烟囱系统或信息孤岛 | high |
| DolphinDB | 差异化优势(声明) | 对金融业务的友好支持是其引以为傲且区别于其它基础软件的显著点 | low |
| DolphinDB 覆盖金融业务场景 | 覆盖数量(描述) | 从单一权益量化投研场景扩展到覆盖十余个场景 | medium |
| DolphinDB 软件概括 | 组成 | 多模态存储 + 批计算 + 流计算 + 编程语言 + 业务中间件 | high |
| 业务中间件 | 实现方式 | 内置函数库、内置引擎、插件、模块(4 种方式) | high |
| 锯齿开发模型 | 核心区别 | 不同业务系统共享由存储、计算和业务中间件构成的强大底座,懂业务的人写脚本或调 API 快速二次开发 | high |
| 锯齿开发模型 | 效果(声明) | 可大大提升金融业务开发效率、降低投入成本 | low |
| 业务中间件对系统复杂度的影响(回应) | 技术观点 | 业务中间件并非系统核心;无论开发 1 个或 100/1000 个中间件,DolphinDB 基础架构保持不变且不会增加系统复杂度 | medium |
| 业务中间件生态 | 开放计划 | 将更开放暴露标准接口,更多中间件交由客户或第三方开发 | medium |
| 企业级实时计算平台 | 核心问题之一 | 需要解决数据一致性问题(全局唯一数据视图) | high |
| 全局唯一数据视图支撑的业务 | 业务范围 | 行情、投研、交易、绩效、风控、合规等的数据写入、查询和计算 | high |
| 数据一致性概念对齐 | 类比/一致概念 | 与资管领域 IBOR 数据模型倡导的数据一致性或“黄金单一数据源”标准是同一类问题 | medium |
| 金融机构数据一致性 | 非技术原因示例 | 厂商不愿开放数据接口;合规要求部门间防火墙隔离数据 | high |
| DolphinDB 数据一致性方案 | 存算分离发布计划 | 采用存算分离与对用户无感的缓存解决数据不一致;第一个版本计划 10 月初发布 | medium |
| DolphinDB | 已发布能力 | 集群间异步数据复制 | high |
| DolphinDB 数据一致性方案 | 分布式复制协议示例 | Raft Learner 等分布式复制协议 | medium |
| DolphinDB 权限与跨集群 | 计划能力与时间 | 年底版本推出更全面的单点登录方案 | medium |
| DolphinDB | 在推能力 | 跨集群的 SQL 计算能力 | medium |
| DolphinDB 数据管理 | 在推方法 | 集群 + 集群内目录的二级数据目录管理方法(用于全局数据目录/全局唯一地址标识数据资源) | medium |
| 企业级实时计算平台 | 另一个挑战 | 计算依赖问题(部门间、任务间、模块间依赖) | high |
| 风险指标计算 | 计算形态 | 事后风控批处理与事中风控流式计算都会呈现复杂计算依赖图 | high |
| 实时计算依赖链 | 触发机制(示例) | 行情和头寸变化会触发后续模型/指标变化,最终计算机构风险指标 | medium |
| 企业级实时计算模式价值(金融) | 业务价值(声明) | 可大大提升机构对市场反应灵敏度 | low |
| DolphinDB 现有底层 API | 不足 | 不擅长表达复杂依赖关系;用户编写此类任务代码复杂且难维护,结合分布式与高可用更晦涩 | high |
| DolphinDB 计划能力 | 新接口形态 | 引入声明式(declarative)的 API 描述金融业务需求逻辑与任务依赖;后台将高层逻辑转化为底层 API 调用 | high |
| 声明式 API 方式 | 好处(描述) | 业务描述与具体实现分离;便于系统进行资源分配、调度、状态管理、副本选择、高可用与计划优化 | medium |
| DolphinDB 运维能力(当前) | 范围限制 | 目前只具备单一集群的运维能力 | high |
| 金融客户集群数量(现状) | 数量描述 | 已有数十家金融客户运行着 2 个以上的 DolphinDB 集群 | medium |
| DolphinDB 多集群运维计划 | 实现方式 | 通过几个版本迭代提供多集群运维能力 | medium |
| DolphinDB | 新增节点类型 | Master of Master(MoM)节点,用于便捷实现多集群运维 | high |
| DolphinDB 可视化监控 | 监控手段 | 通过全局数据目录、计算依赖图、Dashboard 对集群与运行任务提供可视化监控并支持下钻诊断 | high |
| Orca 计算资源 | 弹性能力 | 实时计算任务做好状态管理,可低代价迁移到其他节点,计算资源具备较好弹性伸缩能力 | medium |
| 企业级实时计算平台核心功能实现计划 | 发布节奏 | 分 4 个版本:今年 10 月、明年 1 月、5 月和 9 月 | high |
| DolphinDB 研发规划(时间范围) | 研发重点 | 打造企业级实时计算平台将是接下来一年最核心的研发工作 | medium |
| DolphinDB | 研发积累时长(叙述) | 已打下 12 年的基础 | medium |