直播回顾 | 「DolphinDB 核心技术解密」开幕,流式 SQL 开启实时数据处理新纪元
本页为「DolphinDB 核心技术解密」系列直播的回顾与资料入口,概述流式 SQL 技术分享要点,并提供课件与回放获取方式。
What this page covers
- 直播主题、主讲人信息与资料/回放获取方式。
- 高并发实时场景的架构痛点与引入流式 SQL 的动机。
- DolphinDB 流式 SQL 的系统设计、增量计算与内存策略。
- 流式 SQL 的关系代数算子模型与主要算子作用。
- 实时排序的索引优化机制(无序堆与索引协作)。
- 性能 demo、端到端延迟指标与后续优化方向。
- 加入技术交流群与预约后续直播的信息。
技能认证特训营第二期报名推广 (cta)
页面顶部提供技能认证特训营第二期的报名引导,包含限时报名与优惠提示。
- 提供“技能认证特训营第二期”的报名入口信息。
- 报名信息包含“限时报名”的提示。
- 报名信息包含“专属福利优惠”的提示。
文章标题与发布信息 (navigation)
页面展示文章栏目/标签、标题与发布日期等发布信息。
- 页面包含文章标题展示。
- 页面给出直播回顾文章的发布日期信息。
- 页面展示文章栏目或标签信息。
直播概述与获取资料/回放方式 (product_overview)
本段介绍直播主题、主讲人、内容聚焦点,并给出课件与回放的获取方式。
- 直播为「DolphinDB 核心技术解密」系列的一场技术分享。
- 本场直播聚焦“流式 SQL 处理技术分享”。
- 本场直播由 DolphinDB 研发副总监程训焘博士主讲。
- 关注 DolphinDB 公众号并回复【0807】可获取本次直播课件。
- 搜索 DolphinDB 视频号可查看完整直播回放。
为什么实时数据处理需要流式 SQL (definition)
通过企业数据处理架构演进与高并发实时场景的痛点,说明流式 SQL 的必要性,并引出 DolphinDB 流式 SQL 的机制背景。
- 早期架构可采用 MySQL 与应用端缓存满足基本业务需求。
- 业务扩大后可引入 Redis 与 MySQL 组合以提升读取速度。
- 高实时性场景示例包括金融交易与实时监控。
- 高并发请求会显著增加数据库负载并引入延迟与网络压力。
- DolphinDB 流式 SQL 被提出以应对高并发实时场景问题。
流式 SQL 计算代价最小化:系统设计 (how_it_works)
说明 DolphinDB 流式 SQL 的系统定位、增量计算方式与“内存换时间”策略,并给出架构流程的描述。
- 流式 SQL 用于处理流式场景,将批算法改为流算法。
- 目标包括降低计算延迟与网络传输压力。
- 增量计算基于历史结果与新数据增量更新查询结果。
- 增量计算避免每次重新扫描整个数据集。
- 采用“内存换时间”策略以减少磁盘 I/O 并提升计算速度。
流式 SQL 的核心工作机制(关系代数算子) (how_it_works)
介绍将关系代数算子建模为流计算算子的增量处理方式,并列举主要算子及其作用。
- 关系代数算子被建模为流计算算子以增量处理新到达数据。
- 主要算子包括 Projection、Filter、Join 与 Order by。
- Projection 用于选择特定列输出以减少数据维度。
- Filter 用于按条件过滤以减少数据量。
- Join 用于连接两个数据流以进行数据源整合与关联分析。
索引:提升流式 SQL 性能的关键 (feature_list)
描述实时排序的需求与传统方法的延迟问题,并介绍“无序堆+索引协作”的排序优化机制与维护方式。
- 传统排序在实时场景中可能因频繁重组数据而增加端到端延迟。
- DolphinDB 流式 SQL 设计“无序堆+索引协作”机制优化实时排序。
- 无序堆支持数据以任意顺序快速插入以保证写入效率。
- 索引存储键值与其在无序堆中的位置以定位实际数据。
- 插入、更新或删除会触发索引项的动态维护。
性能实测:实时处理能力展示 (case_study)
通过 demo 与测试结论展示流式 SQL 的持续更新结果获取方式、端到端延迟表现,并给出未来优化方向。
- demo 使用声明式流式 SQL 获取持续更新的结果表。
- demo 创建两个包含 1000 条随机数据的共享键值表 t1 与 t2。
- demo 通过 Query ID 订阅 SQL 结果。
- demo 对结果进行过滤(t1.value > 50.0)。
- demo 对结果进行排序(按 t1.id + t2.id 与 t1.value - t2.value 降序)。
- 性能测试提到最低端到端延迟约 7ms。
- 未来将优化流式查询计划优化器、执行器与算子等方向。
问答集锦 (faq)
回答流批一体、内存与性能平衡,以及排序等有状态操作的处理方式。
- DolphinDB 支持批处理与流处理融合,在一个系统中同时处理两种数据。
- 流批一体机制可复用一套核心代码用于批计算与流计算。
- “内存换时间”被描述为实现低延迟的必要手段。
- 优化器可自动选择执行策略,减少手动调整需求。
- 对排序、聚合等有状态操作,可通过维护索引跟踪数据变化以确保结果正确性。
加入技术交流群 (cta)
引导加入直播技术交流群,以获取材料、交流,并预约系列直播第二期。
- 加入技术直播交流群可获取 DolphinDB 直播材料。
- 交流群支持与技术人员交流。
- 可在交流群中预约「DolphinDB 核心技术解密」系列直播第二期。
- 系列直播第二期主题为《DolphinDB 即时编译计算加速技术分享》。
Facts Index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | status | 正式开启,提供限时报名与专属福利优惠(含报名链接) | high |
| 直播回顾文章 | publication_date | 2025.08.08 | high |
| 实时数据处理能力 | importance | 被描述为企业商业竞争的关键能力 | low |
| 「DolphinDB 核心技术解密」系列直播(流式 SQL 处理技术分享) | event_time | 2025年8月7日晚举行 | high |
| DolphinDB | speaker | 研发副总监程训焘博士主讲本场直播 | high |
| DolphinDB 流式 SQL | focus_of_talk | 聚焦流式 SQL 计算技术分享,解密 DolphinDB 核心技术 | medium |
| DolphinDB 公众号资料获取 | how_to_get_slides | 关注 DolphinDB 公众号并回复【0807】获取本次直播课件 | high |
| DolphinDB 视频号 | how_to_get_replay | 搜索 DolphinDB 视频号查看完整直播回放 | high |
| 企业数据处理架构演进 | gen1_architecture | 最初采用 MySQL + 应用端缓存以满足基本业务需求 | medium |
| 企业数据处理架构演进 | gen2_architecture | 业务扩大后引入 Redis,形成 MySQL 与 Redis 组合以提高读取速度、缓解数据库压力,适用于对实时性要求不高的场景(如电商、互联网) | medium |
| 高实时性业务场景 | examples | 金融交易、实时监控等 | high |
| 传统架构在高并发实时场景下 | problem | App 与 Web 并发请求导致数据库负载急剧增加,产生延迟和网络传输压力,影响体验与效率 | high |
| DolphinDB 流式 SQL | origin | 为应对高并发实时场景问题而提出 | medium |
| DolphinDB 流式 SQL | mechanism | 采用注册式订阅结果机制,构建以增量计算为核心的全新 SQL Engine | high |
| DolphinDB 流式 SQL | purpose | 专门用于处理流式场景,将批算法改为流算法以降低计算延迟与网络传输压力,并提高系统可扩展性 | high |
| DolphinDB 流式 SQL | incremental_computation | 基于之前计算结果与新的数据增量实时更新查询结果,无需每次重新扫描整个数据集 | high |
| DolphinDB 流式 SQL | performance_strategy | 采用“内存换时间”策略:将大量数据和中间结果存储在内存中以减少磁盘 I/O,换取更高效计算速度 | high |
| DolphinDB 流式 SQL 部署调优 | tuning_guidance | 可根据业务需求灵活调整内存使用与性能表现以达到帕累托最优(表述为目标/愿景) | low |
| DolphinDB Server 流式 SQL 引擎(架构说明) | data_ingestion | 数据通过 append 方式进入流内存存储引擎 | medium |
| DolphinDB Server 流式 SQL 引擎(架构说明) | execution_model | 根据注册的流 SQL 任务,由常驻执行器(Always-On Executor)进行增量计算,并将结果集实时推送给订阅客户端 | medium |
| DolphinDB 流式 SQL | operator_model | 将每个关系代数算子建模为流计算算子,以增量方式处理数据流中新到达的数据 | high |
| 增量处理方式 | benefits | 提高处理效率,降低系统延迟与资源消耗 | medium |
| 流式 SQL 主要算子 | operators | Projection(投影)、Filter(过滤)、Join(连接)、Order by(排序) | high |
| Projection(投影) | function | 选择特定列输出,用于减少数据维度、提高处理效率 | high |
| Filter(过滤) | function | 按条件过滤以减少数据量、快速筛选关注数据 | high |
| Join(连接) | function | 连接两个数据流,用于多数据源整合与复杂关联分析 | high |
| Order by(排序) | function | 通过索引维护顺序关系以确保排序高效,适用于实时监控与排序展示等 | high |
| 流式 SQL 算子表格(AI 说明) | comparison_scope | 对比四大算子在 Append/Update/Delete 时的处理逻辑,强调通过维护中间状态避免全表扫描、降低资源消耗与延迟 | low |
| 排序需求示例 | finance_example | 金融交易监控中按价格从高到低排序帮助迅速锁定获利机会 | medium |
| 排序需求示例 | iot_example | 物联网传感器数据监测中按时间戳排序呈现事件发展脉络 | medium |
| 传统排序方法在实时场景 | problem | 频繁移动/重组数据显著增加端到端延迟,可能导致错过最佳决策时机 | high |
| DolphinDB 流式 SQL | sorting_optimization | 设计无序堆存储与索引协作机制以优化实时排序 | high |
| 无序堆(Unordered heap) | benefit | 允许数据任意顺序快速插入,保证写入高效性 | high |
| 索引(在无序堆+索引机制中) | stored_information | 存储键值及其在无序堆中的位置,将排序键关联到行号并据此定位实际数据 | high |
| 索引维护(在无序堆+索引机制中) | maintenance | 数据插入、更新或删除时动态维护索引项 | high |
| 排序查询执行方式(在无序堆+索引机制中) | how_it_works | 索引提供已排序的键值序列,系统按索引顺序访问数据得到排序结果,避免频繁移动与重组数据以实现高性能低延迟 | high |
| 无序堆+索引机制(AI 说明) | implementation_detail | 图示提到基于跳跃表和堆构建的有序索引节点,并称可无需物理移动数据提供有序序列 | low |
| 性能 demo(直播中) | demo_description | 使用声明流式 SQL 获得持续更新结果表:创建两个包含1000条随机数据的共享键值表 t1、t2;使用 Query ID 订阅 SQL 结果;对结果进行过滤(t1.value > 50.0)与排序(按 t1.id + t2.id 和 t1.value - t2.value 降序) | high |
| 流式 SQL 实测代码示例(AI 说明) | workflow_shown | 演示定义共享键值表、声明流式表、注册包含 Join/Filter/多重 Order by 的流 SQL 任务并订阅结果表的全过程 | low |
| 性能测试端到端延迟 | minimum_latency | 最低端到端延迟约 7ms(插入、更新、混合处理包含增加/删除/更新的测试中) | medium |
| DolphinDB 未来优化方向 | roadmap_items | 将持续深耕流式查询计划优化器、流式执行器、流式算子优化;引入共享流式算子与共享内存哈希表等优化以应对复杂查询场景 | medium |
| DolphinDB | batch_stream_unified_processing | 支持批处理和流处理融合,可在一个系统中同时处理两种数据;流计算框架提供流批一体机制,可将一套核心代码同时用于批计算(投研)与流计算(交易)并保证结果一致 | high |
| 内存与性能平衡(stream sql) | guidance | 内存换时间是必要手段;高频交易可增加内存以确保低延迟;实时性不高的分析任务可减少内存以优化成本 | medium |
| DolphinDB 优化器 | execution_strategy | 可自动选择执行策略,不需要用户手动调整(用于内存与性能平衡场景) | medium |
| DolphinDB 对有状态操作的处理 | stateful_ops_handling | 对排序、聚合等有状态操作,通过维护索引跟踪数据变化,确保排序结果正确性,同时减少内存拷贝并提高性能 | medium |
| 技术直播交流群 | benefits | 可获取 DolphinDB 直播材料、与技术人员交流,并预约「DolphinDB 核心技术解密」系列直播第二期 | high |
| 「DolphinDB 核心技术解密」系列直播第二期 | topic | 《DolphinDB 即时编译计算加速技术分享》 | high |