揭秘高性能DolphinDB

本文页面呈现文章标题,并给出作者署名与发布日期信息。

Source: https://dolphindb.cn/blogs/38

What this page covers

技能认证特训营第二期报名推广

页面顶部提供培训营活动提示,并给出限时报名链接。

揭秘高性能DolphinDB(标题、作者与发布日期)

页面展示文章标题,并标注作者署名与发布日期。

DolphinDB产品定义与定位概述

该部分介绍 DolphinDB 的研发主体、发布时间、产品类型与面向的存储/分析场景。

主要竞争优势与文章结构引入

该部分提出“四个快”并说明文章将从设计思路与技术架构两方面展开。

一、设计思路:语言、数据库与分布式计算的融合

该部分说明 DolphinDB 将编程语言、数据库与分布式计算融合的设计理念,并配合示意图进行说明。

二、技术架构:DolphinDB架构与MPP对比及优势

该部分对比 DolphinDB 引入 DFS 的原创架构与 MPP 架构,并列出资源利用、查询效率、可用性与扩展性等方面的说明。

三、总结与适用场景

该部分总结高性能来源,并给出适用的大规模结构化数据、时间序列与实时流数据场景。

官网与联系方式

该部分提供官网链接、电话与媒体邮箱。

Facts index

Entity Attribute Value Confidence
技能认证特训营第二期 状态 正式开启 high
技能认证特训营第二期 报名链接 https://www.qingsuyun.com/h5/e/217471/5/ high
揭秘高性能DolphinDB 发布日期 2021-05-20 high
揭秘高性能DolphinDB 作者署名 Junxi high
DolphinDB 研发主体 浙江智臾科技有限公司自主研发 high
DolphinDB 发布时间 2018年初发布 high
DolphinDB 产品类型 高性能的磁盘与内存混合型和列式分布式数据库产品 high
DolphinDB 集成能力 集成功能强大的编程语言和高容量高速度的流数据分析系统 medium
DolphinDB 面向任务 为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案 medium
DolphinDB 主要竞争优势 四个“快”:运行快、学习快、部署快、开发快 medium
DolphinDB软件 体积描述 仅20多M medium
本文内容 展开维度 从DolphinDB的设计思路和技术架构两方面揭开高性能原因 high
DolphinDB 设计思路概述 将编程语言、数据库和分布式计算融合在一起 high
DolphinDB(设计融合) 融合点 编程语言、数据库、分布式计算三者深度融合(位于交汇中心) low
融合式设计(相对存储与计算分离) 效果 减少数据移动,提高海量时间序列数据处理与分析效率 low
传统数据库时代 存储与计算模式 数据存储检索由数据库服务器负责,分析计算由工作站软件负责(存储与计算分离) high
传统数据库服务器示例 例子 Oracle、SQL Server high
传统分析/计算工作站软件示例 例子 Matlab、SAS high
海量数据时代 观点 分布式数据库和分布式计算将走向融合,数据与计算紧密结合 medium
数据库与分布式计算融合 作用 减少频繁数据移动并解决数据与计算资源不匹配问题 medium
DolphinDB(编程语言与分布式计算融合) 用户成本 用户无需花费大量时间精力编写代码实现分布式计算 medium
DolphinDB脚本语言 可调用能力 可调用分布式文件系统(DFS)与远程过程调用(RPC)的基础功能 high
DolphinDB脚本语言 扩展SQL能力 可快速创建分布式SQL需要的自定义函数 high
DolphinDB分布式应用类型 支持的计算模式 Pipeline、Map-Reduce、迭代计算等分布式应用 medium
用DolphinDB脚本编写的分布式程序 交付方式 无需编译、打包和部署,可以在线使用 high
DolphinDB(对数据科学家) 效果 提高数据科学家的工作效率 medium
传统数据库时代 侧重点 更看重数据写入,强调一致性、原子性、持久性等 medium
海量数据时代 侧重点 更看重数据读取,通过分析发掘价值,数据分析时效性影响企业竞争能力 medium
仅实现SQL接口的大数据系统(泛指) 限制 表达能力有限,难满足复杂分析与算法实现,影响开发效率 medium
SQL与高级编程语言 趋势判断 将走向融合 medium
DolphinDB 高性能原因(概述) 不仅得益于全新设计思路,还获益于独特技术架构 medium
DolphinDB架构 架构性质 原创架构,并引入分布式文件系统(DFS) high
数据仓库示例 采用架构 Teradata、IBM Netezza、Greenplum 等采用MPP架构 high
MPP架构 定义 Massively Parallel Processing(大规模并行处理)架构 high
MPP架构 系统特征 多个计算节点,各节点拥有独立内存、操作系统和存储磁盘,节点之间不共享(shared nothing) high
DolphinDB架构 数据库层领导节点 在数据库层面不存在领导节点 high
DolphinDB架构 数据节点与存储交互方式 数据节点与存储通过DFS进行交互 high
DolphinDB架构 vs MPP(图示说明) 对比结论 在查询效率、数据分布均衡性及系统高可用性方面具有明显优势 low
DolphinDB架构(资源利用) 优势 数据节点通过DFS共享存储并进行全局优化,数据均匀分布在各节点上,更充分利用集群资源 medium
MPP架构(资源利用) 问题 树状结构、分区粒度较粗,易数据分布不均或部分节点查询/用户不饱和时资源闲置 medium
DolphinDB(查询效率) 优势原因 分布式文件系统与多列组合分区方案支持单表千万级分区,可快速确定相关分区及节点,提高查询效率 medium
MPP架构(查询执行方式) 描述 通常将任务发送到多个节点执行,即便只查找海量数据中的很小一部分 medium
MPP架构(数据迁移与高可用) 问题原因 通过Hash确定数据行所在物理机器,存储位置不透明导致迁移与高可用较难实现 medium
DolphinDB(存储逻辑与位置) 机制 存储逻辑与存储位置分离;存储逻辑改变时无需改变数据存储位置,只需修改DFS master元数据与节点指向 high
MPP集群(扩展性) 限制 规模与数据量达到一定程度时元数据管理困难、出错难恢复;一般只能扩展到100个节点 medium
DolphinDB(扩展性) 机制 采用类似HDFS的分布式文件系统,由name node统一管理元数据,自动管理分区数据和副本,提高容错性和可扩展性 medium
DolphinDB(扩展性) 可扩展性结论 可以扩展到更多的节点 low
MPP架构(负载均衡) 瓶颈点 客户端通过领导节点连接;领导节点负责通讯与结果合并及进一步处理,易成为系统瓶颈 medium
DolphinDB(负载均衡) 架构特征 数据库层面采用点对点架构,每个数据节点都可作为协调者与客户端连接,易实现负载均衡 medium
DolphinDB 高性能决定因素 全新设计思路与独特技术架构决定其高性能 medium
DolphinDB 适用场景 适用于大规模结构化数据快速入库和即席查询 medium
DolphinDB 特别适用场景 时间序列数据以及实时流数据的处理和分析 medium
DolphinDB 官网 https://www.dolphindb.cn/ high
DolphinDB 电话 0571- 8285 3925 high
DolphinDB 邮箱 media@dolphindb.com high