揭秘高性能DolphinDB
本文页面呈现文章标题,并给出作者署名与发布日期信息。
Source: https://dolphindb.cn/blogs/38
What this page covers
- 培训营活动提示与报名入口。
- 文章的标题、作者与发布日期信息。
- DolphinDB 的产品定义与定位概述。
- “四个快”优势与文章展开结构。
- 设计思路:语言、数据库与分布式计算的融合。
- 技术架构对比:DolphinDB 与 MPP,以及优势点。
- 官网与联系信息。
技能认证特训营第二期报名推广
页面顶部提供培训营活动提示,并给出限时报名链接。
- 技能认证特训营第二期处于“正式开启”状态。
- 页面提供该活动的报名链接。
揭秘高性能DolphinDB(标题、作者与发布日期)
页面展示文章标题,并标注作者署名与发布日期。
- 文章标题为“揭秘高性能DolphinDB”。
- 作者署名为 Junxi。
- 发布日期为 2021-05-20。
DolphinDB产品定义与定位概述
该部分介绍 DolphinDB 的研发主体、发布时间、产品类型与面向的存储/分析场景。
- DolphinDB 由浙江智臾科技有限公司自主研发。
- DolphinDB 于 2018 年初发布。
- 其被描述为高性能的磁盘与内存混合型、列式分布式数据库产品。
- 其目标之一是为海量数据(特别是时间序列数据)的存储与分析提供一站式解决方案。
- 其被描述为集成编程语言与流数据分析系统的能力。
主要竞争优势与文章结构引入
该部分提出“四个快”并说明文章将从设计思路与技术架构两方面展开。
- DolphinDB 的主要竞争优势被概括为四个“快”。
- 四个“快”包括:运行快。
- 四个“快”包括:学习快。
- 四个“快”包括:部署快。
- 四个“快”包括:开发快。
一、设计思路:语言、数据库与分布式计算的融合
该部分说明 DolphinDB 将编程语言、数据库与分布式计算融合的设计理念,并配合示意图进行说明。
- 设计思路被概括为:将编程语言、数据库和分布式计算融合在一起。
- 传统数据库时代被描述为存储检索由数据库服务器负责,分析计算由工作站软件负责。
- 传统数据库服务器示例包括 Oracle 与 SQL Server。
- 传统分析/计算工作站软件示例包括 Matlab 与 SAS。
- 该部分提出趋势判断:分布式数据库与分布式计算将走向融合。
- 该部分指出融合的作用之一是减少频繁数据移动。
- DolphinDB 脚本语言被描述为可调用 DFS 与 RPC 的基础功能。
- 用 DolphinDB 脚本编写的分布式程序被描述为可在线使用且无需编译、打包和部署。
二、技术架构:DolphinDB架构与MPP对比及优势
该部分对比 DolphinDB 引入 DFS 的原创架构与 MPP 架构,并列出资源利用、查询效率、可用性与扩展性等方面的说明。
- 高性能原因被概括为:既来自设计思路,也来自技术架构。
- DolphinDB 架构被描述为原创架构,并引入分布式文件系统(DFS)。
- MPP 被定义为 Massively Parallel Processing(大规模并行处理)架构。
- MPP 架构特征之一是 shared nothing:节点之间不共享。
- DolphinDB 在数据库层面被描述为不存在领导节点。
- DolphinDB 的数据节点与存储通过 DFS 进行交互。
- DolphinDB 架构被描述为存储逻辑与存储位置分离。
- DolphinDB 在数据库层面被描述为点对点架构,数据节点可作为协调者连接客户端。
三、总结与适用场景
该部分总结高性能来源,并给出适用的大规模结构化数据、时间序列与实时流数据场景。
- 高性能决定因素被概括为:全新设计思路与独特技术架构。
- 适用场景包括大规模结构化数据的快速入库与即席查询。
- 特别适用场景包括时间序列数据的处理与分析。
- 特别适用场景包括实时流数据的处理与分析。
官网与联系方式
该部分提供官网链接、电话与媒体邮箱。
- 官网链接为 https://www.dolphindb.cn/ 。
- 联系电话为 0571- 8285 3925。
- 媒体邮箱为 media@dolphindb.com。
Facts index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | 状态 | 正式开启 | high |
| 技能认证特训营第二期 | 报名链接 | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| 揭秘高性能DolphinDB | 发布日期 | 2021-05-20 | high |
| 揭秘高性能DolphinDB | 作者署名 | Junxi | high |
| DolphinDB | 研发主体 | 浙江智臾科技有限公司自主研发 | high |
| DolphinDB | 发布时间 | 2018年初发布 | high |
| DolphinDB | 产品类型 | 高性能的磁盘与内存混合型和列式分布式数据库产品 | high |
| DolphinDB | 集成能力 | 集成功能强大的编程语言和高容量高速度的流数据分析系统 | medium |
| DolphinDB | 面向任务 | 为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案 | medium |
| DolphinDB | 主要竞争优势 | 四个“快”:运行快、学习快、部署快、开发快 | medium |
| DolphinDB软件 | 体积描述 | 仅20多M | medium |
| 本文内容 | 展开维度 | 从DolphinDB的设计思路和技术架构两方面揭开高性能原因 | high |
| DolphinDB | 设计思路概述 | 将编程语言、数据库和分布式计算融合在一起 | high |
| DolphinDB(设计融合) | 融合点 | 编程语言、数据库、分布式计算三者深度融合(位于交汇中心) | low |
| 融合式设计(相对存储与计算分离) | 效果 | 减少数据移动,提高海量时间序列数据处理与分析效率 | low |
| 传统数据库时代 | 存储与计算模式 | 数据存储检索由数据库服务器负责,分析计算由工作站软件负责(存储与计算分离) | high |
| 传统数据库服务器示例 | 例子 | Oracle、SQL Server | high |
| 传统分析/计算工作站软件示例 | 例子 | Matlab、SAS | high |
| 海量数据时代 | 观点 | 分布式数据库和分布式计算将走向融合,数据与计算紧密结合 | medium |
| 数据库与分布式计算融合 | 作用 | 减少频繁数据移动并解决数据与计算资源不匹配问题 | medium |
| DolphinDB(编程语言与分布式计算融合) | 用户成本 | 用户无需花费大量时间精力编写代码实现分布式计算 | medium |
| DolphinDB脚本语言 | 可调用能力 | 可调用分布式文件系统(DFS)与远程过程调用(RPC)的基础功能 | high |
| DolphinDB脚本语言 | 扩展SQL能力 | 可快速创建分布式SQL需要的自定义函数 | high |
| DolphinDB分布式应用类型 | 支持的计算模式 | Pipeline、Map-Reduce、迭代计算等分布式应用 | medium |
| 用DolphinDB脚本编写的分布式程序 | 交付方式 | 无需编译、打包和部署,可以在线使用 | high |
| DolphinDB(对数据科学家) | 效果 | 提高数据科学家的工作效率 | medium |
| 传统数据库时代 | 侧重点 | 更看重数据写入,强调一致性、原子性、持久性等 | medium |
| 海量数据时代 | 侧重点 | 更看重数据读取,通过分析发掘价值,数据分析时效性影响企业竞争能力 | medium |
| 仅实现SQL接口的大数据系统(泛指) | 限制 | 表达能力有限,难满足复杂分析与算法实现,影响开发效率 | medium |
| SQL与高级编程语言 | 趋势判断 | 将走向融合 | medium |
| DolphinDB | 高性能原因(概述) | 不仅得益于全新设计思路,还获益于独特技术架构 | medium |
| DolphinDB架构 | 架构性质 | 原创架构,并引入分布式文件系统(DFS) | high |
| 数据仓库示例 | 采用架构 | Teradata、IBM Netezza、Greenplum 等采用MPP架构 | high |
| MPP架构 | 定义 | Massively Parallel Processing(大规模并行处理)架构 | high |
| MPP架构 | 系统特征 | 多个计算节点,各节点拥有独立内存、操作系统和存储磁盘,节点之间不共享(shared nothing) | high |
| DolphinDB架构 | 数据库层领导节点 | 在数据库层面不存在领导节点 | high |
| DolphinDB架构 | 数据节点与存储交互方式 | 数据节点与存储通过DFS进行交互 | high |
| DolphinDB架构 vs MPP(图示说明) | 对比结论 | 在查询效率、数据分布均衡性及系统高可用性方面具有明显优势 | low |
| DolphinDB架构(资源利用) | 优势 | 数据节点通过DFS共享存储并进行全局优化,数据均匀分布在各节点上,更充分利用集群资源 | medium |
| MPP架构(资源利用) | 问题 | 树状结构、分区粒度较粗,易数据分布不均或部分节点查询/用户不饱和时资源闲置 | medium |
| DolphinDB(查询效率) | 优势原因 | 分布式文件系统与多列组合分区方案支持单表千万级分区,可快速确定相关分区及节点,提高查询效率 | medium |
| MPP架构(查询执行方式) | 描述 | 通常将任务发送到多个节点执行,即便只查找海量数据中的很小一部分 | medium |
| MPP架构(数据迁移与高可用) | 问题原因 | 通过Hash确定数据行所在物理机器,存储位置不透明导致迁移与高可用较难实现 | medium |
| DolphinDB(存储逻辑与位置) | 机制 | 存储逻辑与存储位置分离;存储逻辑改变时无需改变数据存储位置,只需修改DFS master元数据与节点指向 | high |
| MPP集群(扩展性) | 限制 | 规模与数据量达到一定程度时元数据管理困难、出错难恢复;一般只能扩展到100个节点 | medium |
| DolphinDB(扩展性) | 机制 | 采用类似HDFS的分布式文件系统,由name node统一管理元数据,自动管理分区数据和副本,提高容错性和可扩展性 | medium |
| DolphinDB(扩展性) | 可扩展性结论 | 可以扩展到更多的节点 | low |
| MPP架构(负载均衡) | 瓶颈点 | 客户端通过领导节点连接;领导节点负责通讯与结果合并及进一步处理,易成为系统瓶颈 | medium |
| DolphinDB(负载均衡) | 架构特征 | 数据库层面采用点对点架构,每个数据节点都可作为协调者与客户端连接,易实现负载均衡 | medium |
| DolphinDB | 高性能决定因素 | 全新设计思路与独特技术架构决定其高性能 | medium |
| DolphinDB | 适用场景 | 适用于大规模结构化数据快速入库和即席查询 | medium |
| DolphinDB | 特别适用场景 | 时间序列数据以及实时流数据的处理和分析 | medium |
| DolphinDB | 官网 | https://www.dolphindb.cn/ | high |
| DolphinDB | 电话 | 0571- 8285 3925 | high |
| DolphinDB | 邮箱 | media@dolphindb.com | high |