向量数据库、主键存储引擎、高速网络 RDMA 框架……DolphinDB 版本更新啦!
本页以新闻形式发布 DolphinDB 版本更新,概览向量数据库、主键存储引擎与 RDMA 等重点方向,并包含发布日期信息。
What this page covers
- DolphinDB 版本更新新闻与概览
- VectorDB(向量检索、索引持久化、混合搜索)
- Tensor 数据类型与 LibTorch 推理插件集成
- PKEY 主键存储引擎与配置参数
- RDMA 通讯框架启用方式与性能声明
- SQL 兼容性与优化条目
- 流计算引擎功能增强条目
技能认证特训营第二期限时报名
页面顶部推广“技能认证特训营第二期”,并提供限时报名链接与福利优惠提示。
- 提供“技能认证特训营第二期”的报名入口。
- 报名入口以链接形式给出。
- 包含“限时”与“福利/优惠”相关提示。
新闻与版本更新概览
以新闻形式发布 DolphinDB 版本更新,点出向量数据库、主键存储引擎与 RDMA 等重点方向并给出发布日期。
- 该版本更新新闻给出发布日期信息。
- 更新涉及 DolphinDB 的多个版本号。
- 更新重点包括向量数据库(VectorDB)。
- 更新重点包括主键存储引擎相关能力。
- 更新重点包括高速网络 RDMA 通讯框架集成。
3.00.1 版本功能新增
介绍 3.00.1 版本新增能力,强调函数库扩展与针对业务与技术栈的新特性。
- 提到内置函数库规模接近 2000 个。
- 强调在 3.00.1 版本中有新增能力条目。
- 强调函数库扩展与新特性方向。
助力 FICC 业务:新增多个 FICC 相关函数
说明面向 FICC 场景新增分段线性回归与约束/无约束优化相关函数,并给出用途。
- 新增 piecewiseLinFit 函数。
- piecewiseLinFit 用于拟合分段线性回归函数。
- 新增 pwlfPredict 函数。
- pwlfPredict 根据回归模型对数据进行预测。
- 列出 brute、fminSLSQP、fminNCG、fminLBFGSB、fminBFGS 等优化函数用途。
海量数据的向量检索:VectorDB
介绍 DolphinDB 在 3.00.1 推出的 VectorDB(以 TSDB 为底层存储)及其向量检索、索引持久化与混合搜索等能力,并提到与文档检索系统结合计划。
- VectorDB 在 DolphinDB 3.00.1 中引入。
- VectorDB 以 TSDB 为底层存储引擎。
- VectorDB 通过向量索引支持向量相似度查询。
- VectorDB 支持索引持久化到磁盘并在重启后读取。
- VectorDB 支持混合搜索(关键字条件与向量检索结合)。
- 向量检索技术可用于 RAG 系统的知识库检索与上下文支持。
- 提到 DolphinDB AI 正在开发基于大模型的文档检索系统。
- 计划将向量数据库与 DolphinDB AI 结合以扩展知识库与提升生成质量。
强化深度学习集成:支持 Tensor 数据类型
说明新增 Tensor 数据类型、tensor 转换函数,以及 LibTorch 推理插件与其安装/版本可用性说明。
- DolphinDB V3.00.1 新增支持 Tensor 数据类型。
- tensor 用于将向量、矩阵、表等转换为 Tensor 数据形式。
- LibTorch 插件支持使用 Tensor 数据类型与 PyTorch 模型进行推理。
- LibTorch 插件可在数据库环境内完成查询、处理与模型预测。
- LibTorch 插件可在 3.00.1 及以上 Shark Server 通过插件市场安装。
保障主键唯一性,支持高负载写入:主键存储引擎
描述为 CDC/OLTP 同步场景推出 PKEY 主键存储引擎、创建方式与 primaryKeys/indexes 参数能力。
- PKEY 引擎用于 CDC 场景下实时高负载写入与高频更新。
- 创建数据库时可在 engine 参数指定引擎名 “PKEY”。
- PKEY 支持通过 primaryKeys 参数配置主键以保证数据唯一性与完整性。
- PKEY 支持通过 indexes 参数在非主键列上配置索引键以加速查询。
灵活应对多样业务逻辑:支持自定义分区函数
解释固定分区方式的局限,并说明 createPartitionedTable 与 create 的 partitionColumns 支持指定函数实现自定义分区,提供示例代码与结果展示。
- 指出固定分区方式存在局限性。
- partitionColumns 参数支持为分区列指定函数。
- 对分区列数据进行转换以实现自定义规则分区。
- 提供示例代码展示该能力的用法。
- 提供结果展示以说明分区效果。
网卡利用率提升:支持高速网络 RDMA 框架
介绍 RDMA 通讯优势、DolphinDB 3.00.1 通过 enableRDMA 配置启用,并声明相对 IPoIB 的网卡利用率性能提升及未来优化方向。
- 若网络设备支持 RDMA,可通过 enableRDMA 配置启用 RDMA 通讯架构。
- 相对 Linux IPoIB,声明网卡利用率约两倍性能提升。
- 提出未来将优化序列化部分以期实现零拷贝。
- 将 RDMA 作为 3.00.1 网络模块相关增强之一。
3.00.1 & 2.00.13 升级功能一览
汇总除重点功能外在 SQL、流计算、体验、分析能力与运维管理等方面的增强与优化条目。
- 包含 SQL 相关增强条目汇总。
- 包含流计算相关增强条目汇总。
- 包含分析能力与运维管理相关增强条目汇总。
SQL 兼容性增强
列出 SQL 语法兼容与性能优化项,包括 delete/join、insert into 分布式表、表注释、谓词下推与 join 性能提升。
- SQL DELETE / sqlDelete 支持通过 join 指定删除行。
- 分布式表增加对 insert into 语句的支持。
- 分布式表支持单行与批量写入。
- setTableComment 用于为分布式表添加表注释。
- 基于规则的优化器增强谓词下推支持。
流数据功能拓展
描述流计算引擎在响应式状态引擎、metrics 常数列、窗口触发与乱序处理等方面的增强。
- reactiveStateEngine 支持对 array vector 列使用 prev 函数。
- reactiveStateEngine 新增对 35 个 topN 状态函数的支持。
- 流计算引擎相关 metrics 支持指定为常数标量或向量。
- createOrderBookSnapshotEngine 新增 useSystemTime 参数以使用系统时间触发快照输出。
- TimeSeriesEngine 支持通过延时处理乱序数据。
数据库使用体验优化
说明新增 chimp 压缩算法支持与 TSDB Compaction 机制改进(Level 3/Level 4)以改善查询性能,并给出示例代码。
- 新版本增加对 chimp 压缩算法的支持。
- 可在建表时为 double 列指定 compressMethods。
- TSDB 引入 Level 3 Compaction 功能并引入 Level 4 概念。
- Level 3 与 Level 4 的 Level File 可同时参与 Compaction。
- 声明通过 Level 3/4 Compaction 改善查询性能。
数据分析能力更强大
从语言特性、函数扩展与远程计算角度列出新增/改进能力,如三元运算符、BLOB 支持、JIT 矩阵索引、vectorAR、精度提升与 remoteRunCompatible。
- DolphinDB 编程语言新增支持三元运算符 “?”。
- isDuplicated 支持 BLOB 类型去重。
- parseJsonTable 支持解析 BLOB 字段。
- JIT 支持处理矩阵索引并获取矩阵切片。
- 新增支持时间序列模型函数 vectorAR。
运维管理功能强化
列出内存缓存清理、作业日志保留与调度参数、用户资源采样与其他安全/配置项增强。
- clearAllCache 新增支持清理 TSDB 引擎相关缓存。
- jobLogRetentionTime 用于定时删除作业输出与返回值。
- scheduleJob 新增 priority 与 parallelism 参数。
- 集群间异步复制安全性增强:内部身份认证用户无需明文指定密码。
- pluginServerAddr 用于配置插件仓库地址以便下载提速与团队共享。
未完待续(后续重点功能规划)
罗列后续版本计划支持的重点方向,如存算分离、外部分区表、TextDB、物联网引擎、多集群运维、接口扩展与性能提升。
- 计划支持存算分离。
- 计划支持外部分区表(如 Parquet 直接 SQL 查询分析)。
- 计划支持 TextDB 倒排索引。
- 计划支持物联网点位管理引擎(窄表模式 ANY 类型)。
- 计划支持多集群监控运维与接口扩展。
Facts index
| Entity | Attribute | Value | Confidence |
|---|---|---|---|
| 技能认证特训营第二期 | registration_link | https://www.qingsuyun.com/h5/e/217471/5/ | high |
| DolphinDB 版本更新新闻 | publish_date | 2024.07.04 | high |
| DolphinDB | updated_versions | 3.00.1 与 2.00.13 | high |
| DolphinDB | introduced_vector_engine | 向量数据引擎 VectorDB,用于海量数据的向量检索 | high |
| DolphinDB | added_data_structure_support | 支持张量(Tensor)数据结构 | high |
| DolphinDB | added_inference_plugin_support | 支持模型推理插件 LibTorch | high |
| DolphinDB | integrated_network_framework | 集成高速网络 RDMA 通讯框架 | high |
| DolphinDB | added_storage_engine | 新增主键存储引擎(用于 CDC 场景实时高负载写入和高频更新) | high |
| DolphinDB | supported_custom_partition_function | 自定义分区函数(更灵活适配多样业务逻辑) | high |
| DolphinDB | added_financial_functions | 新增多个金融相关函数以助力 FICC 业务拓展 | medium |
| DolphinDB 新版本 | improved_standard_sql_compatibility | 提升对标准 SQL 的兼容性 | medium |
| DolphinDB 新版本 | enhanced_stream_computing_engine | 增强流计算引擎功能与易用性 | medium |
| DolphinDB 新版本 | upgraded_management | 从内存管理、作业管理和用户管理等方面升级数据库 | medium |
| DolphinDB 内置函数库 | function_count | 已接近 2000 个 | medium |
| piecewiseLinFit | availability | 在 3.00.1 与 2.00.13 版本中新增 | high |
| pwlfPredict | availability | 在 3.00.1 与 2.00.13 版本中新增 | high |
| piecewiseLinFit | purpose | 用于拟合分段线性回归函数 | high |
| pwlfPredict | purpose | 根据回归模型对数据进行预测 | high |
| brute | purpose | 通过穷举法在给定范围内最小化一个函数 | high |
| fminSLSQP | purpose | 使用顺序最小二乘编程方法找到目标函数的最小值 | high |
| fminNCG | purpose | 使用牛顿共轭梯度法对目标函数进行无约束最小化 | high |
| fminLBFGSB | purpose | 使用 L-BFGS-B 算法找到目标函数的最小值 | high |
| fminBFGS | purpose | 使用 BFGS 算法找到目标函数的最小值 | high |
| VectorDB | introduced_in_version | DolphinDB 3.00.1 | high |
| VectorDB | underlying_storage_engine | TSDB | high |
| VectorDB | capability | 通过对向量数据添加索引支持高效向量相似度查询,提高向量检索速度和响应时间 | high |
| VectorDB | capability | 索引持久化:将向量索引与其他二级索引(如 ZoneMap)一起持久化至磁盘,重启后可直接读取索引进行检索 | high |
| VectorDB | capability | 混合搜索:结合关键字检索(where 条件)与向量检索以提升搜索结果相关性(示例:电商按品牌/颜色并结合上传图片) | high |
| 向量检索技术 | role_in_system | 在检索增强生成(RAG)系统中用于从知识库找到与查询相关信息,为生成模型提供上下文支持 | high |
| DolphinDB AI | status | 正在开发基于大模型的文档检索系统 | high |
| DolphinDB | plan | 计划将向量数据库与 DolphinDB AI 结合以扩展知识库,并利用向量检索上下文提高生成结果质量与准确性 | medium |
| DolphinDB V3.00.1 | added_data_type | 新增支持 Tensor 数据类型 | high |
| tensor | purpose | 用于在 DolphinDB 中完成向量、矩阵、表等数据形式到 Tensor 数据形式的转换 | high |
| LibTorch 插件 | purpose | 支持使用 Tensor 数据类型以及 PyTorch 模型进行推理 | high |
| LibTorch 插件与 DolphinDB | workflow_claim | 可在数据库环境内完成数据查询、处理与模型预测,无需切换至 Python 环境 | medium |
| LibTorch 插件 | installation_availability | 目前可在 3.00.1 及以上的 Shark Server(DolphinDB 的 GPU 版本)中通过插件市场安装 | high |
| LibTorch 插件 | availability_change | 从 3.00.2 开始可在普通 DolphinDB Server 中使用 | high |
| PKEY (Primary Key Storage Engine) | purpose | 适应 CDC 场景下实时高负载写入和高频更新需求,并保证主键唯一性 | high |
| 创建主键存储引擎 | database_engine_parameter | 创建数据库时在 engine 参数新增引擎名“PKEY” | high |
| PKEY 引擎 | primary_key_configuration | 支持通过参数 primaryKeys 配置主键,以保证数据唯一性和完整性并减少查询去重开销 | high |
| PKEY 引擎 | secondary_index_configuration | 支持通过参数 indexes 在非主键列上配置自定义索引键以加速查询性能 | high |
| createPartitionedTable / create 语句 | partitionColumns_support | partitionColumns 参数支持为分区列指定函数,对分区列数据进行转换以实现自定义规则分区 | high |
| DolphinDB 3.00.1 网络模块 | rdma_enablement | 若网络设备支持 RDMA,只需通过配置项 enableRDMA 即可启用 RDMA 通讯架构 | high |
| DolphinDB RDMA 架构 | nic_utilization_performance_gain | 与 Linux 提供的 IPoIB 相比,网卡利用率约两倍性能提升 | medium |
| DolphinDB | future_optimization | 未来将致力于深度优化序列化部分,以期真正实现零拷贝 | medium |
| SQL DELETE 语句 / sqlDelete 函数 | enhancement | 支持通过 join 来指定删除行 | high |
| 分布式表 | enhancement | 增加对 insert into 语句的支持,并支持单行/批量写入 | high |
| setTableComment | purpose | 为分布式表添加表注释 | high |
| 基于规则的优化器 | enhancement | 优化实现并增强谓词下推支持 | high |
| 多表 join | performance_improvement | 提升性能 | medium |
| reactiveStateEngine | enhancement | 支持对 array vector 列使用 prev 函数 | high |
| reactiveStateEngine | added_state_functions | 新增对例如 cumTopN、tmTopN 等 35 个 topN 状态函数的支持 | high |
| 流计算引擎 metrics | enhancement | createReactiveStateEngine、createAsofJoinEngine 等的 metrics 支持指定为常数标量或向量 | high |
| createOrderBookSnapshotEngine | new_parameter | 新增参数 useSystemTime,支持使用系统时间触发快照输出 | high |
| TimeSeriesEngine | out_of_order_handling | 支持基于数据窗口关闭时间设置延时以处理乱序数据 | high |
| chimp 压缩算法 | support | 新版本增加对 chimp 压缩算法的支持,可在 createPartitionedTable 与 createTable 为 double 列指定 compressMethods | high |
| TSDB 存储引擎 | compaction_change | 引入 Level 3 Compaction 功能并引入 Level 4 概念,允许 Level 3 与 Level 4 的 Level File 同时参与 Compaction | high |
| TSDB 存储引擎 | performance_impact | 通过 Level 3/4 Compaction 改善查询性能 | medium |
| DolphinDB 编程语言 | new_operator | 新增支持三元运算符 ? | high |
| isDuplicated | data_type_support | 支持 BLOB 类型的去重 | high |
| parseJsonTable | data_type_support | 支持 BLOB 字段的解析 | high |
| JIT | enhancement | 支持处理矩阵索引,可通过 column/columns/row/rows 获取矩阵切片 | high |
| vectorAR | availability | 新增支持时间序列模型函数 vectorAR | high |
| std/stdp/var/varp/skew/kurtosis | enhancement | 提高计算精度 | high |
| interval | enhancement | 拓展对交易日历的支持 | high |
| remoteRunCompatible | purpose | 与 remoteRun 功能相同,但对本地和远程数据库的版本不做限制 | high |
| clearAllCache | enhancement | 新增支持清理 TSDB 引擎相关的缓存 | high |
| jobLogRetentionTime | purpose | 用于定时删除作业的输出和返回值 | high |
| scheduleJob | new_parameters | 新增参数 priority 和 parallelism,用于设置定时任务优先级和并行度 | high |
| version 函数 | enhancement | 拓展返回的版本信息以便版本定位 | high |
| 集群间异步复制安全性 | enhancement | 通过内部身份认证的用户无需明文指定用户密码 | medium |
| pluginServerAddr | purpose | 用于配置插件仓库地址,以便下载提速和团队共享 | high |
| DolphinDB 后续版本规划 | planned_features | 支持存算分离、外部分区表(如 Parquet 直接 SQL 查询分析)、TextDB 倒排索引、物联网点位管理引擎(窄表模式 ANY 类型)、多集群监控运维、嵌入式 Swordfish 增加 Python/Java 接口、提升 AI DataLoader 性能、提升 SQL 多表关联性能、回测引擎引入 Class 机制并通过 Class JIT 优化提升高频回测性能 | medium |