开发大数据应用,不仅需要能支撑海量数据的分布式数据库,能高效利用多核多节点的分布式计算框架,更需要一门能与分布式数据库和分布式计算有机融合、高性能易扩展、表达能力强、满足快速开发和建模需要的编程语言。DolphinDB从流行的Python和SQL语言汲取了灵感,设计了大数据处理脚本语言。

开发大数据应用,不仅需要能支撑海量数据的分布式数据库,能高效利用多核多节点的分布式计算框架,更需要一门能与分布式数据库和分布式计算有机融合、高性能易扩展、表达能力强、满足快速开发和建模需要的编程语言。DolphinDB从流行的Python和SQL语言汲取了灵感,设计了大数据处理脚本语言。

kdb+号称是速度最快的时序数据库,很多客户和合作伙伴一直好奇DolphinDB与kdb+的性能对比。根据kdb+的license合规性要求,我们不提供官方的性能评测报告。最近有数据库领域的知乎网友使用纽约证券交易所的公开数据对DolphinDB和kdb+进行了性能测试对比。感兴趣的朋友可以通过链接查看原文:Kdb+有可能不再是最快的时序数据库?

DolphinDB是一款高性能的分布式时序数据库。它集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、分析及计算提供一站式解决方案。 Pandas是Python的一个包,最初被作为金融数据分析工具而开发,为时间序列分析提供了很好的支持。 DolphinDB是一个分布式系统,但也可以作为工作站使用。DolphinDB和Pandas都能够处理大文本文件,哪个的表现更出色呢?在处理大文本文件时,我们最关心的两个因素是性能和内存占用情况。因此,我们将从这两方面对DolphinDB和Pandas进行对比。

DolphinDB是由浙江智臾科技有限公司自主研发,于2018年初发布的高性能的磁盘与内存混合型和列式分布式数据库产品。DolphinDB集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。 DolphinDB的主要竞争优势体现在四个“快”:运行快、学习快、部署快和开发快。为什么仅20多M的软件能够超越市场上的同类产品呢?本文将从DolphinDB的设计思路和技术架构两方面来揭开谜底。

DolphinDB是一款高性能分布式时序数据库。DolphinDB集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、分析及计算提供一站式解决方案。DolphinDB操作简单,可扩展性强,具有良好的容错能力及优异的多用户并发访问能力。 DolphinDB极大地降低了大数据管理和分析系统的综合成本。由于DolphinDB的综合解决方案具有无与伦比的高性能和低维护成本优势,用户无需使用不同供应商的多个系统。DolphinDB database 可以在Linux或Windows系统、单个节点或集群、本地或云服务器中部署。

DolphinDB提供了流数据表(stream table)和流计算引擎用于实时数据处理,包括物联网中传感器数据的异常检测。内置的异常检测引擎(Anomaly Detection Engine)能满足大部分异常检测场景的需求。如果异常检测逻辑复杂且较为特殊,标准化的异常检测引擎不能满足要求,用户可以用自定义消息处理函数来实现。

在处理实时流数据时,不仅需要按照时间做纵向聚合计算(时间序列聚合引擎),还需要对最新的数据做横向比较和计算,如金融里对所有股票的最新报价求百分位、工业物联网中计算一批设备的温度均值等。DolphinDB database 提供了横截面聚合引擎,可以对流数据中所有分组的最新数据做聚合运算。 横截面引擎的主体分为两部分:横截面数据表和计算引擎。横截面数据是横截面引擎的内部表,保存了所有分组最新的截面数据。计算引擎是一组聚合计算表达式以及触发器,系统会按照指定的方式触发聚合运算,计算结果会输出到另外一个表中。

物联网设备(如机床、锅炉、电梯、水表、气表等等)无时无刻不在产生海量的设备状态数据和业务消息数据,这些数据的在采集、计算、分析过程中又常常涉及异常数据的检测。 DolphinDB作为一个高性能的分布式时序数据库 (time series database),内置了一个流数据框架,既能实时处理分析这些物联网数据,也能对历史数据进行计算分析,帮助用户利用、发挥这些数据的价值。DolphinDB内置的流数据框架支持流数据的发布、订阅、预处理、实时内存计算、复杂指标的滚动窗口计算等,是一个运行高效,使用便捷的流数据处理框架。具体介绍详见DolphinDB流数据教程。 针对异常数据检测的需求,DolphinDB提供基于流数据框架的异常检测引擎函数,用户只需指定异常指标,异常检测引擎就可以实时地进行异常数据检测。

DolphinDB是由智臾科技自主研发的新一代高性能分布式时序数据库,集成了功能强大的编程语言和流数据分析系统,为海量结构化数据的快速存储、检索、分析及计算提供一站式解决方案,在大规模数据处理与分析领域拥有世界领先的性能水平,适用于量化金融、物联网等各种对海量数据存储、查询及分析有极高要求的场景。从0.96版本开始,DolphinDB正式支持龙芯CPU。

我们重新对DolphinDB和InfluxDB进行对比测试,测试涵盖数据导入导出、数据查询和磁盘空间占用三个方面。测试的数据集也涵盖了日益流行的物联网数据集,以及规模更大的金融大数据集。
