DolphinDB和Druid都是分布式的分析型时序数据库。尽管前者使用c++开发,后者使用java开发,两者在架构、功能、应用场景等方面有很多共同点。本报告在SQL查询、数据导入、磁盘占用空间等方面对两者进行性能的对比测试。

DolphinDB和Druid都是分布式的分析型时序数据库。尽管前者使用c++开发,后者使用java开发,两者在架构、功能、应用场景等方面有很多共同点。本报告在SQL查询、数据导入、磁盘占用空间等方面对两者进行性能的对比测试。

Elasticsearch是一款非常流行的日志检索和分析工具,尤其在实时性、扩展性、易用性和全文检索方面有着非常优异的综合表现。知乎上有一篇文章,Golion:降维打击!使用ElasticSearch作为时序数据库,并且取得了非常不错的效果。很多知乎用户不禁询问,Elasticsearch是否可以用于海量金融数据的存储和分析? 为此我们对DolphinDB和Elasticsearch在不同规模的金融数据集做了综合的对比测试。测试的内容包括I/O,磁盘空间占用,内存消耗,数据库查询(过滤查询和分组统计)4大项。测试结果没有意外,在金融数据处理领域表现十分抢眼的时序数据库DolphinDB完胜Elasticsearch。

DolphinDB提供了两种导入MySQL数据的方法:ODBC插件和MySQL插件。我们推荐使用MySQL插件导入MySQL数据,因为它的速度比ODBC导入更快,导入6.5G数据,MySQL插件的速度是ODBC插件的4倍,并且使用MySQL插件无需任何配置,而ODBC插件需要配置数据源。

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对scikit-learn、Spark MLlib、DolphinDB、xgboost四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。本次测试使用模拟生成的数据作为输入进行二分类训练,并用生成的模型对模拟数据进行预测。

随着业务的扩展,数据量不断积累,数据库系统的数据容量和计算能力会逐渐不堪重负,因此优秀的数据库系统必须具备良好的扩展性。DolphinDB集群中的数据节点是集计算和存储于一体的,所以要提高计算能力和数据容量,只需针对数据节点即可。DolphinDB既支持水平扩展,即增加节点,也支持垂直扩展,即增加节点的存储。

实时流处理一般是将业务系统产生的数据进行实时收集,交由流处理框架进行数据清洗,统计,入库,并可以通过可视化的方式对统计结果进行实时的展示。传统的面向静态数据表的计算引擎无法胜任流数据领域的分析和计算任务。在金融交易、物联网、互联网/移动互联网等应用场景中,复杂的业务需求对大数据处理的实时性提出了更高的要求。对于这一类高实时性需求的场景,需要一个快速、高效、灵活可控的流式大数据处理平台来支撑。 DolphinDB内置的流数据框架支持流数据发布、订阅、流数据预处理、实时内存计算、复杂指标的滚动窗口计算等,是一个运行高效,使用便捷的流数据处理框架。

流数据是指随时间持续增长的动态数据。互联网的运营数据和物联网的传感器数据都属于流数据的范畴。流数据的特性决定了它的数据集是动态变化的,传统的面向静态数据表的计算引擎无法胜任流数据领域的分析和计算任务,所以流数据场景需要专门的计算引擎来处理。 DolphinDB提供了灵活的面向流数据的聚合引擎,通过createStreamAggregator函数创建流数据聚合引擎,能够持续不断地对已有的流数据做聚合计算,并且将计算结果持续输出到指定数据表中。

DolphinDB分区数据库教程(一)介绍了DolphinDB的几种分区方式,本文将会详细讲解DolphinDB的分区原则、特殊的分区方案,让用户对DolphinDB分区数据库有更深入的了解。


DolphinDB提供了详细的文本数据加载教程,以帮助用户导入数据。本文是以此为基础的一个实践案例,对每只股票每天一个csv文件的导入场景,提供了一个高性能的解决方案。
