解决方案
DolphinDB是由浙江智臾科技有限公司自主研发,于2018年发布的高性能的磁盘与内存混合型和列式分布式数据库产品。DolphinDB集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。
客户痛点
客户痛点
对大规模数据进行分析时,通常需要在数据库中将原始数据根据需要进行预处理,然后将数据转移到本地的分析系统(如Matlab,Python pandas等)。不但耗时,而且可能会受到分析系统内存的限制而无法完成任务。
DolphinDB解决方案

库内分析。DolphinDB无缝集成了数据仓库,分布式计算引擎和编程语言。即使是对海量数据复杂的分析运算也可在数据库中直接完成。

从应用的角度,库内分析大大提高系统的吞吐量,降低系统的延迟,方便交互式的数据分析,提升用户体验和研发效率。此外,可在动态数据集上进行实时的分布式计算和迭代计算,拓宽了应用场景,譬如在动态数据集上实时生成报表,实时生成量化交易需要的信号等。

DolphinDB的库内分析与事务紧密集成,提供了快照级别的隔离。当其它会话写入数据时,当前会话仍然可以进行计算。

与Apache Spark这样的外部计算引擎相比,库内分析的优势有三个:(1)避免了数据跨系统的移动,大大节省网络带宽以及延时。(2)当多个作业并行时,外部引擎会对同一份数据在内存中制作多份副本,而库内分析在内存中只保留一份副本,这不但节约了大量内存开销,而且提升了系统的并发性能。(3)在分布式计算或者迭代计算中,需要保持数据的一致性和隔离性,不受到外部写入的影响。Apache Spark这样的外挂引擎只能在静态数据集上工作,否则不能保证计算的准确性。

客户痛点
在基于sharding的数据库中对海量数据进行查询或计算时,由于业务需要,经常使用某些分区,造成热点问题。少数的硬件经常被用来处理大量查询或计算。
DolphinDB解决方案

DolphinDB基于分布式文件系统的分区机制,使分区更细致,大小更均匀,规划更灵活。若业务中经常需要使用某列的某些值域的分区,可使用组合分区将此值域的数据散布于各个服务器,避免产生热点问题。
 

客户痛点
部署基于Hadoop的大数据系统,一般需要建立多个集群,如文件系统集群,数据仓库集群,计算引擎集群。硬件采购,系统维护,人员配备等方面的成本很高。
DolphinDB解决方案
DolphinDB无缝集成数据仓库,分布式计算引擎和编程语言,将大数据系统的功能集成于同一套系统中,只需一套硬件设备,系统维护非常简便。DolphinDB的编程语言与SQL和Python类似,具有一般数据库基础的用户无需学习即可使用,极大扩展了用户群。DolphinDB显著降低了大数据系统的综合拥有成本。

客户痛点
数据库中缺乏专门处理时间序列数据的功能。许多与时间序列有关的任务必须通过冗长的代码实现,效率低下。
DolphinDB解决方案
DolphinDB内置众多时间序列函数及功能,如多种移动窗口函数,非同时连接(asof join,window join),独创的SQL语句CONTEXT BY等等,不仅极大方便用户编程,其性能也均经过优化,速度远超同类系统。
客户痛点
处理极大规模数据时,由于成本的考量,必须在本地部署时序数据库,而许多厂商只提供部署在云端的时序数据库。
DolphinDB解决方案
DolphinDB是一套非常轻量级的系统,部署十分灵活,支持从智能终端,台式机或笔记本,本地服务器集群,到云端服务器集群的多种部署方法。