Loading
07Nov 2016

0

0

储迅分布式存储在大数据分析领域的成功应用

上海储迅信息技术有限公司自成立以来,致力于高可用、高性能和易管理的私有云存储的研发,推出了全新一代CX-Cloud分布式存储系统。其领先的架构优势、超大容量、横向扩展、多节点容错、高性能、安全可控、易部署和易管理等诸多特点得到了众多客户的好评。

这不,CX-Cloud已经成功应用到某互联网金融公司的大数据分析项目中,立足于高并发IO条件下的大数据处理场景,为客户提供了坚实可靠的底层存储保障。

 

什么是分布式存储?

我们的公众号之前在CX-Cloud发布时介绍过,但太专业,估计很多人都看的云里雾里,一头雾水,那到底分布式存储和原来的存储有啥区别呢?

简单理解,用人类的语言来解释一下:传统存储为了解决性能问题(单块硬盘性能太差)和可靠性问题(单块盘坏了数据就丢啦),就把一堆硬盘组合在一起,然后通过算法(啥算法?太深奥小编一句话讲不清楚就不啰嗦了)将数据打散后同时往所有硬盘上写(速度好快噢),坏一块盘没关系,反正有算法可以把丢的数据找回来,这不两个问题都解决了^_^

可是......但是......如果......万一整台机器坏了怎么办,而且一台机器里能加的硬盘是有限的呀:(这时候,分布式存储就出现了,然后又是算法-_-!把一台机器当一块硬盘来看待,把好多机器组合在一起,这样机器坏了也没关系,就这么简单。

 

客户为什么选用CX-Cloud

这个互联网金融公司是做什么的?根据小编和客户的交流,了解到他们是一家提供新三板挂牌、融资、并购顾问服务,同时集筹资、投资、孵化、运营、推广功能于一身的综合平台。

这么多重要数据要存哪里呢?当然是速度快,可靠性高的储迅CX-Cloud!

这么多数据光存了太浪费,所以客户打算在原始数据上进行提炼,做大数据分析,这样数据才值钱嘛。

为了实现这个愿望,客户搭建了一个CloudStack大数据分析平台。这个平台就是把所有的服务器都加到一个虚拟化的组里,然后在上面建虚拟机,每个虚拟机想要几个CPU就给他几个CPU,想要多少内存就给他多少内存(当然,总数不能超过所有物理机加起来的总和噢)。

CPU有了,内存有了,那硬盘呢?这么大的硬盘哪里去找呢?硬盘当然就是我们的CX-Cloud啦!我们将CX-Cloud分布式存储系统的所有高转速SAS硬盘纳入到一个巨大的存储池中,CloudStack直接将这个存储池作为他的一块超大硬盘来使用,将虚拟机文件、数据文件等该系统所有的数据都往里放就可以了。对!就是这么简单!

 

CX-Cloud功能特性

最后,小编不厌其烦地将我们的CX-Cloud功能特性再贴一遍-_-!

统一命名空间:多台使用本系统的存储节点可以整合成一个命名空间,对于用户来说看到的是单一的文件路径,用户只需要把文件存入其中即可,不用关心文件的具体存放位置。

横向扩展(Scale Out):容量和性能不够时,简单添加存储节点即可,不影响现有的业务的运行,不需要更改应用架构设计。

标准的访问接口:用户可以通过多重文件访问接口(支持POSIX访问的自带客户端、标准的CIFS和NFS访问协议、FTP、以及兼容OpenStack的对象存储接口)。

高性能(High Performance):系统从缓存优化、节点内部数据同步、节点带宽聚合等多个层次大力提升系统的性能,满足高并发性读写系统的IO需求。

高可用性(High Availability):多重技术实现高可用性,当任意存储节点出现硬件故障(比如电源损坏、硬盘坏盘,甚至整个节点无法被访问),或者软件问题(比如某节点的文件损坏),对存储系统的使用者来说,数据仍然可以正常读写。通过设置,支持多个节点完全损坏时数据仍然可以正常读写。

海量容量(Huge Capacity):本系统可以无缝扩容,总容量轻松上100PB,完全可以满足当前大规模企业应用的需求。

易维护(Easy Maintenance):采用多种优势技术(比如无缝扩容,基于Easy UI的Web管理系统以及集中管理系统、硬盘极速重建技术等),使得产品上线运行之后,用户能以最低的成本进行管理和维护。