大数据的数据存储
大数据的来源不同,其格式也多种多样,既可分为结构化数据、半结构化数据、非结构化数据;也可分为元数据、主数据、业务数据;还可分为文本、视频、音频、地理位置信息等。因此,大数据的存储系统必须对多种数据及软硬件平台有较好的兼容性,以适应各种应用算法或者数据提取转换与加载。现阶段常用的大数据存储技术包括以下几类:
**类,采用大规模并行处理(MPP)系统架构的新型数据库集群,**面向行业大数据,采用无共享(shared nothing)架构,通过列存储、粗粒度索引等大数据处理技术,再结合MPP架构**的分布式计算模式,实现对分析类应用的支撑。这类数据存储技术的运行环境多为低成本电脑服务器,具有高性能和高扩展性的特点,在企业分析类应用领域中应用广泛。
第二类,基于Hadoop技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,充分利用Hadoop开源的优势。伴随着技术进步,该类数据存储技术的应用场景也逐步增加。目前*典型的应用场景是通过扩展和封装Hadoop来实现对互联网大数据存储和分析的支撑。
第三类,大数据一体机,这是一种专为大数据分析处理而设计的软件、硬件相结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析而特别预先安装及优化的软件组成。高性能大数据一体机具有良好的稳定性和纵向扩展性。
就存储大数据的数据库而言,*流行的两种数据库就是传统的关系型数据库和新兴的NoSQL数据库。例如,微软的SQL Server数据库、IBM的DB2数据库、甲骨文的Oracle数据库、开源的MySQL数据库都是典型的关系型数据库。NoSQL数据库是近年来随着大数据技术发展而兴起的一种数据库技术,NoSQL数据库依据存储对象和存储方法的不同又可分成键值型数据库、文档型数据库、列存储数据库、图存储数据库。表1-4梳理了不同类型NoSQL数据库的特点。