热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DoSTOR存储分析重复数据删除,忽如一夜春风来

如果说2006年厂商在重复数据删除领域还处于默默耕耘阶段的话,那么,从2007年春季开始,厂商之间的重复数据删除之争就已经进入了市场爆发期。其实备份软件厂商Asigra和Avamar(现已
如果说2006年厂商在重复数据删除领域还处于默默耕耘阶段的话,那么,从2007年春季开始,厂商之间的重复数据删除之争就已经进入了市场爆发期。其实备份软件厂商Asigra和Avamar(现已被EMC收购)、Diligent、Data Domain都在几年前就拥有了重复数据删除技术,但是,从去年年中开始,因赛门铁克、EMC、HDS等巨头的介入,重复数据删除才开始悄悄走进了我们的视野。到2007年春季开始的时候,各家厂商的重复数据删除技术和产品才纷纷涌现出来,恰似“忽如一夜春风来,千树万树梨花开”。
  
    “重复数据删除”这个词是根据英文“De-Duplication”翻译过来的,更直白一点说就是消除副本。ESG将重复数据删除定义为删除或擦去冗余文件、字节或数据块的流程,确保只有“独有”的数据存储在磁盘上。现在关于这项技术,不同的厂商有不同的叫法,除了叫重复数据删除,还有别的名称,比如容量优化、单一实例存储(飞康),先进的单一实例存储(NetApp)。不管命名为何,目的只有一个,即除去重复的数据,只保留更改过的数据,节省磁盘空间,从而节约成本,延长数据保留的时间。
  
    下面是对各厂商重复数据删除的简单介绍:
  
    飞康:
  
    飞康的重复数据删除存储软件名为“Single Instance Repository(SIR)”。SIR提供一个基于策略的冗余数据删除(RDE)引擎,只存储数据文件或数据块的单一实例(single instance)。     SEPATON:    SEPATON 的DeltaStor技术使用 delta 冗余删除技术,使用这种技术,DeltaStor 软件可以搜索任意数量的数据对象版本,以找出重复的数据序列,然后用一个副本的指针替代重复数据,重复数据序列中只有一个实例真正存储在磁盘上。SEPATON 称DeltaStor可以以 25:1 的比例消除典型混合业务数据中的重复数据,对于某些电子邮件应用则可以达到 60:1。    Data Domain:
  
    Data Domain的重复数据删除技术称作容量优化存储(Capacity Optimized Storage, COS)技术。COS是采用一种压缩算法,任何重复的数据或是重复的模式在进行多次备份时,只对其进行一次备份。这样可以较好提高备份速率和数据压缩比。Data Domain称可以实现近乎20:1的压缩比。目前,Data Domain已经推出了三代DDX阵列。
  
    EMC:
  
    EMC称Avamar重复数据消除和全局单实例存储 (SIS) 技术可确保备份数据段在全局范围内仅存储一次,还可以有效地将移动和恢复的数据量缩减300倍,同时还可以实现每日完整备份和快速恢复。
  
    Diligent Technologies:
    Diligent的 ProtecTier技术将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。HDS的虚拟磁带库解决方案采用的就是Diligent的ProtecTIER VT with HyperFactor重复数据删除技术,HDS声称VTL 解决方案在保证100%数据完整性的同时消除了冗余数据,从根本上将物理存储需求降至原来的二十五分之一甚至更低。
  
    昆腾:
  
    昆腾的数据重复删除技术是由澳大利亚开发的。数据重复删除技术按自然边界把数据拆分为非常细粒度的子块元素。昆腾称,利用数据重复删除技术,1TB的备份数据可根据备份数据的共性,存储为300-700GB不等。在这种情形下,每月实现10:1到50:1的备份比率是完全可能的。
  
    ExaGrid Systems:
  
    ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用CommVault Galaxy 和Symantec Backup Exec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个 InfiniteFilers合成一个网格,支持高达30TB的备份数据。
  
    赛门铁克:
    赛门铁克NetBackup PureDisk远程办公室备份软件,具有全局单一实例存储的基于磁盘的安全数据保护将备份所消耗的存储和网络降低10倍到50倍。PureDisk能将备份的存储和网络消耗降低10至50倍。
  
    一般来说,重复数据删除技术有两种实现方式,一种是将重复数据删除作为一个独立的备份软件,从原数据备份之初就开始进行优化并压缩,并且替代企业对传统备份软件的需求,这部分领地内,活跃的厂商包括:Avamar (现已被EMC收购), Asigra, 赛门铁克, Atempo和TimeSpring。另外一种就是将其作为某种功能嵌入到整体的备份软件或者解决方案中,如重复数据删除与虚拟带库的整合解决方案,这方面领先的厂商包括Diligent, Data Domain, Sepaton,飞康和昆腾。
  
    重复数据删除技术从一出场就被冠以很多光环,比如“革命性的技术”、“十年来出现的最重要的数据保护技术之一”、甚至被称为是“改写存储行业的经济规则的技术”等等。不可否认,重复数据删除技术具有独特的优势,它可以大幅压缩和删减用户需要备份的数据量,刚好可以应对数据爆炸式增长对存储的挑战。
  
    但是,对于“乱花渐欲迷人眼”的市场, 用户要有一双明辨是非的“慧眼”,对纷至沓来的产品有清醒的认识,不要轻信厂商的吹捧。由于这项技术还远远不够成熟,实际操作的结果很可能达不到厂商所说的效果。为了证实这一点,记者不久前访问过一位存储工程师,这位工程师去年对一家公司的重复数据删除产品进行过测试,那家厂商号称压缩比率能达到20:1,但是测试后工程师发现,实际压缩比仅为4.7:1,差距甚为悬殊。
  
    再者,在中国市场,很多公司才刚刚开始有了备份的概念,如果不是经常做备份,而且备份量不大的话,以现在动辄几百TB容量的阵列来看已经足够用了。对于那些需要每天备份,而且备份量特别大,急需减少备份数据量的大型企业数据中心来说,倒是可以尝试使用。
  
    最后,还有一点值得注意,重复数据删除是一种特性或技术,而非独立的产品,首先应用于数据保护和保留领域,今后重复数据删除还将应用于其他存储领域。可以肯定的是,随着技术的日渐成熟,在未来几年,重复数据删除将得到广泛应用。
本文出自 51CTO.COM技术博客

推荐阅读
  • r2dbc配置多数据源
    R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 近期,某用户在重启RAC一个节点的数据库实例时,发现启动速度非常慢。同时业务部门反馈连接RAC存活节点的业务也受影响。通过对日志的分析, ... [详细]
  • 关于extjs开发实战pdf的信息
    本文目录一览:1、extjs实用开发指南2、本 ... [详细]
  • springboot基于redis配置session共享项目环境配置pom.xml引入依赖application.properties配置Cookie序列化(高版本不需要)测试启 ... [详细]
  • 我猜想开发中大多都用注解,因为简单吗,哈哈正题:注解:就是一个类,使用注解名称。开发中:使用注解 ... [详细]
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 本文整理了Java中org.assertj.core.api.AbstractPathAssert.existsNoFollowLinks()方法的一些代码示例,展示了 ... [详细]
  • OrbitDBPeer 2 Peer Database using CRDTs
    2019独角兽企业重金招聘Python工程师标准Apeer-to-peerdatabaseforthedecentralizedwebOrbitDBisaserverless ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了Vue2.5开发去哪儿网App从零基础入门到实战项目相关的知识,希望对你有一定的参考价值。第1章课程介绍本章 ... [详细]
  • 关于学extjs已经了解基本了的信息
    本文目录一览:1、学习extJS之前,应该具备什么基础 ... [详细]
  • SVN 功能说明(简版)
    Subversion(SVN)是什么?SVN是一种版本管理系统,是开源软件的基石。即使在沟通充分的情况下,多人维护同一份源代码的一定也会 ... [详细]
author-avatar
Andg在路上
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有