当前位置 :  首页>> 科研成果>> 大数据存储技术

大数据存储技术

所属中心:大数据存储技术研究中心


  大数据存储技术是信息科学与技术未来发展的重要方向之一。研究中心所在团队自2008年开始存储相关技术的研究,发明了提升数据服务和数据可用性的方法,在解决存储系统高可用性难题上取得了重大突破:
  • 实现了数据存储的容器化封装、全系统保护及按需恢复,在灾难发生时,数据存储服务的恢复时间缩短3个数量级;
  • 融合了Paxos和纠删码,将由副本不一致所导致的数据不可用时间降低了30%;
  • 设计了针对闪存的磨损均衡方法,减少最高可达40%的影响闪存介质可用性的写放大效应;
  • 发明了基于社区的可控共享支持方法,提出了针对数据共享的层级密钥管理、存储内嵌删冗、程序读写竞争错误自动防护等方法,解决了由于共享所引起的安全管控、存储空间急剧膨胀、数据共享的竞争访问等系列难题,为满足企事业单位数据可控共享的需求提供了新途径;
  • 发明了一系列优化存储系统性能和效率的方法,消除了存储系统的性能瓶颈,提高了效率:数据聚散优化技术在保持接口简单性的同时,能够降低40%以上的数据访问延迟;
  • 自适应缓存框架可减少超过20%的平均响应时间;
  • 最小化数据迁移方法能够减少高达86%的数据再分布时间;
  • 发明了面向共享的可自调整适配的大规模数据存储系统架构及实现方法,提出了基于策略定制的主机-集群-数据中心三个层级的扩展方法、与社区共享管控相匹配的多根多版本文件管理方式以及数据的挂载使用机制等,方便了大型企事业单位自建自管数据存储系统以及用户本地化即时使用PB级数据的需求。

面向社区共享的高可用数据存储系统的架构

  实验室先后开发出云数据存储与共享存储系统Corsair和MeePo,并进行了广泛的推广应用,取得了良好的经济效益和社会效益。项目成果已在中石油、广东联通、华为、百度、中兴通讯、北京市公安局等近20家企事业单位,清华大学、中科院、兰州大学、北京体育大学等50余家科研院所,以及国家基础教育资源共享系统中得到应用,服务的用户总数超过了150万,支持的社区数目超过了6000个。美国的CloudBook(www.cloudbook.net)网站将我们的云存储系统作为特色的(featured)教育科研云服务平台收录其中,这是该类别中来自中国大陆的唯一的系统。获2015年国家技术发明奖二等奖。

自维护存储系统可容忍16块磁盘或5台存储节点同时失效

  近年来,实验室进一步开展了基于大规模纠删码的分布式存储系统研发工作,研制完成的自维护存储系统TStor由16个节点组成,每个节点具有12块存储磁盘,单盘容量为8T,整个存储系统总容量为1.5PB。系统的聚合写入带宽为7.6GB/s,聚合读出带宽为9.3GB/s。系统采用了32+16的纠删码保存数据,能够容忍16个磁盘的同时出错。

叶彤 Author

发表评论

电子邮件地址不会被公开。 必填项已用*标注

浏览次数:110