V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CloudStorage
V2EX  ›  推广

数据湖加速器 GooseFS,加速湖上数据分析性能

  •  
  •   CloudStorage · 2021-07-16 12:35:05 +08:00 · 835 次点击
    这是一个创建于 1235 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据湖加速器 GooseFS 是由腾讯云推出的高性能、高可用、弹性的分布式缓存方案。依靠对象存储( Cloud Object Storage,COS )作为数据湖存储底座的成本优势,为数据湖生态中的计算应用提供统一的数据湖入口,加速海量数据分析、机器学习、人工智能等业务访问存储的性能。

    GooseFS 采用了分布式集群架构,具备弹性、高可靠、高可用等特性,为上层计算应用提供统一的命名空间和访问协议,方便用户在不同的存储系统之间管理和流转数据。

    零、产品背景

    近些年来以对象存储作为统一数据湖存储的趋势越来越明显。对象存储具有低成本、高可靠、弹性等特性,因此很适合信息爆炸时代海量数据的存储,越来越多的企业将大数据存储从 HDFS 迁移到对象存储中,采用对象存储或者对象存储+HDFS 混合存储架构实现企业级冷热数据分层方案。但在数据湖方案下,企业仍然面对以下问题:

    性能问题:大数据场景中,Map 和 Reduce 环节均需要频繁对文件进行 List 和 Rename 操作;但对象存储的扁平式架构设计导致在这些操作上天然具有性能瓶颈。此外,数据跨机房存储会进一步增加数据湖架构下的请求延迟,而近年来流批一体的应用越来越广泛和深入,大数据业务对实时性要求越来越高,因此需要尽可能让热数据更靠近计算端,以便提升业务性能。

    成本问题:对于离线大数据业务而言,往往需要尽可能快速地拉取大量重复的数据到计算集群中进行分析,在数据湖的存算分离架构下,会对存储带宽有很大的压力。这种模式下峰值带宽高,平均带宽小,容易产生大量的资源浪费和成本消耗。因此将热数据缓存到计算节点,减少带宽消耗能够降低业务成本。

    运维问题:相当多的业务采用 HDFS 和 对象存储等不同存储服务构建混合存储架构,在这种业务模型下需要维护多种不同的存储接口,增加了运维的复杂度。因此,如果有一套存储服务能够对接不同的后端存储系统,为上层计算业务提供一致的访问视图,将能极大地减少业务开发的难度,提升存储服务使用效率。

    一、产品功能

    GooseFS 旨在提供一站式的缓存解决方案,在利用数据本地性和高速缓存,统一存储访问语义等方面具有天然的优势; GooseFS 在腾讯云数据湖生态中扮演着“上承计算,下启存储”的核心角色,如下图所示。

    GooseFS 基于开源大数据缓存方案 Alluxio 进行设计和研发,相较于开源方案,GooseFS 提供了更多关键特性,稳定性和性能优化;同时深度融合了腾讯云生态,对接了腾讯云 TKE 、EMR 等计算服务,为用户提供开箱即用的能力。

    主要功能如下:

    缓存加速和数据本地化:GooseFS 可以与计算节点混合部署提高数据本地性,利用高速缓存功能解决存储性能问题,提高读写对象存储 COS 文件的效率。

    融合存储语义:GooseFS 上层统一的接口协议,支持对接对象存储 COS,云上 HDFS 和私有化存储 CSP,并且针对腾讯云 COS,CHDFS,CSP 等产品做了特殊优化,适用于多种生态和应用场景。

    统一的腾讯云相关生态服务:包括腾讯云监控、日志和鉴权的支持。GooseFS 已经顺利对接腾讯云 EMR,腾讯云 TKE 和腾讯云 EKS 等;同时支持对接腾讯云监控,腾讯云日志服务 CLS 和腾讯云 ES,Prometheus 和 Grafana 等服务。

    元数据管理功能:GooseFS 支持按照 Hive Table 或者 Table partition 级别将存储在 COS 或者 CHDFS 上的数据异步缓存到本地节点;支持按照 Namespace 配置不同元数据管理方案。

    二、产品优势

    GooseFS 在数据湖场景中具有如下几点明显的优势:

    1.数据 I/O 性能

    GooseFS 部署提供近计算端的分布式共享缓存,上层计算应用可以透明地、高效地从远端存储将需要频繁访问的热数据缓存到近计算端,加速数据 I/O 性能。

    GooseFS 提供了感知元数据 Table 的功能,能够加速大数据场景下列出文件列表( List ),重命名文件( Rename )等元数据操作的性能。此外,业务可以按需选择 MEM,HDD,SSD,NVME SSD 等不同的存储介质,平衡业务成本和数据访问性能。

    2.存储一体化

    GooseFS 提供了统一的命名空间,为上层业务提供了统一的接口协议,底层支持对接 COS 、CHDFS 、CSP 等不同的存储服务,简化业务侧运维配置。存储一体化能够打通不同数据底座的壁垒,方便上层应用管理和流转数据,提升数据利用的效率。

    3.生态亲和性

    GooseFS 全兼容腾讯云大数据平台框架,也支持客户侧自定义的本地部署,具备优秀的生态亲和性。业务侧不仅可以在腾讯云弹性 MapReduce 产品中使用,GooseFS 加速大数据业务,也可以便捷地将 GooseFS 本地化部署在公有云 CVM 或者自建 IDC 内。此外,GooseFS 也支持了透明加速能力,支持通过 COSN Interface 一访问对象存储;对于已经使用 COS 大数据插件 COSN 的用户,可以非常方便地将 GooseFS 引入到 COSN 中使用。

    三、结语

    GooseFS 旨在提供一站式的数据湖缓存加速解决方案,方便用户在不同的存储系统管理和流转数据,提升您的数据利用效率。

    如果您想要详细了解 GooseFS,并进行部署和体验,可以点击阅读原文查看 GooseFS 的配置文档。

    — END —

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1014 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:07 · PVG 05:07 · LAX 13:07 · JFK 16:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.