V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhuwd
V2EX  ›  程序员

数据中台目前都是怎么的技术架构

  •  1
     
  •   zhuwd · 150 天前 · 8550 次点击
    这是一个创建于 150 天前的主题,其中的信息可能已经有所发展或是发生改变。
    公司也要搞所谓的数据中台了,想少踩几个坑,向 V 友们请教学习
    55 条回复    2024-06-13 01:30:38 +08:00
    murmur
        1
    murmur  
       150 天前
    你们有啥数据要搞中台啊,这玩意不就是把各种数据库还有数据分析工具揉一起么

    叫中台的关键是要做数据治理,很多数据要统一管理统一提供,做不到这个就别中台了

    大数据有大数据分析,中台更侧重一个管
    menyuguren
        2
    menyuguren  
       150 天前
    微服务 分布式 基本都是这些玩意,上个东家做过一个
    xieshaohu
        3
    xieshaohu  
       150 天前
    中台最终要的是数据开发治理工具+结合业务现状和数据使用场景的数据治理方法论,在这里面工具反而是次要的。
    id4alex
        4
    id4alex  
       150 天前
    中台? 就是阿里吹的中台?
    zhuwd
        5
    zhuwd  
    OP
       150 天前
    @murmur #1 是要做数据管理,收集汇总集团各二级甚至三级子公司业务数据,然后做分析和治理
    zhuwd
        6
    zhuwd  
    OP
       150 天前
    @id4alex #4 是的,现在这阵风吹到我们领导这了😅
    yimiaoxiehou
        7
    yimiaoxiehou  
       150 天前   ❤️ 13
    版本严重滞后,不过是好事,搭中台花一两年,拆再花一两年,这三四年工作稳了.jpg
    awalkingman
        8
    awalkingman  
       150 天前
    怎么的技术架构? 怎么的?
    zhuwd
        9
    zhuwd  
    OP
       150 天前
    @yimiaoxiehou #7 请教大佬现版本都是怎样做数据分析和管理的,有什么好的实践思路吗
    zhuwd
        10
    zhuwd  
    OP
       150 天前
    @awalkingman #8 错别字,手滑了😂
    murmur
        11
    murmur  
       150 天前
    @zhuwd 跟 N 多公司交流过,没个两三年不要想看到成果,各种扯皮扯死你,我有的数据凭啥就交出去对吧,每个公司都会这么想,层次越复杂扯皮越麻烦
    hshe
        12
    hshe  
       150 天前
    我这里的中台是 springcloud+es (聚合结果输出)+spark(计算引擎)
    页面通过各种拖拉拽生成数据清洗分析作业
    iphantom
        13
    iphantom  
       150 天前
    @zhuwd 『是要做数据管理,收集汇总集团各二级甚至三级子公司业务数据,然后做分析和治理』? 你管这个叫数据中台? 数据集市 数据仓库 是不是更合适 随便收集把 水到桥头˙自然直
    meiyiliya
        14
    meiyiliya  
       150 天前   ❤️ 1
    我司用的 dataworks + quickbi ,前者就是从某几个地方抽数据、然后进行数据分析、再将底层数据汇总提供更高层次的数据,后者就是把前者汇总的数据进行展示,对业务开发来说基本零负担,就写普通 SQL 差不多,报表就低代码拖拉拽,权限管控也很好,每个表都要申请 select 权限不说还需要按字段维度申请。
    fine886
        15
    fine886  
       150 天前
    我觉得一楼的兄弟说得对,中台更侧重一个管理。对比传统数仓来说,页面更方便普通人员操作,我们公司现在的中台是把所有的表结构通过平台管理,通过平台可以实现表的创建、删除、修改等。表结构是统一从业务系统抽取上来,之后可以选择建不同类型的表,hive 也好,MySQL 也好,都可以通过平台创建。字段分为内部字段和外部字段池。脚本也是在脚本管理里面统一管理,被一个所谓的"过程"所调用。所有业务系统的数据库地址,密码等统一放在数据源管理下面,方便被脚本和过程引用。其余的功能就是数据稽核,监控平台,查看日志,调度平台等。调度平台直接就是调用的 dolphinscheduler 组件,通过 dolphinscheduler 的调度功能统一调用平台创建好的所谓的"过程"来实现自动化流程。
    brant2ai
        16
    brant2ai  
       150 天前
    有没有做非结构化入湖的案例诶
    chendy
        17
    chendy  
       150 天前
    刚被折腾完,现在汇报材料里已经禁止出现中台字样了
    zhuwd
        18
    zhuwd  
    OP
       150 天前
    @iphantom #13 叫数据中台确实是有点勉强,毕竟是领导定义的我们也就这么叫了。数据收集只是第一步,然后要清洗和分析,也要做一些开放接口提供给其他业务系统
    zhuwd
        19
    zhuwd  
    OP
       150 天前
    @hshe #12 这个思路也挺好,感谢大佬🙏
    zhuwd
        20
    zhuwd  
    OP
       150 天前
    @fine886 #15 干货满满,感谢分享!🙏
    zhuwd
        21
    zhuwd  
    OP
       150 天前
    @chendy #17 我们刚开始被折腾 😅😅
    Simle100
        22
    Simle100  
       150 天前   ❤️ 1
    现在还有吹中台的呀?我前些阵子接到售前的最新消息是:中台已经成过去式了,现在大家开始讲 AI 、大模型,这些成了拿下项目的关键因素。
    monkeyfx
        23
    monkeyfx  
       150 天前
    18 年在某大厂做数据中台,但是没搞几年就开始拆中台了,现在提中台这个概念的确有点 49 年入国军的感觉。
    yingqi1
        24
    yingqi1  
       150 天前
    推荐看一下 Fundamentals of Data Engineering, 有一个章节说如何开始搭建仓库/数据管理等,怎么才能少踩坑,针对不同公司有什么最佳实践。
    haisua
        25
    haisua  
       150 天前
    我接触过一些数据类系统(本人产品岗),在我看来,啥架构都问题不大,经验教训是更多在于数据源的规范整理,数据清洗问题。只要数据处理干净了,后面怎么折腾都行。就不说大公司多业务线了,很多小公司就那点数据源都乱七八糟的。
    A555
        26
    A555  
       150 天前
    公司中台团队都砍了
    我就是被砍的
    Finder2023
        27
    Finder2023  
       150 天前
    @monkeyfx 能请教下拆中台是怎么个拆法,这是必定会经历的生命周期吗
    murmur
        28
    murmur  
       150 天前   ❤️ 1
    @Finder2023 中台就是名字而已,当你基础组件用的够多了,画个圈就叫中台

    实际上就企业办公那点规模根本用不到什么微服务容器化,就虚机+spring boot 挺好的
    whp1473
        29
    whp1473  
       150 天前   ❤️ 1
    数据中台本身模块:数据集成、数据开发、数据运维、数据服务、算法开发、数据治理、数据安全、数据可视化,背后可能还会有大数据集群,涉及技术主要是:SpringBoot 、SSM 、Zookeeper 、Netty 、以及各种数据源 JDBC 处理,DAG 调度处理,SQL 语法解析,得熟悉各种引擎的特性和指标数据的采集,还有一些数仓的知识,其实就像个模型汇总、数据汇总、元数据汇总、任务和监控汇总、可视化汇总的地方— —
    monkeyfx
        30
    monkeyfx  
       150 天前   ❤️ 1
    @Finder2023 从我的角度来看,单说数据中台这件事情,对于体量较大的公司来说,是有必要的。所谓中台这个概念,是企业级的能力复用平台,数据中台就是把数据当作资产集中管理使用,所以有了数据资产部这个组织。但是你要考虑到中国国情,分久必合合久必分,都是为了自己的功劳,要不然也不会有那么多重复建设的事情。至于说拆中台就非常简单了,根据自己业务特性挑挑拣拣就好。
    Finder2023
        31
    Finder2023  
       150 天前
    @monkeyfx 感谢回复,比方前司所在的数据中台组,是源 BI 组经历多次拆分出的结果,相比于一个系统拧全部的大头,分为 ETL 数据清洗 -> 数据统一管理的中台 -> 提供业务支持的后台(例报表可视化分析)无可厚非,是公司统一管理数据资产和提供业务支持不可避免的过程。我的理解比较浅薄,既然中台涉及到企业级(体量较大的)的能力复用平台,应该是属于基建范畴,对于我们开发个人来说,这种项目组的不稳定性和风险在哪呢,如何像答主所说的 49 年入国军的描述
    murmur
        32
    murmur  
       150 天前
    @Finder2023 中台的技术很成熟,难点在数据治理,要求大家用统一的数据源,是要改造,而且成本很高的

    有些子公司他们是自己买了自己的数据源,集成都做好了,你突然要求别人改数据源,人家肯定不乐意
    Finder2023
        33
    Finder2023  
       150 天前
    @murmur 恍然大悟,感谢回复🙏
    xwayway
        34
    xwayway  
       150 天前
    @zhuwd #5 哈哈,和我们公司一样诶。我们目标是这个,然后搞成了数据仓库 + 大屏。然后加各种审批流,分成内部数据和对上级集团上报数据。现在还在苦苦挣扎,全力奋战 6.30 节点。
    28Sv0ngQfIE7Yloe
        35
    28Sv0ngQfIE7Yloe  
       150 天前
    数据监控,埋点、调度、hive+ hadoop + 加密 + 数据权限 + 元数据管理 + olap + 查询工具+可配置的报表系统,基本就这些东西,大差不差
    migu
        36
    migu  
       150 天前
    啊?我们早上也刚说要弄,这大数据也太夸张了(开个玩笑

    不过我们小公司,做的也是小项目,涉及不了太复杂的东西,这篇帖子先狠狠的 mark 了
    wanqiangcrack
        37
    wanqiangcrack  
       150 天前
    现在都没人做中台了,现在是做数据治理。
    SmartTom
        38
    SmartTom  
       150 天前
    datax
    xueling
        39
    xueling  
       150 天前   ❤️ 2
    首先我觉得有些朋友可能有两个误区,我说一下我的理解。
    1 、阿里拆的中台更多的是”业务层面上的中台“,比如将很多业务的下单功能、订单列表查询功能、列表推荐功能、购物车功能等统一成中台服务,而楼主所说的数据中台是”技术层面的中台“,所以严格来说这里的”中台“并不是一个概念。
    2 、数据中台是不是只围绕着数据的统计分析方面功能?不是。这只是它的一部分功能,从概念上来讲,使用一些实时、离线、OLAP 框架搭建起的数据统计分析任务或接入一些 BI 工具,是不能称它就是数据中台的。

    数据中台的功能主要有三类:一是业务数据治理,二是围绕着业务数据进行的各种实时、离线和即席查询任务的管理、调度和维护,三是数据化运营。
    1 、业务数据治理。有些公司将业务数据和业务统计分析类数据都统称为业务数据(比如订单数据和订单的统计分析数据),我觉得这不太合理,因为两者有本质的不同(技术实现方案以及数据应用场景不同),混为一谈其实容易影响数据中台的架构设计。
    业务数据治理是提供业务方自身数据的写入(实时或离线)、存储和查询功能,围绕着这些基本功能再衍生出:元数据管理、业务数据清洗、业务表的上下游关系管理、业务表的权限管理等。
    还有一个误区,公司要搭建数据中台,那公司目前的技术架构是要推翻重构还是维持不变。大多数情况下是不需要推翻重构的,当然也不能维持一点不变。而是要进行一些”整合“。整合就是梳理出公司内部具有较高共享价值的业务数据,在基本维持他们技术方案不变或微小改变的前提下,将它们的存储库或存储库的镜像库迁移到”中台“当中来,从而减少数据共享过程中使用数据的成本。
    2 、围绕着业务数据进行的各种实时、离线和即席查询任务。这一部分的基本功能是建立统一的数据任务调度平台,比如实时( spark/flink 等),离线(spark/mr 等)和即席查询(ck/hive/doris 等),应用场景:比如实时画像任务、实时日志接收、订单的多维分析等。这一部分功能又衍生出一些功能,比如统一的消息接入服务、与上面业务数据和下面数据化运营互相打通的业务数据读取、写入和统计指标数据读取、写入的机制。
    3 、数据化运营,数据化运营是提供企业运营过程中的各类统计分析指标,技术方案主要有各种实时、离线、olap 方案,这一部分又衍生出统一的埋点服务、数据指标可视化等相关功能。数据化运营可以使用一下我的开源框架: https://github.com/xl-xueling/xl-lighthouse ,可以减少很多实现成本。
    wohenchang
        40
    wohenchang  
       150 天前
    现在数据量都不大,叫中台就是一个噱头,跟 ai 一个道理,本质还是一个数据呈现,看板展示的过程。
    Govda
        41
    Govda  
       150 天前
    啊 这风不是都吹走了吗
    huBane
        42
    huBane  
       150 天前
    中台就是一个噱头,当前公司跟风搞过失败了,留下一堆乱摊子。
    wa007
        43
    wa007  
       150 天前   ❤️ 1
    中台是为了降低新业务接入的成本,但随着行业走下坡路,新业务变少,中台的意义自然就降低了。
    he123
        44
    he123  
       150 天前
    产品分为离线和实时,
    数据的离线同步和实时同步,入湖等
    基于 flink spark 对同步的数据做计算,分析,提供各种报表,业务分析决策依据
    元数据的管理,如血缘解析

    代码结构
    平台层 调度层 计算引擎层
    lambdaq
        45
    lambdaq  
       150 天前
    中台中台,一中一台,这玩意核心的是面向岗位安全编程。怎么耦合怎么来,最好全公司最赚钱的流程都套上。这样没人敢开你。
    hui9000
        46
    hui9000  
       150 天前
    看公司有多大的投入了
    对于老板来说就是想看各种报表还有数据大屏。基本上 90%的公司做到这就截止了。
    逻辑来说就是将业务数据汇总到数据中台中进行计算、展示、输出等
    数据汇集包含离线的+实时的。
    离线的:数据抽取工具 sqoop+HDFS+Spark+Hbase
    hui9000
        47
    hui9000  
       150 天前
    实时的:springcloud+kafka+flink+ClickHouse
    lizy0329
        48
    lizy0329  
       150 天前
    你知道数据中台是干什么的吗?
    joetao123
        49
    joetao123  
       150 天前
    我们的方案是数据同步使用 datax ,数据存储和计算使用 cdh 的 Hive 和 Spark ,前端有可视化拖拽开发,生成开发任务,也就是 Hive SQL ,最后是将 Hive 中的数据导出到 Mysql 或者 ES 提供数据订阅服务。系统中也实现了 DAG 的任务流调度功能,用来调度数据采集、数据加工和数据导出任务。
    tangv2
        50
    tangv2  
       150 天前
    反正没个几年搞不定,赶工的都一堆 bug
    009694
        51
    009694  
       150 天前
    你们这风吹的延迟太大了。。 差不多是十年前的概念了 现在这个概念连阿里自己都不提了 不用了
    LeegoYih
        52
    LeegoYih  
       150 天前
    去中台中。。。
    tangqiu0205
        53
    tangqiu0205  
       149 天前
    49 年入国军,18 年那会比较流行,现在都在去中台化吧。
    dododada
        54
    dododada  
       149 天前
    现在搞的是数据要素化,数据集市,这东西是政府牵头,大数据局+网信+通管+其他部门+企业搞的;

    中台没见过,但是数据治理,首先你得有数据才行,你有异地多活么?你的多机房同步流量跑满 200G 带宽没?你量这么大,数据资产都散落在哪儿你知道么?哪些数据是有用的哪些是垃圾怎么分

    这个活儿以前我们是属于运维中心的数据部门搞的,主打一个绩效无关,因为实在是不好弄。
    bug51
        55
    bug51  
       142 天前
    @zhuwd 楼主 公司发了工资了吗?还是跳槽了?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2811 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:34 · PVG 22:34 · LAX 07:34 · JFK 10:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.