V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KOMA1NIUJUNSHENG
V2EX  ›  职场话题

国内搞大数据开发的小公司都有真本事吗

  •  
  •   KOMA1NIUJUNSHENG · 2023-12-14 11:43:49 +08:00 · 3224 次点击
    这是一个创建于 370 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨天面试了一家搞大数据开发的小公司。主业务应该做的企查查那种搞企业信息搜集的。全程他最关注的点只有我之前项目的数据量,多少 T 的。用了什么工具。对于涉及到 es ,kafka 中技术性的问题倒不是很关注。基本都是我在讲,他就是机械式的问两句。最后来了句你没用过 Hadoop ,数据量没到几十个 T ,经验还是不够。我寻思技术积累必须要体现在这种方面吗,我承认数据量确实是一部分经验的体现,但是更为重要的不是实战中解决问题,优化项目的能力吗,如果只是一个大项目的边缘人能比一个小项目的领头人还厉害吗。是不是有点唯工具论了。
    19 条回复    2023-12-19 15:42:53 +08:00
    laminux29
        1
    laminux29  
       2023-12-14 11:57:51 +08:00
    对方说的没毛病。

    你的确没用过 Hadoop ,数据量的确没到十几个 T 。

    每种工具都有自己的优缺点,既然你是这个行业的人,Hadoop 就算不是常用,也应该熟练掌握。

    而且数据量达到一定程度,很多处理方式与管理方式会发生质变。
    coolfamilyxun
        2
    coolfamilyxun  
       2023-12-14 12:25:59 +08:00 via Android
    没毛病啊,没数据量就是没经验。实打实
    CaptainD
        3
    CaptainD  
       2023-12-14 12:52:59 +08:00
    有没有真本事不一定,我们也是做大数据的小公司,就几个人,数据量很大,文本类有十几 T ,图片类上百 T ,但是我们技术很菜,领导都是学术出身,工程经验基本为 0 ,公司内的架构很糟糕,效率也很低

    说实话我觉得小公司做大数据处境很尴尬,其实我们这种公司没有专业运维,用云服务尤其是 serverless 的服务是最好的选择,但是上云成本又太高,我们这种量级上云就很难下了,迁移成本太大,但是不用云就失去很多运维相关工具,都自建实在是没精力,每天业务上的工作都很多,没人能空出时间搞这些
    KOMA1NIUJUNSHENG
        4
    KOMA1NIUJUNSHENG  
    OP
       2023-12-14 13:47:30 +08:00
    @laminux29 类似 Hadoop ,clickhouse ,kettle 这种工具如果在工作中边做边学的话能快速上手吗。还是说必须要长久的经验。
    SbloodyS
        5
    SbloodyS  
       2023-12-14 13:57:57 +08:00
    对方可能更多的是想要找一个有经验的熟手。

    在大数据这个方向上,工具冗杂,技术更迭快,相同的工具在不同的数据体量下的玩法完全就是云泥之别。

    举个例子,仅 Hadoop 在几十 TB 和几十 PB 下的管理方式、使用方式等就根本不是同一个东西。
    me1onsoda
        6
    me1onsoda  
       2023-12-14 14:11:49 +08:00
    就是单纯想要熟手罢了,也不知道你学习能力如何,找熟手是最保险的策略
    kidult
        7
    kidult  
       2023-12-14 14:26:28 +08:00
    买的是你的经验,不是花钱找你来让你练级

    很抱歉虽然话不好听,但就是现实
    laminux29
        8
    laminux29  
       2023-12-14 15:09:26 +08:00
    @KOMA1NIUJUNSHENG

    至少要搭建一个全功能集群环境,把管理员文档,与用户文档,全部实验一遍,把坑踩一遍,把优点与劣势自己总结一遍。
    ddkk1112
        9
    ddkk1112  
       2023-12-14 15:14:38 +08:00
    面试前至少自己动手做一遍
    就算上云,你也得考虑如何设计存储和计算架构降低成本,几十 TB 的话,设计的不好,一年得多花几十万
    KOMA1NIUJUNSHENG
        10
    KOMA1NIUJUNSHENG  
    OP
       2023-12-14 15:34:23 +08:00
    @laminux29 自己手上就一台云服务器,搞集群有点力不从心了。
    laminux29
        11
    laminux29  
       2023-12-14 17:22:28 +08:00
    @KOMA1NIUJUNSHENG

    大内存洋垃圾服务器 + PVE 虚拟化。
    block0
        12
    block0  
       2023-12-15 09:11:41 +08:00 via Android
    面试官问的没毛病吧,几十 t ,跟上百 t 几千 t 的处理工程架构完全不一样了,小公司不可能给你学习的时间,是找来就能打仗的。而且小公司的容错能力就差,一个产品失败就可能挂了
    beneo
        13
    beneo  
       2023-12-15 09:14:06 +08:00
    招聘是一个双向选择过程,企业是找合适的,或者从一堆合适的里面矮子里面挑高个。也许这个岗位就是要重经验,轻业务。你可以多表达一下不反对加班,年轻的时候多拼一拼这类的想法,这些因素小公司都喜欢
    noparking188
        14
    noparking188  
       2023-12-16 13:37:02 +08:00   ❤️ 1
    这种专门做数据的公司我呆过两家,都是垂直领域行业 Top ,对方应该也是个半吊子,内部数据架构还在摸索。
    比不了电商、社交平台那种面向 C 端每天都有海量数据产生,单表数据过 T 不得了,各种冗余全加一起能达到 PB 级,数据维度多、价值高、关系杂、时效性高。
    看完 DDIA 这本书,然后各找一个 OLTP/OLAP 数据库,还有 MPP 引擎学习一下原理和底层设计,这样大概肚子里有点货能吹牛皮了。
    都是从💩开始糊起来的,想一步到位找到近似最优架构以后不换,很难办啊,先把💩糊了产品撑起来,以后再慢慢搞。
    个人的话就多多关注下 Data Infra 领域的技术动向了,以前有个很不错的 DBWeekly 可惜早不更新了,那些云厂商的各种解决方案挺值得参考的。
    qweruiop
        15
    qweruiop  
       2023-12-17 16:39:59 +08:00
    玩几 t ,几百 t ,pb ,几十 pb ,都是不同的世界和不同的薪资了。
    KOMA1NIUJUNSHENG
        16
    KOMA1NIUJUNSHENG  
    OP
       2023-12-18 09:42:48 +08:00
    @qweruiop 问题是他们这个大数据开发岗位挂的薪资是 10k-14k 。
    eagleex1
        17
    eagleex1  
       2023-12-18 11:53:32 +08:00
    很多人很纠结的一个点,就是面试不过=自己的价值被低估了。
    其实招聘就是个双向选择,有的时候缘分不到就看不对眼,也正常。
    maryshaw
        18
    maryshaw  
       2023-12-19 14:17:17 +08:00
    @KOMA1NIUJUNSHENG 老哥 岗位是数据分析吗
    KOMA1NIUJUNSHENG
        19
    KOMA1NIUJUNSHENG  
    OP
       2023-12-19 15:42:53 +08:00
    @maryshaw 岗位是大数据开发,我是 java
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2951 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:40 · PVG 22:40 · LAX 06:40 · JFK 09:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.