V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
kikione
V2EX  ›  程序员

mysql 一个数据不断增长表,现在有百万数据了,每天取出更新的数据中,来进行数据处理,入另外一个库。

  •  
  •   kikione · Sep 10, 2021 · 2424 views
    This topic created in 1696 days ago, the information mentioned may be changed or developed.

    1,这个表会越来越大

    2,每天可能有几 W 数据更新。

    3,偶尔可能停机,然后一次更新几十万,甚至上百万。

    这种场景下,我怎么处理数据比较好? 大家有什么好的方案,可以提出来,让我借鉴思考一下,谢谢!

    9 replies    2021-09-13 20:19:14 +08:00
    nekoneko
        1
    nekoneko  
       Sep 10, 2021
    几百万数据也不多单表足够
    要优化 按日期分区就行
    Chinsung
        2
    Chinsung  
       Sep 10, 2021
    canal 订阅,取 update 语句的数据去同步到另外一个库?
    还是看具体业务场景,要做的是什么数据处理,无上下文的纯数据过滤清洗还好,要是有上下文的这种,可能就不适用了
    Jface
        3
    Jface  
       Sep 10, 2021
    这。。。搭建一个数仓平台吧,Hadoop + HIve + Spark 一套带走。
    xsm1890
        4
    xsm1890  
       Sep 10, 2021
    几百万数据对于现在版本的 mysql 真的不算问题哦
    james2013
        5
    james2013  
       Sep 10, 2021
    1.如果这个表的数据指定条件查询少,可以尝试按年分表,正好 1 年数据单表差不多 1kw
    2.如果这个表的数据指定条件查询多,可以尝试按业务字段分表,比如固定拆分为 10 张表,就可以用 10 年了
    c88155745
        6
    c88155745  
       Sep 10, 2021
    OrangeCrazy
        7
    OrangeCrazy  
       Sep 10, 2021
    看你需求,数仓中可以参考拉链表的概念.
    记录有变化的行.
    UINON ALL
    无变化的行.
    就是你要的全量数据.再往下游就看你需求怎么使用了.
    4BVL25L90W260T9U
        8
    4BVL25L90W260T9U  
       Sep 13, 2021
    你需要一个消息队列,比如 Kafka 。然后双写数据库和消息队列
    jaylengao
        9
    jaylengao  
       Sep 13, 2021
    几百 W 不是小意思吗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2535 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 08:27 · PVG 16:27 · LAX 01:27 · JFK 04:27
    ♥ Do have faith in what you're doing.