V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
90928yao
V2EX  ›  Java

海量数据广告点击数据怎么同步

  •  
  •   90928yao · 2019-08-12 09:25:14 +08:00 · 3318 次点击
    这是一个创建于 1937 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在原始数据公司是腾讯云的 flume 直接入云服务器上的 mysql,然后很蠢的 spring 切数据源的方式,先查腾讯云上的 mysql 数据,然后稍微加工下,入库内网。现在公司投放大了,已经扛不住了,定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗

    11 条回复    2019-08-12 11:05:43 +08:00
    nolo
        1
    nolo  
       2019-08-12 09:29:04 +08:00 via iPhone
    实时计算,flink
    snappyone
        2
    snappyone  
       2019-08-12 09:32:58 +08:00
    上大数据全家桶了,不过数量级大概有多少呢,找下瓶颈在哪里
    tomowang
        3
    tomowang  
       2019-08-12 09:36:58 +08:00
    flume 试过可以直接用 hdfs sink 写入 google cloud storage,不知道 oss 支不支持。日志这种就别放 MySQL 了,oss 肯定是最方便的
    90928yao
        4
    90928yao  
    OP
       2019-08-12 09:38:53 +08:00
    没必要去 hdfs 的。。。。就是广告数据 给头条这些运营商匹配点击算广告费的。。。
    90928yao
        5
    90928yao  
    OP
       2019-08-12 09:40:59 +08:00
    我看人家同步数据用什么订阅 binlog 会不会快点
    jk1030
        6
    jk1030  
       2019-08-12 10:19:30 +08:00
    有大数据平台吗 用那个吧,这种点击数据为什么还会放在 mysql?
    az422
        7
    az422  
       2019-08-12 10:28:00 +08:00 via Android
    查数据、入库这些改为批量操作试下。另外这里涉及到从云数据库到内网的转换?是的话,定时任务是部署在内网么?要是我搞的话将它部署到云,将最后一步入库,改为入云的 Kafka,再内网起多个 Kafka 消费者入库(洋气高效:加机器)。
    最后记得问下运维办公网和服务器网是否隔离,内网服务器带宽是否足够
    lihongjie0209
        8
    lihongjie0209  
       2019-08-12 10:44:29 +08:00
    定时任务是 10 分钟一次,但是数据可能要 20 分钟跑完。有什么洋气点的 高效方法吗
    ???? 没看懂

    你现在的需求是

    A. 定时任务会出现并发执行的问题, 需要找一个解决方案

    B. 你想把 20 分钟的定时任务在 10 分钟内执行完成

    C. 你不想用定时任务了, 想做实时计算?


    先选完再讨论
    90928yao
        9
    90928yao  
    OP
       2019-08-12 10:53:32 +08:00
    @lihongjie0209 想知道其余公司是这么处理这种广告匹配的任务的、游戏公司,会投大量的广告。一天有将近 E 的点击数据,然后去匹配游戏账号的激活注册信息。回掉给头条这种广告公司
    airfling
        10
    airfling  
       2019-08-12 11:01:54 +08:00
    点击数据造假呗,反正只是需要知道一个大概趋势就可以了
    lihongjie0209
        11
    lihongjie0209  
       2019-08-12 11:05:43 +08:00
    @90928yao #9 只能异步放在消息队列中慢慢做, 量大了就增加消费者节点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2604 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:25 · PVG 19:25 · LAX 03:25 · JFK 06:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.