V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hbsfxlz
V2EX  ›  Elasticsearch

千万级别的数据如何做复杂的聚合计算?有没有轻量级的开源框架推荐?

  •  
  •   hbsfxlz · 2018-03-13 10:08:20 +08:00 · 5435 次点击
    这是一个创建于 2472 天前的主题,其中的信息可能已经有所发展或是发生改变。

    说下详细描述吧,比如一个参与记录表,可以通过一次聚合获取 A 用户参与了多少次,如何在第一次的聚合结果上再次聚合,得出参与多少次的有多少人这种结果???有尝试过 es 去实现,发现 es 桶聚合分页也不支持,更不谈这种对聚合结果聚合的操作,有 es 大佬知道这种操作可以指点一波。谢谢

    16 条回复    2018-03-13 13:17:18 +08:00
    hbsfxlz
        1
    hbsfxlz  
    OP
       2018-03-13 10:09:15 +08:00
    人工自顶一波
    hbsfxlz
        2
    hbsfxlz  
    OP
       2018-03-13 10:10:42 +08:00
    为什么在首页看不到帖呢
    sunchen
        3
    sunchen  
       2018-03-13 10:15:42 +08:00
    mpp 随便选一个
    hbsfxlz
        4
    hbsfxlz  
    OP
       2018-03-13 10:17:44 +08:00
    @sunchen mpp ???是什么
    enenaaa
        5
    enenaaa  
       2018-03-13 10:20:01 +08:00
    pandas 可以实现。但不太适合线上处理。
    EmdeBoas
        6
    EmdeBoas  
       2018-03-13 10:20:23 +08:00
    kylin 了解一下,是离线预计算,而且很不轻量...速度还是 ok 的
    hbsfxlz
        7
    hbsfxlz  
    OP
       2018-03-13 10:24:16 +08:00
    @enenaaa 要求秒级实现,pandas 导入 2KW 数据的速度已经接受不了了
    @EmdeBoas 在看,谢谢,其实理想的是基于 es,可惜 es 这个效果我没实现出来
    ConradG
        8
    ConradG  
       2018-03-13 10:30:19 +08:00
    千万还要秒级,安心流式计算搞起
    jyf
        9
    jyf  
       2018-03-13 10:34:23 +08:00
    哈 你也踩到 es 的坑啦 这个数量级随便用啥了 只是别有这种坑就行
    hbsfxlz
        10
    hbsfxlz  
    OP
       2018-03-13 10:40:08 +08:00
    @ConradG 业务需求,没办法,用 lucene 收集器实现过,大概 3KW 数据 3 到 6 秒,就怕数据量再大,算法会出问题
    @jyf 是啊,没想到 es 这么好的搜索引擎不支持,也有可能是自己不会吧,只能期望 v 社大牛指点一波了
    jasonslyvia
        11
    jasonslyvia  
       2018-03-13 10:40:23 +08:00
    druid.io 看看
    EmdeBoas
        12
    EmdeBoas  
       2018-03-13 10:46:45 +08:00
    我还是详细说一下 kylin 吧,免得你掉坑里....这个速度很快(因为是预计算),所以倒不怕数据量,(百亿级数据秒出,我刚去线上试的...),但是由于是预计算,随着你聚合维度的增加,数据量会指数级的膨胀!再一个,这东西搭起来和维护可是不轻松的.....
    hbsfxlz
        13
    hbsfxlz  
    OP
       2018-03-13 10:50:07 +08:00
    @EmdeBoas。。。。谢谢提醒。估计是使用不上了--
    fireapp
        14
    fireapp  
       2018-03-13 11:13:20 +08:00 via Android
    kudu + impala 直接撸 sql, 千万级别秒级没问题
    zhengxiaowai
        15
    zhengxiaowai  
       2018-03-13 11:16:57 +08:00
    spark 不错
    BeginMan
        16
    BeginMan  
       2018-03-13 13:17:18 +08:00   ❤️ 1
    druid 做计算引擎,superset 做 BI。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3491 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 10:45 · PVG 18:45 · LAX 02:45 · JFK 05:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.