想问下我这种实时数据统计可以用 flink 做吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 388 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在公司是在海外做即时配送的，老板要我优化现在的实时统计 job ，

要监控 100000 骑士当天送单时长，多单重叠会有些特殊逻辑；

计算每个骑士当天下线时间；

计算当天每个门店的单履约情况，单子大约 8000000 一天，算这些单子 15 分钟被送达的量，还可能要分品牌、城市、业务线什么的

等等这些实时的统计，还就是想要监控各个业务线、不同状态的单子。用 flink 做可以吗？

现在是用代码 job 算的，比较慢，而且开发起来比较麻烦，需要查各种数据。

flink

实时

统计

14 条回复 • 2024-08-26 20:21:45 +08:00

shishiyi

2024-08-24 09:56:36 +08:00

貌似可以

qweruiop

2024-08-24 10:30:16 +08:00

这点数据量，直接 clickhouse 一个查询就出来啦。。。

kkbear

2024-08-24 13:43:36 +08:00

用 flink 做的方法是什么？在实时的流处理里面一直更新统计结果？

zoharSoul

2024-08-24 14:24:39 +08:00

不适合主要时间窗口太大了

zoharSoul

2024-08-24 14:24:55 +08:00

@qweruiop #2 clickhouse 顶不住面向 c 端的查询量

R4rvZ6agNVWr56V0

2024-08-24 18:56:00 +08:00

@zoharSoul 尝试使用 5 分钟的窗口大小,1 分钟的滑动步长，不行吗？

adguy

2024-08-25 08:57:33 +08:00

@zoharSoul 那麻烦问下有什么合适的方法吗？

512357301

2024-08-25 11:33:30 +08:00

@zoharSoul ck 算完之后存到 mysql 呢，后者可以高并发

XyIsMy

2024-08-25 22:45:37 +08:00

clickhouse ，doris 物化视图应该可以直接实现

lingalonely

2024-08-26 10:19:18 +08:00

几个问题：
数据给谁看的，给骑手，给商户，还是给公司内部，这个涉及数据的查询频率。
数据在哪里，数据查询复杂程度怎么

正常来说 kafka 到 flink 到 mysql 没啥毛病
使用 doris ，greenplum ，ck 这类 MPP 数据库，千万级的数据量也是小儿科，看你们公司的本身架构

adguy

2024-08-26 11:17:07 +08:00

@lingalonely 商户骑手公司内部都有，骑手是看他个人的，商户就看他几个店的，公司内部就看比如某条业务线所有的门店，还有按城市筛选这种。数据查询的频率总体不是特别高。

现在没有这样的数据，都是原始数据，或者是基于原始数据做了简单聚合的结果，查询基本不会很复杂，就是根据一堆条件查出然后聚合统计

数据量一天单量肯定是 1000 万以下，骑士不超过 10 万。

架构还没想好，大佬有啥建议吗？

loveaeen

2024-08-26 11:52:40 +08:00

所以本身数据查询并不慢，慢的是统计分析这一步？
我的想法是 flink 抓取数据后 ETL 到 ES, Doris 都可以吧。

sleeepyy

2024-08-26 17:20:21 +08:00

https://github.com/risingwavelabs/risingwave 可以考虑这个

lingalonely

2024-08-26 20:21:45 +08:00

@adguy
假设你现在的原始数据在 mysql ，一步到位的方式就是把数据同步到 doris 这类数据库，这种复杂查询很快的，就是 doris 集群的成本需要考虑，看你们公司。至于这种架构，doris 相关官方的 doc 很多。

如果要成本控制，其实看你们数据其实不多，而且大概率以当日数据为主，mysql 其实可以搞定，所以通过同步从库，在从库计算应该可以达到你的需求，历史数据做定时汇总。应该可以解决你们当前的需求

想问下 我这种 实时数据统计 可以用 flink 做吗？

想问下我这种实时数据统计可以用 flink 做吗？