T 级别的 RDD 正确数据聚合的姿势？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2117 天前的主题，其中的信息可能已经有所发展或是发生改变。

JavaPairRDD<String, Map<String, String>> 结构的 RDD，input data 约在 1T 作用，使用常规的 reducebykey 的 excutor 内存会不够，目前，spark.executor.memory 设置的 4G，准备继续往上加到 8G 再试，这种情况下除了加 executor.memory 还有其他有效解决方式吗？小弟 spark 菜鸡，希望各位大佬给点指导。

8 条回复 • 2019-03-05 16:30:01 +08:00

1

decken

2019-03-04 19:30:34 +08:00

内存不够时间来凑可以用 reparation 将数据分成更多分区

2

ijk0

2019-03-04 20:46:34 +08:00

增加 executer 数

3

bsidb

2019-03-04 21:42:43 +08:00

用 Spark 的 DataFrame 的 API 来完成聚合操作。DataFrame API 在处理超大规模数据时，性能比 RDD 的 reduceByKey 高非常多。

4

sampeng

2019-03-04 22:48:14 +08:00 via iPhone

你这个怎么感觉就跟 500m 内存怎么分析一个 T 数据一个故事呢…内存不够时间来凑…

5

p2pCoder

OP

2019-03-04 23:02:51 +08:00 via Android

@sampeng
@ijk0
executor 1000

6

p2pCoder

OP

2019-03-04 23:03:18 +08:00 via Android

@sampeng
@ijk0
输错了 100

7

burby

2019-03-04 23:37:35 +08:00 via iPad

google bigquery

8

ijk0

2019-03-05 16:30:01 +08:00

@p2pCoder 可以配置动态增加 executor 数（设置一个上限比如 500 ），executor 4g 也不算少了；另外注意下是不是有数据倾斜

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 3205 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 21ms · UTC 12:31 · PVG 20:31 · LAX 04:31 · JFK 07:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.