怎么搭建一个大数据分析平台呢？想搭建一个自用的平台，数据量也不是很大 5T 左右吧

搭建

可视化

数据

拖动

96 条回复 • 2018-02-09 10:48:23 +08:00

2

wangkangluo1

2018-02-05 22:36:39 +08:00 via iPhone

ambari

3

hellojinjie

2018-02-05 22:37:55 +08:00

5T 也不是很大，直接 load 到数据里去就可以了。

我也想知道有啥可视化的数据分析工具，而且还能拖拉拽。

4

jahan

OP

2018-02-05 22:53:27 +08:00

@hellojinjie 还是用数据库？还是建大数据平台？貌似需要不少机器啊

5

TimePPT

PRO

2018-02-05 23:04:50 +08:00 via iPhone

1

5T 也敢称大数据了…… Hadoop 哭了

6

victor97

2018-02-05 23:09:54 +08:00 via Android

ELK

7

SoulSleep

2018-02-05 23:23:09 +08:00

ELK 是什么鬼。。。

LZ 给你一个捷径~~搜“ CDH ”

8

lfzyx

2018-02-05 23:39:54 +08:00

https://aws.amazon.com/cn/products/analytics/?nc2=h_l3_db

9

jahan

OP

2018-02-05 23:42:04 +08:00

@TimePPT 莫哭，说了不大。就是想尝试搭建一个平台，分析一下而已。
有没有不用消耗那么多机器的方案呢

10

alcarl

2018-02-05 23:51:55 +08:00 via Android

5t 对于大数据平台不大，但你要是想买一台机器直接实现来拖拉拽保证你爆炸。。。。

11

jahan

OP

2018-02-05 23:52:38 +08:00

@alcarl 那还是要配足机器？

12

YYyoung

2018-02-06 00:01:57 +08:00 via iPhone

FineBI

13

alcarl

2018-02-06 00:05:59 +08:00 via Android

@jahan 并不是机器的问题，要预先做些处理汇总啥的，5t 直接拖，拖一下等不知道多久才能拖下一下。。。。可视化微软有 powerbi，也有免费版

14

alcarl

2018-02-06 00:10:11 +08:00 via Android

随便分析一下的话，常规的做法是弄个数据库，oracle 或者 sqlserver，根据需要抽取一些中间表，然后进行统计分析。幻想扔到大数据平台自动挖掘一下就能出美丽的报表和想要的数据的我只能呵呵了。开源大数据框架的小规模应用时的成本明显高于传统数据库

15

jahan

OP

2018-02-06 00:12:28 +08:00

@alcarl 那倒没有幻想直接出报表。主要是看到好多帖子说整合这些组件就要很久。。。所以想找个合适的方案

16

isundust

2018-02-06 00:21:14 +08:00 via Android

你可能需要个企业版 bdp

17

azh7138m

2018-02-06 00:26:02 +08:00

@alcarl 什么 56C 1T 内存的机器我觉得不会爆炸（

18

alcarl

2018-02-06 00:28:17 +08:00 via Android

@jahan 试试 powerbi 微软的东西从来都是好用的不行，但数据量的问题要自己处理

19

alcarl

2018-02-06 00:33:02 +08:00 via Android

@azh7138m 会炸的即使你弄来 5t 内存也有很多不能并发的计算会要你命。。。。即使你都能并发，刷一遍 5t 也不是点一下就出来的，所以对于拖拽这种对即时响应要求快的，还是要降数据量。否则拖一下等半天自己都会骂娘。。。。。

20

jahan

OP

2018-02-06 01:04:55 +08:00

@isundust 看 bdp 的介绍貌似是可以拖拽，不过这个底层是 greenplum 吗？

21

jahan

OP

2018-02-06 01:05:40 +08:00

@SoulSleep 主要是不知道如何才能搭建一个可用的环境，有没有 step by step 的教程呢

22

manfred4527

2018-02-06 05:46:42 +08:00 via iPhone

SAS SPSS

23

defunct9

2018-02-06 08:09:05 +08:00 via iPhone

自搭 hadoop

24

jahan

OP

2018-02-06 08:16:12 +08:00

@defunct9 机器最低需要多少呢，不知自用的话，需要何种性能

25

bayker

2018-02-06 09:05:35 +08:00

借楼提问：数据存储到数据库（ elasticsearch ）后,是用 elasti 的 API 方法做数据分析，还是有其他工具可以自动分析？

26

jahan

OP

2018-02-06 09:20:29 +08:00

@bayker 感谢提供又一个信息

27

rockyou12

2018-02-06 09:23:53 +08:00

@bayker kibana 可以直接可视化

28

suixn

2018-02-06 09:25:36 +08:00

clickhouse

29

defunct9

2018-02-06 09:27:34 +08:00

1

@jahan 单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop，减配的话，两个 namenode，一个管理节点，三个 datanode。足够了，4G×2+4G+32G×3，128G 内存够了。硬盘就越大越好

30

defunct9

2018-02-06 09:28:07 +08:00

@jahan 也可以直上 aws 的 emr，按需付费。

31

v2xe2v

2018-02-06 09:33:49 +08:00

elk + kafka

33

bzzhou

2018-02-06 09:41:46 +08:00

@defunct9 kvm 这个对 IO 性能多伤呀

如果一台机器，就直接多挂磁盘，replication 设置为 1 （备份好原始数据），直接在本地文件系统开跑

34

fireapp

2018-02-06 09:44:10 +08:00 via Android

druid 很好用，使用官方套件 imply，不依赖第三方存储，支持 sql,可视化，拖拉，还是开源免费的，对内存要求不高，可以试试

35

madNeal

2018-02-06 09:44:20 +08:00

https://mp.weixin.qq.com/s?__biz=MzI3MjA3MTY3Mw==&mid=2247483655&idx=1&sn=e3e29a5b90edfc4ffbf57b7310d53e6b&chksm=eb396f91dc4ee687a2e96d46c46db3420868a54ea8fe99ae0a64a92fddd16a7a4f7eb8d90d4f#rd

36

defunct9

2018-02-06 09:49:39 +08:00

@bzzhou emr 也是开 kvm 的 cluster，io 也不伤啊，hadoop 对 io 的要求不高撒。

37

liyer

2018-02-06 10:07:32 +08:00

elasticsearch+kibana

38

jahan

OP

2018-02-06 10:17:02 +08:00

@madNeal 非常感谢。
@liyer 非常感谢。
这个是不是借用传统数据库就可以了？

39

jahan

OP

2018-02-06 10:17:52 +08:00

elasticsearch+kibana 这个模式是不是都不用数据入库？

40

jahan

OP

2018-02-06 10:19:36 +08:00

很多时候的应用场景是，多人之间的关联关系，比如转账，比如物品交换等等。

41

jahan

OP

2018-02-06 10:21:10 +08:00

@defunct9 貌似要不少机器，步骤好像也比较复杂，不过确实可以学习一下。

42

sometimesna1ve

2018-02-06 10:42:42 +08:00

推荐 impala + superset

43

jyf

2018-02-06 11:20:40 +08:00

1

只有 5T 的话 ELK 足够了不过有个坑 ELK 刚学的时候那个查询很烦很烦

44

Jacklee

2018-02-06 11:22:55 +08:00

可以上 cloudera

45

jahan

OP

2018-02-06 11:48:04 +08:00

@jyf 目前测试是 5T,以后会增长。

46

jahan

OP

2018-02-06 11:48:21 +08:00

@rockivy 感谢提供信息。

47

jahan

OP

2018-02-06 12:22:41 +08:00

@defunct9 730 ？弄过 720，噪音喜人啊。
aws 得服务的话，数据会被 amazon 拿走？有保证吗

48

winglight2016

2018-02-06 12:41:29 +08:00

http://kylin.apache.org/cn/
用这个吧，开源一揽子方案，我之前就想用，后来没时间，LZ 用过了发个测评啊

49

defunct9

2018-02-06 12:58:13 +08:00

@jahan 720 都没了。你的数据 aws 估计不感兴趣，集群是用完就没了的，数据会放到你指定的 bucket 里。刚弄完 emr 的一单小活，所以比较清楚。

50

jyf007

2018-02-06 14:15:32 +08:00

@winglight2016 看成了 https://en.wikipedia.org/wiki/Kylin_%28operating_system%29 这个 redhat 了,因为天天碰的缘故

51

tflz514

2018-02-06 14:20:55 +08:00

考虑商用么？大概是什么数据？

52

jahan

OP

2018-02-06 14:22:36 +08:00

现在我觉得可能要解决得是技术路线，硬件准备等一系列问题了。
大家得讨论太有价值了。

53

jahan

OP

2018-02-06 14:37:25 +08:00

@YYyoung 接触过，感觉背后是 greenplum 啊

54

jahan

OP

2018-02-06 14:39:21 +08:00

单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop，减配的话，两个 namenode，一个管理节点，三个 datanode。足够了，4G×2+4G+32G×3，128G 内存够了。硬盘就越大越好

========
上面这些有文档吗？

55

laxenade

2018-02-06 15:03:33 +08:00 via Android

看一下 aws glue 吧能满足你拖拽控件和不需要什么服务器的要求。至于怎么可视化，结果都在 s3 了随便找个 BI 就可以了，在这里就不推荐 aws quicksight(实在太垃圾)，有钱直接上 tableau。

56

defunct9

2018-02-06 16:51:26 +08:00

@jahan 搭过 600 台的集群，一开始做试验的时候用的 saltstack 的脚本，自动部署，两个 namenode，一个 hue+hive+pig+管理，三个 zookeeper+journalnode，3 个 datanode，用的 cloudera。没整理文档。没什么难度

57

abmin521

2018-02-06 17:05:48 +08:00 via Android

多少 PB 才叫大数据？

58

rayray314

2018-02-06 18:16:47 +08:00

有钱 Tableau，成熟的商业化方案。

也可以 POWER BI，甚至 EXCEL 里的 POWER QUERY+POWER PIVOT 都可以。

59

WildCat

2018-02-06 18:30:47 +08:00

看起来是社工库。

60

fange01

2018-02-06 18:58:02 +08:00

@WildCat 有什么好方案

61

winglight2016

2018-02-06 20:39:27 +08:00

@jyf007 是啊，一开始别人介绍我也以为是那个操作系统，看了一下网站发现 UI 设计的不错，应该还可以吧

62

yingfengi

2018-02-06 21:27:33 +08:00

5T 大数据？不会是什么裤子吧

63

realpg

PRO

2018-02-07 00:22:44 +08:00

@jahan #54
730 多贵……
折腾 N 手 720 如果对 CPU 要求不高，甚至 710 （ 24 线程 96G 内存也就两三千块钱搞定）
机房一丢美滋滋

64

likuku

2018-02-07 00:27:46 +08:00

@jahan aws 可以全加密，密钥都在你手上。当然，得海外 aws，（国内 aws 没有根账号)

65

jahan

OP

2018-02-07 01:11:23 +08:00

@realpg 有考虑过，不过确实噪音感人啊，目前还没有机房，人机一间房。

66

jahan

OP

2018-02-07 01:13:46 +08:00

@realpg 话说有这么便宜吗

67

realpg

PRO

2018-02-07 01:15:55 +08:00

@jahan #66
就是这么便宜……
我搞机房的，我这里用户，节约成本玩法的租机客户全是 1366 平台…… 然后略微要新一点就 E5v2
现在普遍应用都是 IO 敏感，cpu 性能早就过剩了……

68

realpg

PRO

2018-02-07 01:16:48 +08:00

@jahan #66
举例吧，这边大带宽的用户，国内前几名的大视频站的 cdn 边缘节点，缓存，几乎全是这些垃圾二手服务器跑的

69

jahan

OP

2018-02-07 01:28:01 +08:00

@realpg 长见识了。。。。是个解决硬件问题的办法。

70

toono

2018-02-07 08:55:42 +08:00

elk 或者 druid + superset。

71

yanzixuan

2018-02-07 09:08:45 +08:00

@jahan elasticsearc 就是存数据啊，等效于数据库。。。

72

jahan

OP

2018-02-07 09:22:01 +08:00

@realpg 搜索了一下某宝，还真没发现有 2-3000 能搞定得 24/96g 二手？是不是关键字错了？

73

fff333

2018-02-07 09:55:07 +08:00

tableau 是很不错的

74

jahan

OP

2018-02-07 10:08:47 +08:00

@fff333 商用付费吧，而且存储数据怎么弄？数据库?hadoop ？

75

zhzy0077

2018-02-07 10:17:19 +08:00 via Android

data.aliyun.com/product/bi

76

realpg

PRO

2018-02-07 11:07:32 +08:00

@jahan #72
你买整机怎么可能搞定……
自己折腾这东西我都搞了两百多套了现在机房的低价销售的虚拟化集群都是这玩意
HP DELL 的准系统自己配 CPU 内存去内存 4G 也就 50 左右插满 24 条就是 96 了￥ 1200 机框 HP DELL 的 1366 也就几百元 CPU 两颗看你主频选择，200~600 之间
以上都不算硬盘存储系统从来都是单算的

77

jahan

OP

2018-02-07 11:50:11 +08:00

@liyer 这个貌似单机就可以操作。麻烦请教下有 elk 三者结合比较完整的教程吗？

78

jahan

OP

2018-02-07 11:54:53 +08:00

@liyer 貌似能够比较快速的部署，话说这种对日志分析应该也能对记账流水类的数据库导出文件分析吧。

79

feverzsj

2018-02-07 11:55:21 +08:00

单机就能搞定

80

9songs

2018-02-07 12:01:28 +08:00

@WildCat +1 2333

81

liyer

2018-02-07 14:57:54 +08:00

elasticsearch 的主要功能是用作搜索引擎
如果你只需要对 rawdata 进行分析，用可视化工具就可以了。
推荐 Microsoft power BI，支持超多种数据格式，包括 txt 文本和 log 文件。

82

jahan

OP

2018-02-07 15:28:39 +08:00

@liyer 基本上是对格式化的文本进行处理。觉得这样子能够减少建库搭台的麻烦。
elk 这种确实挺好的，看了下文档，问题是变化都太快了，官方的 document 都没有很仔细的写部署方案啊，网上的一堆都已经是过时了，（一个 head 就 plugin 了好久，发现其实早在 5.x 就不支持了）
求教一个能够比较完整搭建 elk 环境的文档位置。
power BI 也在试用。

83

defunct9

2018-02-07 15:35:02 +08:00

@jahan http://www.rendoumi.com/tag/elasticsearch/

84

jahan

OP

2018-02-07 15:54:10 +08:00

@defunct9 非常感谢。非常详细的参考，不过这个加载 head 的方法已经失效了，5.x 之后就不再支持了。
组件之间的变化太快了。

85

defunct9

2018-02-07 15:58:54 +08:00

@jahan 是你要用最新的啊。那就得看最新的文档。你退回一个版本，这个方法还没失效

86

vanvesee

2018-02-07 17:54:02 +08:00

自己用还是临时工程啊？取决于手头的 Money...
如果团队小，建议用云端服务做数据存储和处理，需要分析的数据拉取后做自助分析（ BI 工具：帆软、Tableau 等）。
否则硬件投入不算，后期的运维成本其实挺大的，当然你说这都不是事、动手能力强，那你就自己捣鼓也行。

87

jahan

OP

2018-02-07 20:55:25 +08:00

@vanvesee 万事自己倒腾时间成本也很高。
不是临时工程，不过预算也有限。
所以想找一个比较成熟的方案（学习路经）。减少时间成本，硬件成本。

88

fireapp

2018-02-07 21:32:19 +08:00 via Android

先清洗能砍掉一多半数据，再丢进 druid 直接合并压缩到 1 ／ 3,最后数据量 1t 左右，秒级查询，理论上可行
前期清洗用 drill，批清洗就行，不用定义结构直接 sql 就是干，硬件的话 16 ～ 32G 内存，6 ～ 8T 硬盘的台式机就行了
不用上 hadoop，维护麻烦

89

jahan

OP

2018-02-08 02:10:12 +08:00

@defunct9 搭过 600 台的集群，一开始做试验的时候用的 saltstack 的脚本，自动部署，两个 namenode，一个 hue+hive+pig+管理，三个 zookeeper+journalnode，3 个 datanode，用的 cloudera。没整理文档。没什么难度=================================
请教一下 saltstack 脚本哪里可以找到？谢谢。

90

jahan

OP

2018-02-08 02:16:30 +08:00

@fireapp 非常感谢提供思路。不过 5t 已经是清洗过的数据了。elk 的方案也是类似直接 rawdata 开干。hadoop 的好处是有个地方保存，不过开始设计文件目录也是比较麻烦的事儿。

91

defunct9

2018-02-08 09:10:11 +08:00

@jahan 得自己写，让我帮忙搭也没问题。

92

defunct9

2018-02-08 09:57:22 +08:00

@jahan http://www.54tianzhisheng.cn/2017/09/09/Elasticsearch-install/ 新版的 es 和 head 安装，写的很不错

93

idcspy

2018-02-08 18:53:10 +08:00

火眼金睛个人破案神器中国的 I2
月光宝盒智能清洗数据团队协作分析
天罗地网大数据+机器智能+人脑智慧海量数据挖掘

94

jahan

OP

2018-02-08 20:41:24 +08:00

@defunct9 非常感谢，少不了要请教你。
上面提供的链接也非常有用，准备先 elk 试试。

95

jahan

OP

2018-02-08 20:43:53 +08:00

@idcspy 你这回复这么幽默，要我怎么回答呢，谢谢鼓励（挖苦）吧。如果再实在点透露点细节那就更好了。

感谢大家提供的信息，非常有价值。

96

idcspy

2018-02-09 10:48:23 +08:00

我没说清楚,你也没看懂,是个情报分析软件,就叫火眼金睛,摆渡任何一行就知道了,不过这软件不针对个人,有点麻烦.