现在想如何才能搭建一个大数据平台呢?有没有文档可以参考? 数据库都文本形式的, 有没有可视化的数据分析工具呢?拖动组件实现分析?
2
wangkangluo1 2018-02-05 22:36:39 +08:00 via iPhone
ambari
|
3
hellojinjie 2018-02-05 22:37:55 +08:00
5T 也不是很大,直接 load 到数据里去就可以了。
我也想知道有啥可视化的数据分析工具,而且还能拖拉拽。 |
4
jahan OP @hellojinjie 还是用数据库?还是建大数据平台?貌似需要不少机器啊
|
5
TimePPT 2018-02-05 23:04:50 +08:00 via iPhone 1
5T 也敢称大数据了…… Hadoop 哭了
|
6
victor97 2018-02-05 23:09:54 +08:00 via Android
ELK
|
7
SoulSleep 2018-02-05 23:23:09 +08:00
ELK 是什么鬼。。。
LZ 给你一个捷径~~搜“ CDH ” |
8
lfzyx 2018-02-05 23:39:54 +08:00
|
10
alcarl 2018-02-05 23:51:55 +08:00 via Android
5t 对于大数据平台不大,但你要是想买一台机器直接实现来拖拉拽保证你爆炸。。。。
|
12
YYyoung 2018-02-06 00:01:57 +08:00 via iPhone
FineBI
|
13
alcarl 2018-02-06 00:05:59 +08:00 via Android
@jahan 并不是机器的问题,要预先做些处理汇总啥的,5t 直接拖,拖一下等不知道多久才能拖下一下。。。。可视化微软有 powerbi,也有免费版
|
14
alcarl 2018-02-06 00:10:11 +08:00 via Android
随便分析一下的话,常规的做法是弄个数据库,oracle 或者 sqlserver,根据需要抽取一些中间表,然后进行统计分析。幻想扔到大数据平台自动挖掘一下就能出美丽的报表和想要的数据的我只能呵呵了。开源大数据框架的小规模应用时的成本明显高于传统数据库
|
16
isundust 2018-02-06 00:21:14 +08:00 via Android
你可能需要个企业版 bdp
|
19
alcarl 2018-02-06 00:33:02 +08:00 via Android
@azh7138m 会炸的即使你弄来 5t 内存也有很多不能并发的计算会要你命。。。。即使你都能并发,刷一遍 5t 也不是点一下就出来的,所以对于拖拽这种对即时响应要求快的,还是要降数据量。否则拖一下等半天自己都会骂娘。。。。。
|
22
manfred4527 2018-02-06 05:46:42 +08:00 via iPhone
SAS SPSS
|
23
defunct9 2018-02-06 08:09:05 +08:00 via iPhone
自搭 hadoop
|
25
bayker 2018-02-06 09:05:35 +08:00
借楼提问: 数据存储到数据库( elasticsearch )后,是用 elasti 的 API 方法做数据分析,还是有其他工具可以自动分析?
|
28
suixn 2018-02-06 09:25:36 +08:00
clickhouse
|
29
defunct9 2018-02-06 09:27:34 +08:00 1
@jahan 单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop,减配的话,两个 namenode,一个管理节点,三个 datanode。足够了,4G×2+4G+32G×3,128G 内存够了。硬盘就越大越好
|
31
v2xe2v 2018-02-06 09:33:49 +08:00
elk + kafka
|
33
bzzhou 2018-02-06 09:41:46 +08:00
|
34
fireapp 2018-02-06 09:44:10 +08:00 via Android
druid 很好用,使用官方套件 imply,不依赖第三方存储,支持 sql,可视化,拖拉,还是开源免费的,对内存要求不高,可以试试
|
35
madNeal 2018-02-06 09:44:20 +08:00
|
37
liyer 2018-02-06 10:07:32 +08:00
elasticsearch+kibana
|
39
jahan OP elasticsearch+kibana 这个模式是不是都不用数据入库?
|
40
jahan OP 很多时候的应用场景是,多人之间的关联关系,比如转账,比如物品交换等等。
|
42
rockivy 2018-02-06 10:42:42 +08:00
推荐 impala + superset
|
43
jyf 2018-02-06 11:20:40 +08:00 1
只有 5T 的话 ELK 足够了 不过有个坑 ELK 刚学的时候那个查询很烦很烦
|
44
Jacklee 2018-02-06 11:22:55 +08:00
可以上 cloudera
|
48
winglight2016 2018-02-06 12:41:29 +08:00
http://kylin.apache.org/cn/
用这个吧,开源一揽子方案,我之前就想用,后来没时间,LZ 用过了发个测评啊 |
49
defunct9 2018-02-06 12:58:13 +08:00
@jahan 720 都没了。你的数据 aws 估计不感兴趣,集群是用完就没了的,数据会放到你指定的 bucket 里。刚弄完 emr 的一单小活,所以比较清楚。
|
50
jyf007 2018-02-06 14:15:32 +08:00
@winglight2016 看成了 https://en.wikipedia.org/wiki/Kylin_%28operating_system%29 这个 redhat 了,因为天天碰的缘故
|
51
tflz514 2018-02-06 14:20:55 +08:00
考虑商用么?大概是什么数据?
|
52
jahan OP 现在我觉得可能要解决得是技术路线,硬件准备等一系列问题了。
大家得讨论太有价值了。 |
54
jahan OP 单台 Dell R730 就可以。虚拟出来 kvm 搭建 hadoop,减配的话,两个 namenode,一个管理节点,三个 datanode。足够了,4G×2+4G+32G×3,128G 内存够了。硬盘就越大越好
======== 上面这些有文档吗? |
55
laxenade 2018-02-06 15:03:33 +08:00 via Android
看一下 aws glue 吧 能满足你拖拽控件和不需要什么服务器的要求。至于怎么可视化,结果都在 s3 了随便找个 BI 就可以了,在这里就不推荐 aws quicksight(实在太垃圾), 有钱直接上 tableau。
|
56
defunct9 2018-02-06 16:51:26 +08:00
@jahan 搭过 600 台的集群,一开始做试验的时候用的 saltstack 的脚本,自动部署,两个 namenode,一个 hue+hive+pig+管理,三个 zookeeper+journalnode,3 个 datanode,用的 cloudera。没整理文档。没什么难度
|
57
abmin521 2018-02-06 17:05:48 +08:00 via Android
多少 PB 才叫大数据?
|
58
rayray314 2018-02-06 18:16:47 +08:00
有钱 Tableau,成熟的商业化方案。
也可以 POWER BI,甚至 EXCEL 里的 POWER QUERY+POWER PIVOT 都可以。 |
59
WildCat 2018-02-06 18:30:47 +08:00
看起来是社工库。
|
61
winglight2016 2018-02-06 20:39:27 +08:00
@jyf007 是啊,一开始别人介绍我也以为是那个操作系统,看了一下网站发现 UI 设计的不错,应该还可以吧
|
62
yingfengi 2018-02-06 21:27:33 +08:00
5T 大数据? 不会是什么裤子吧
|
63
realpg 2018-02-07 00:22:44 +08:00
|
67
realpg 2018-02-07 01:15:55 +08:00
|
68
realpg 2018-02-07 01:16:48 +08:00
@jahan #66
举例吧,这边大带宽的用户,国内前几名的大视频站的 cdn 边缘节点,缓存,几乎全是这些垃圾二手服务器跑的 |
70
toono 2018-02-07 08:55:42 +08:00
elk 或者 druid + superset。
|
73
fff333 2018-02-07 09:55:07 +08:00
tableau 是很不错的
|
75
zhzy0077 2018-02-07 10:17:19 +08:00 via Android
|
76
realpg 2018-02-07 11:07:32 +08:00
@jahan #72
你买整机怎么可能搞定…… 自己折腾 这东西我都搞了两百多套了 现在机房的低价销售的虚拟化集群都是这玩意 HP DELL 的准系统 自己配 CPU 内存去 内存 4G 也就 50 左右 插满 24 条就是 96 了 ¥ 1200 机框 HP DELL 的 1366 也就几百元 CPU 两颗看你主频选择,200~600 之间 以上都不算硬盘 存储系统从来都是单算的 |
79
feverzsj 2018-02-07 11:55:21 +08:00
单机就能搞定
|
81
liyer 2018-02-07 14:57:54 +08:00
elasticsearch 的主要功能是用作搜索引擎
如果你只需要对 rawdata 进行分析,用可视化工具就可以了。 推荐 Microsoft power BI, 支持超多种数据格式,包括 txt 文本和 log 文件。 |
82
jahan OP @liyer 基本上是对格式化的文本进行处理。觉得这样子能够减少建库搭台的麻烦。
elk 这种确实挺好的,看了下文档,问题是变化都太快了,官方的 document 都没有很仔细的写部署方案啊,网上的一堆都已经是过时了,(一个 head 就 plugin 了好久,发现其实早在 5.x 就不支持了) 求教一个能够比较完整搭建 elk 环境的文档位置。 power BI 也在试用。 |
83
defunct9 2018-02-07 15:35:02 +08:00
|
84
jahan OP @defunct9 非常感谢。非常详细的参考,不过这个加载 head 的方法已经失效了,5.x 之后就不再支持了。
组件之间的变化太快了。 |
86
vanvesee 2018-02-07 17:54:02 +08:00
自己用还是临时工程啊? 取决于手头的 Money...
如果团队小,建议用云端服务做数据存储和处理,需要分析的数据拉取后做自助分析( BI 工具:帆软、Tableau 等)。 否则硬件投入不算,后期的运维成本其实挺大的,当然你说这都不是事、动手能力强,那你就自己捣鼓也行。 |
87
jahan OP |
88
fireapp 2018-02-07 21:32:19 +08:00 via Android
先清洗能砍掉一多半数据,再丢进 druid 直接合并压缩到 1 / 3,最后数据量 1t 左右,秒级查询,理论上可行
前期清洗用 drill,批清洗就行,不用定义结构直接 sql 就是干,硬件的话 16 ~ 32G 内存,6 ~ 8T 硬盘的台式机就行了 不用上 hadoop,维护麻烦 |
89
jahan OP @defunct9 搭过 600 台的集群,一开始做试验的时候用的 saltstack 的脚本,自动部署,两个 namenode,一个 hue+hive+pig+管理,三个 zookeeper+journalnode,3 个 datanode,用的 cloudera。没整理文档。没什么难度=================================
请教一下 saltstack 脚本哪里可以找到?谢谢。 |
90
jahan OP @fireapp 非常感谢提供思路。不过 5t 已经是清洗过的数据了。elk 的方案也是类似直接 rawdata 开干。hadoop 的好处是有个地方保存,不过开始设计文件目录也是比较麻烦的事儿。
|
92
defunct9 2018-02-08 09:57:22 +08:00
@jahan http://www.54tianzhisheng.cn/2017/09/09/Elasticsearch-install/ 新版的 es 和 head 安装,写的很不错
|
93
idcspy 2018-02-08 18:53:10 +08:00
火眼金睛个人破案神器中国的 I2
月光宝盒智能清洗数据团队协作分析 天罗地网大数据+机器智能+人脑智慧海量数据挖掘 |
95
jahan OP |
96
idcspy 2018-02-09 10:48:23 +08:00
我没说清楚,你也没看懂,是个情报分析软件,就叫火眼金睛,摆渡任何一行就知道了,不过这软件不针对个人,有点麻烦.
|