4M 以上一条记录，使用什么数据库好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3427 天前的主题，其中的信息可能已经有所发展或是发生改变。

请教大家一个数据库问题

现在遇到一些关于数据库的问题：

1.单条记录大小在4m以上
2.每秒需要插入100条记录左右
3.单机的话硬盘几个月就被写满
4.需要较高的查询速度（能支持SQL原语查询最好了）

有什么好的数据库解决方案吗？

第 1 条附言 · 2015-07-03 14:44:14 +08:00

一秒400m确实难度很大，真实情况是一分钟100条左右吧，数据平均4m左右，并不是每条都是4m。

我们现在暂时考虑到Cassandra和hbase，不知道大家有没其他方案？

数据库

解决方案

原语

23 条回复 • 2015-07-03 18:55:07 +08:00

whahuzhihao

2015-07-03 14:12:21 +08:00

1秒钟写400M数据？关注下，等待大神解答

fredcc

2015-07-03 14:14:32 +08:00

好奇怎么大的数据为啥要进数据库

sobigfish

2015-07-03 14:22:31 +08:00

就是不能把需要查询的放入数据，不需要的放入fs然后index么？

loading

2015-07-03 14:32:18 +08:00 via Android

一楼真相！
写到文件系统都压力不小吧…

9hills

2015-07-03 14:35:51 +08:00

按照你这个写入速度，1个月写1PB。不止是单机打满吧。现在有好几PB的单机？

lianghui

2015-07-03 14:44:46 +08:00

@whahuzhihao @9hills 看附言

felixzhu

2015-07-03 15:04:31 +08:00

DFS

Ashitaka4

2015-07-03 15:58:17 +08:00

oracle+lob字段表

mhycy

2015-07-03 16:01:07 +08:00

4M一条应该不是文本数据来的吧？用文件吧。。。

wy315700

2015-07-03 16:05:47 +08:00

mongodb GridFS也可以试试看

kaneg

2015-07-03 17:44:58 +08:00

如果这个4M的数据是不变的，比如是照片之类的，放在文件系统应该是最好的。如果要从文件系统把文件读出来再存到数据库，单单网络带宽和IO压力就是一笔不小的开支。

zhicheng

2015-07-03 17:48:50 +08:00

xufang

2015-07-03 17:50:45 +08:00

weedfs

loryyang

2015-07-03 18:03:49 +08:00

算了一下，一天34T数据，和我这边处理的数据量差不多，我们这里可是用了一整套的解决方案来搞定的，我不明白，你们的数据量如此之高，之前是怎么做的？
解决方案是慢慢进化的，如果刚上就这个量级，而你还需要来v2咨询解决方案，那我建议还是招一个有经验的人协助下吧，这绝对不是一个简单的问题。
比如你如何保证数据不重不丢，如何实施多副本冗余，如何进行挖掘，如何应对网络延时，对数据积压采取什么解决方案，如何节省存储和计算资源
更不用说基础软件的维护了，如果用hbase，那么hadoop集群的搭建和维护（这个集群肯定有一定规模了），是否具备足够的hadoop和hbase实战经验，据我了解，hadoop的集群参数设置也是很有学问的

openroc

2015-07-03 18:04:42 +08:00

关键是，数据要不要索引，查询

idblife

2015-07-03 18:07:16 +08:00

1秒400M？？？

idblife

2015-07-03 18:09:36 +08:00

目前什么存储能达到1秒400M的写入，求指教。

lhbc

2015-07-03 18:18:30 +08:00

假如存一年数据，4*100*60*24*365/1024/1024 = 200T
这么大的数据，要分布式加多份存储，所以预算1PB的硬盘容量
单是存储就是几百万的成本，还不算开发、运维、运营、带宽的成本，一年总要千万的投入吧，为什么会来这里问……

fredcc

2015-07-03 18:20:40 +08:00

@idblife 10Gb级别的存储达到400M写入无压力，SSD+近线配置就可以，关键是这么大数据量的储存和使用。

9hills

2015-07-03 18:22:22 +08:00

每分钟400M的话，用HBase是可以的。

200T的话，现在的存储机器是3*12T，10台机器怎么够了，几十万而已

lhbc

2015-07-03 18:26:33 +08:00

@9hills 应该要冗余，3份就是3倍了
然后，万兆交换机加万兆网卡，SSD缓存
还有机柜、带宽成本……

9hills

2015-07-03 18:27:24 +08:00 via iPhone

@lhbc 嗯，三副本是必须的d

lincanbin

2015-07-03 18:55:07 +08:00

不需要索引的大数据不要放数据库里。