V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lianghui
V2EX  ›  程序员

4M 以上一条记录,使用什么数据库好?

  •  
  •   lianghui ·
    whiteclover · 2015-07-03 14:03:03 +08:00 · 3820 次点击
    这是一个创建于 3427 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请教大家一个数据库问题

    现在遇到一些关于数据库的问题:

    1.单条记录大小在4m以上
    2.每秒需要插入100条记录左右
    3.单机的话硬盘几个月就被写满
    4.需要较高的查询速度(能支持SQL原语查询最好了)

    有什么好的数据库解决方案吗?
    第 1 条附言  ·  2015-07-03 14:44:14 +08:00
    一秒400m确实难度很大,真实情况是一分钟100条左右吧,数据平均4m左右,并不是每条都是4m。

    我们现在暂时考虑到Cassandra和hbase,不知道大家有没其他方案?
    23 条回复    2015-07-03 18:55:07 +08:00
    whahuzhihao
        1
    whahuzhihao  
       2015-07-03 14:12:21 +08:00
    1秒钟写400M数据? 关注下,等待大神解答
    fredcc
        2
    fredcc  
       2015-07-03 14:14:32 +08:00
    好奇怎么大的数据为啥要进数据库
    sobigfish
        3
    sobigfish  
       2015-07-03 14:22:31 +08:00
    就是 不能把需要查询的放入数据,不需要的放入fs然后index么?
    loading
        4
    loading  
       2015-07-03 14:32:18 +08:00 via Android
    一楼真相!
    写到文件系统都压力不小吧…
    9hills
        5
    9hills  
       2015-07-03 14:35:51 +08:00
    按照你这个写入速度,1个月写1PB。不止是单机打满吧。现在有好几PB的单机?
    lianghui
        6
    lianghui  
    OP
       2015-07-03 14:44:46 +08:00
    @whahuzhihao @9hills 看附言
    felixzhu
        7
    felixzhu  
       2015-07-03 15:04:31 +08:00
    DFS
    Ashitaka4
        8
    Ashitaka4  
       2015-07-03 15:58:17 +08:00
    oracle+lob字段表
    mhycy
        9
    mhycy  
       2015-07-03 16:01:07 +08:00
    4M一条应该不是文本数据来的吧?用文件吧。。。
    wy315700
        10
    wy315700  
       2015-07-03 16:05:47 +08:00
    mongodb GridFS也可以试试看
    kaneg
        11
    kaneg  
       2015-07-03 17:44:58 +08:00
    如果这个4M的数据是不变的,比如是照片之类的,放在文件系统应该是最好的。如果要从文件系统把文件读出来再存到数据库,单单网络带宽和IO压力就是一笔不小的开支。
    zhicheng
        12
    zhicheng  
       2015-07-03 17:48:50 +08:00
    S3
    xufang
        13
    xufang  
       2015-07-03 17:50:45 +08:00
    weedfs
    loryyang
        14
    loryyang  
       2015-07-03 18:03:49 +08:00
    算了一下,一天34T数据,和我这边处理的数据量差不多,我们这里可是用了一整套的解决方案来搞定的,我不明白,你们的数据量如此之高,之前是怎么做的?
    解决方案是慢慢进化的,如果刚上就这个量级,而你还需要来v2咨询解决方案,那我建议还是招一个有经验的人协助下吧,这绝对不是一个简单的问题。
    比如你如何保证数据不重不丢,如何实施多副本冗余,如何进行挖掘,如何应对网络延时,对数据积压采取什么解决方案,如何节省存储和计算资源
    更不用说基础软件的维护了,如果用hbase,那么hadoop集群的搭建和维护(这个集群肯定有一定规模了),是否具备足够的hadoop和hbase实战经验,据我了解,hadoop的集群参数设置也是很有学问的
    openroc
        15
    openroc  
       2015-07-03 18:04:42 +08:00
    关键是,数据要不要索引,查询
    idblife
        16
    idblife  
       2015-07-03 18:07:16 +08:00
    1秒400M???
    idblife
        17
    idblife  
       2015-07-03 18:09:36 +08:00
    目前什么存储能达到1秒400M的写入,求指教。
    lhbc
        18
    lhbc  
       2015-07-03 18:18:30 +08:00
    假如存一年数据,4*100*60*24*365/1024/1024 = 200T
    这么大的数据,要分布式加多份存储,所以预算1PB的硬盘容量
    单是存储就是几百万的成本,还不算开发、运维、运营、带宽的成本,一年总要千万的投入吧,为什么会来这里问……
    fredcc
        19
    fredcc  
       2015-07-03 18:20:40 +08:00
    @idblife 10Gb级别的存储达到400M写入无压力,SSD+近线配置就可以,关键是这么大数据量的储存和使用。
    9hills
        20
    9hills  
       2015-07-03 18:22:22 +08:00
    每分钟400M的话,用HBase是可以的。

    200T的话,现在的存储机器是3*12T,10台机器怎么够了,几十万而已
    lhbc
        21
    lhbc  
       2015-07-03 18:26:33 +08:00
    @9hills 应该要冗余,3份就是3倍了
    然后,万兆交换机加万兆网卡,SSD缓存
    还有机柜、带宽成本……
    9hills
        22
    9hills  
       2015-07-03 18:27:24 +08:00 via iPhone
    @lhbc 嗯,三副本是必须的d
    lincanbin
        23
    lincanbin  
       2015-07-03 18:55:07 +08:00
    不需要索引的大数据不要放数据库里。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1160 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 38ms · UTC 18:42 · PVG 02:42 · LAX 10:42 · JFK 13:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.