V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
whatisnew
V2EX  ›  数据库

app 一天产生〜10gb 的数据

  •  
  •   whatisnew · 2015-05-28 20:50:55 +08:00 · 2852 次点击
    这是一个创建于 3499 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一个月下来〜300gb如何处理是好,如何计算?这种应该就是所谓的大数据了吧?

    分词

    统计分析

    目前行业都是怎么做的呢?

    17 条回复    2015-07-21 18:19:54 +08:00
    wy315700
        1
    wy315700  
       2015-05-28 20:53:20 +08:00
    hadoop 集群,,,
    yghack
        2
    yghack  
       2015-05-28 21:00:02 +08:00
    使用的什么数据库?
    neo2015
        3
    neo2015  
       2015-05-28 21:05:34 +08:00
    什么APP这么牛,我自己的APP。一个月才1G数据入库
    johnsmith123
        4
    johnsmith123  
       2015-05-28 21:48:28 +08:00
    大数据233 合着大数据一个200块的盘就行了?
    vibbow
        5
    vibbow  
       2015-05-28 22:12:58 +08:00
    怎么都得PB级别的数据才算得上大数据吧...
    em70
        6
    em70  
       2015-05-29 01:44:40 +08:00 via Android
    每天晚上分析当天数据,留下重要的,其他扔掉
    x4
        7
    x4  
       2015-05-29 01:51:45 +08:00 via Android
    @vibbow 度娘正在建设可放4000pb的云计算中心。。。可放大数据。。。
    icloudnet
        8
    icloudnet  
       2015-05-29 03:23:25 +08:00
    @em70 手工是根本没法分析的,我每天近4G的数据都已经麻木了。
    做大数据分析是个好办法。
    cevincheung
        9
    cevincheung  
       2015-05-29 03:31:10 +08:00
    10gb的什么数据?用户上传的图片?还是类似微博的文本数据?前者,第三方存储平台。后者,使用的是什么数据库?是数据库最终的文件大小?还是……?或者是web or database的log文件?log 第二天整理头天的数据,归档完毕后即可删除
    asj
        10
    asj  
       2015-05-29 05:09:57 +08:00 via iPad
    LHC,就是那个撞出上帝粒子的对撞机
    每秒产生1GB数据
    whatisnew
        11
    whatisnew  
    OP
       2015-05-29 07:55:59 +08:00 via iPhone
    @cevincheung 类似微博这样的数据+用户行为数据,mysql数据库
    easynoder
        12
    easynoder  
       2015-05-29 08:21:37 +08:00
    Hadoop + elasticsearch
    yanze0613
        13
    yanze0613  
       2015-05-29 10:00:01 +08:00
    我猜,是用户行为日志,不然一般量级的APP做不到这么多
    然而我要说,其实这谈不上大数据,因为很多记录,都是垃圾
    wingoo
        14
    wingoo  
       2015-05-29 11:09:08 +08:00
    拆分纬度到不同的库
    cevincheung
        15
    cevincheung  
       2015-05-29 14:31:51 +08:00
    @whatisnew
    1.换数据库(MongoDB、PostgreSQL)承担存储、写入。
    2.1增加Redis/Memcached等缓存技术手段,在前端承担读。
    2.2或者使用Elasticsearch/Solr等手段(如果是类似只读取指定条件的数据而不存在什么复杂条件检索和全文检索的话,Redis什么的足够)


    Ps:最重要的一点,10+台的服务器做集群是肯定的,单机想解决瓶颈那就洗洗睡吧。
    bdbai
        16
    bdbai  
       2015-05-29 19:12:02 +08:00 via iPhone
    @asj BOINC跑否?
    taowen
        17
    taowen  
       2015-07-21 18:19:54 +08:00
    Kafka + Storm/Spark + Elasticsearch
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1560 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:02 · PVG 01:02 · LAX 09:02 · JFK 12:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.