V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
changwei
V2EX  ›  问与答

Bilibili 上面那些数据可视化的视频,数据都是来自哪里?

  •  
  •   changwei · 2018-12-14 19:34:22 +08:00 · 7436 次点击
    这是一个创建于 2198 天前的主题,其中的信息可能已经有所发展或是发生改变。

    例如这个 up 主 https://space.bilibili.com/5760446

    我看了一下他视频里面的数据最早一直到 2010 年,不知道这些数据都是哪里来的啊?如果真是 up 主自己爬虫抓了八年,那也真是厉害啊!!!

    20 条回复    2018-12-17 10:47:01 +08:00
    liyvhg
        1
    liyvhg  
       2018-12-14 19:36:46 +08:00 via Android
    战略性 mark。
    可能是来自于一些统计机构的公开数据吧?
    xzc19970719
        2
    xzc19970719  
       2018-12-14 19:39:15 +08:00
    自己爬的??根据日期分嘛
    Rokee
        3
    Rokee  
       2018-12-14 21:35:39 +08:00 via iPhone
    azh7138m
        4
    azh7138m  
       2018-12-14 21:38:57 +08:00 via Android
    @Rokee 读题啊
    是 数据 哪里 来的
    fuchar
        5
    fuchar  
       2018-12-14 21:39:49 +08:00
    mark 一下
    orsweet
        6
    orsweet  
       2018-12-14 21:43:24 +08:00 via Android
    插眼
    e9e499d78f
        7
    e9e499d78f  
       2018-12-14 21:46:31 +08:00
    open data ?
    gabon
        8
    gabon  
       2018-12-14 21:47:15 +08:00 via Android
    mock ?
    orangeade
        9
    orangeade  
       2018-12-14 21:58:18 +08:00 via Android   ❤️ 1
    公开数据集吧,谷歌今年还出了个数据集搜索引擎来着
    whwq2012
        10
    whwq2012  
       2018-12-14 22:00:39 +08:00 via Android   ❤️ 1
    我也想问,一想到数据来源可能很水立马觉得这些事情很 low。。
    我猜是百度 /谷歌的搜索指数?
    yingfengi
        11
    yingfengi  
       2018-12-14 22:09:45 +08:00 via Android
    有时候可能是编的,或者,百度一下。
    大部分所谓的统计,水分很大的。
    enjoyCoding
        12
    enjoyCoding  
       2018-12-15 01:45:19 +08:00 via iPhone
    Math.radom+lastRadom
    dachuige
        13
    dachuige  
       2018-12-15 01:54:28 +08:00
    这个问题困扰了好久
    Torpedo
        14
    Torpedo  
       2018-12-15 02:06:27 +08:00 via Android
    官方告诉的吧?
    molvqingtai
        15
    molvqingtai  
       2018-12-15 02:10:38 +08:00 via Android
    排除法,肯定不是八年抓的
    locoz
        16
    locoz  
       2018-12-15 05:40:19 +08:00   ❤️ 1
    首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
    然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。
    推测出可能的情况:
    1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上)
    2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录)
    3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?)
    4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能)
    5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大)
    6、以部分时间节点为关键点,并根据现在的数据来生成假数据。
    所以很可能是假数据
    locoz
        17
    locoz  
       2018-12-15 05:47:08 +08:00
    @locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。

    Pythondr
        18
    Pythondr  
       2018-12-15 10:48:52 +08:00 via Android
    看个趋势,看个热闹罢了
    changwei
        19
    changwei  
    OP
       2018-12-15 21:23:09 +08:00
    @whwq2012
    @orangeade
    @locoz

    百度指数目前最早可以查到 2011 年的数据,我也猜测是来自这个。但是他有一些数据,例如视频收藏,投币数量这种数据最早一直到 2012 年,这种数据,还要追溯到这么久以前,只有 b 站内部的人,而且还要是较高级别的运营人员才能弄到时间范围这么宽的数据吧。我就很好奇这些数据他是怎么来的,看他的账号还有 b 站官方认证,难道 b 站默默承认了他数据的真实性嘛?

    另外,如果真是假数据的话,这些 up 主就有点哗众取宠了吧,弄虚作假搞些大新闻来赚人气博眼球,我觉得这样不太好。
    locoz
        20
    locoz  
       2018-12-17 10:47:01 +08:00
    @changwei #19 百度指数那部分没问题,正常情况就能爬到,就是 B 站内的那部分数据有点怪而已。
    然后那个认证内容是“ bilibili 知名科普 UP 主”,并不能说明数据的真实性。而且审核人员的级别也不高,也无法得知数据是不是真实的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2803 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:46 · PVG 10:46 · LAX 18:46 · JFK 21:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.