V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
cqcn1991
V2EX  ›  分享创造

为什么这部电影的豆瓣评分我不认可?—— 一点数据分析的视角

  cqcn1991 ·
cqcn1991 · 2017-06-16 14:14:42 +08:00 · 13981 次点击
这是一个创建于 2743 天前的主题,其中的信息可能已经有所发展或是发生改变。

这是最近做的一篇分析,希望大家帮我看看,不知道有什么问题? 有什么建议也欢迎指出~, 原文在这里

源代码: https://github.com/cqcn1991/movie-compare

文中涉及的交互式散点图: https://cdn.rawgit.com/cqcn1991/movie-compare/master/clusters.html


不知道大家有没有这样的经历 —— 看了一部电影,但对豆瓣的评分并不认可

比如,之前看西游伏妖篇,我就很疑惑,为什么分数这么低?毕竟,周星驰是我很喜欢的导演

1-1.jpg

而且,评论区也出现了截然相反的评价

1-2.jpg

再比如最近的神奇女侠 Wonder Woman,虽然分数不错,但我并不觉得很好看

此外,一直以来也有“爱乐之城 /摔跤吧爸爸评分偏高了吗?”等类似的问题。所以,会想问 —— 为什么有的电影分数高 /低,但是我们并不认同?是不是豆瓣电影的分数有问题?

之前,从国内外评价差异的角度分析过,比如赤壁 /让子弹飞,国内外的评价并不一致,但还有没有别的原因?

1. 数据概况

选取 2008-2017, 国内公映的电影。限制豆瓣评分人数在 2W 以上,一方面讨论大家较为熟悉、主流的电影,另一方面也尽量减少水军等的影响。总共 815 部电影,评分分布如图

1-3.jpg

包括了很多大家熟悉的电影

1-4.jpg

2. 评分的差异

2.1 西游 vs. 杜拉拉

仔细观察西游的评分,会发现和相同评分的电影(杜拉拉升职记)的分布差别很大。

2-1.jpg

两者评分相同,评价人数也很多( 20W, 17W ),但 5 星和 1 星的比例差别很大[1]。

什么意思呢?

  • 杜拉拉升职记:大家都觉得很一般,所以评分集中在了 3 星

  • 西游伏妖篇:同时有不少人觉得不错 /较差,在 1 星和 5 星有不少的分布。

也就是说,尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大,这也正好对应了上面,西游出现两种截然相反的热评的情况。

2.2 怎么衡量评分差异

评分分布的差异,可以用方差来衡量,计算方法如下

text-1.jpg

也就是计算 评分偏离平均分的程度。下文使用标准差( STD ),方差开方即可。可以做出标准差( STD ) - 豆瓣评分( Rating )散点分布图[2]。为了便于比较,做标准差 97%范围线。

2-2.jpg

可以看到西游和杜拉拉升职记的 STD 差别确实很大,西游的标准差排在前 3% ,争议性是巨大的,而杜拉拉则小很多。 另外,还发现散点图的有两个特点

  • 收敛:分数越高(比如从 6 分到 10 分),STD 分布的范围越来越窄,值越来越小

  • 不对称: 理论上来说,这张图应该是关于 6 分对称的,因为颠倒一下评星的顺序( e.g. 5 星 -> 1 星, 4 星 -> 2 星),就能得到对称的 STD 值,但实际并不对称。

对于收敛,可以从平均分怎么计算出来的角度理解:平均分越高,占高分的比例越大,因此评分差异较小。至于不对称,后面再说。

2.3 典型电影

这里,可以看到很多典型评价差异很大的电影,比如刺客聂隐娘一步之遥 等等都在这张图的上方,STD 很高

2-3.jpg

可以拿他们和 STD 较低的电影比较

2-4.jpg

这里可以问一个问题 —— 这些电影的分数相同,但同样好看 /不好看吗?

比如,刺客聂隐娘我 11的分数一样,但他们一样好看吗?

显然不是

和前面的比较类似,刺客聂隐娘虽然评分较高,但其 5 星 /1 星和我 11 差别很大。为什么呢?大家可能早有耳闻,看评论,也能看到

2-5.jpg

可能的原因,是刺客聂隐娘画面极具美感,但另一方面,剧情却让人看不懂。所以评分上出现了较大的分歧。一步之遥也是类似,算是比较有名的例子了。

爸爸去哪儿,也能从评论中看到一些端倪

2-6.jpg

可能的原因是,一方面是娱乐性优秀,带着小孩看电影的家长观众们觉得很好,另一方面,有人觉得这不是电影,纯属圈钱。

通常,我们总是在讨论一部电影评分的高低,但这只是平均分,当大家看法一致的时候,这个分数会很有参考价值。但当评分差异很大( STD 很大)的时候,这个分数的作用就有限了

3. 电影评分的形状

3.1 总共有几种形状?

从评分的分布,很容易想到关于评分形状的段子

3-1.jpg

那么,电影的评分,会有多少种形状呢?

可以用 K-Means 来做。实际可以分很细,这里简单分成 6 种,比较有代表性,结果如下图

3-2.jpg

[注,高 STD 的电影因为其形状差异很大,并不适用于这个分类]

这些分布,相当于电影评分的典型形状,两头和中间对应了大家熟知的 P, b 和钟形分布

这可以部分解释,为什么散点图是非对称的 —— 因为有很多 4 星为主的电影,但很少有 2 星为主的电影。毕竟,大多时候给的评价都是一般( 3 星),或烂片( 1 星),很少会有电影“精确烂到 2 星”。

每个形状下,也能看到 STD 高 /低的电影,比如魔兽,爱乐之城等等。

3-3.jpg

3-4-2.jpg

依然可以问这个问题 —— 这些电影分数相同,但是同样好看吗?

爱乐之城, 虽然评分和萨利机长一样,都算典型的好电影了,但是打 5 星的明显比萨利机长多,也侧面说明了为什么有人疑惑其分数“是否偏高”。魔兽,则可能有粉丝加成的影响。其他电影不再具体讨论,大家可以自己分析~

3.2 奇怪的形状

还有一些奇怪形状的电影,比如人间·小团圆,小时代 4, 长城,并不属于上述任何一种典型分布

3-4.jpg

这是为什么?

具体原因不得而知。但实际上,这是典型的混合分布的特征,也就是说,由几个分布叠加得到。

如果把最差评分和中等评分混合起来(各按 50%算),可以得到和上面非常相似的形状

3-5.jpg

那么,有没有可能真的是混合分布呢?

查看评论,不难发现,对于人间·小团圆,是 ZZ 因素导致了对其评分的极大差别。

3-6.jpg

小时代可能也是类似。有人看到郭小四就要打一星,另一方面,原著粉们则表示还算不错。

那么长城呢?可以查看近期的评价。需要注意的是,这时不太可能有水军了,因为这时候的分数对票房毫无意义。简单看一下前两页,发现 2-3 星居多

3-7.jpg

和当初的差评还是有差距的。更靠谱的当然是抓数据,不过豆瓣官方并没有公开相关的数据,这个以后有机会再补吧~ 延伸出来的问题是,恶评如流的电影,在下映之后,还会有那么多差评吗?

4. 总结

本文主要做了两件微小的工作

  • 用标准差( STD )展示了电影评分的差异情况,能看到不少评价差异很大的电影

  • 对评分的形状,用 K-Means 分类,可以看到评分形状的几大类型

回到我们最开始的问题 —— 为什么有的电影分数高 /低,但是我们并不觉得如此?是分数有问题吗 ?

原因在于,那只是个平均分而已

而有意思的也在于此 —— 大多数人在谈论豆瓣的评分的时候,都知道这是平均分,也都能看到分数的分布情况。而且大多数时候,这个平均分是有效的,因为大家的评价较为接近( STD 较小)

但是,很少有人注意到评分的分歧大小(即 STD 的大小)。所以,当看到一部 STD 很大的电影,平均分和我们感受不符时,我们疑惑了,进而觉得豆瓣的评分有问题。实际上,只是因为人们的评价差异太大( STD 太大),使平均分失去了意义而已。


最后,我在想,有没有可能给豆瓣评分旁边加上一个小标签?比如,对 STD 特别大的电影,在旁边加个“分歧警告”标签,注明“这部电影的评价差异水平达到了前 3%,平均分的参考意义较为有限”, 进一步还可以分开展示好评 /差评,向用户解释评价差异具体如何。这样或许能减少一些人们对(平均)评分的疑虑。

然后,分析有什么疏漏或者没讲清楚的地方,也欢迎大家指出~

[1] 这里采用的是豆瓣的评分柱状图,画法并不标准(占比最大为定宽),但适用于基本的比较

[2] 实际 STD 的尺度没有这么大。这样画图类似于把 STD 做规整化,更方便于比较。

第 1 条附言  ·  2017-06-16 15:14:50 +08:00
另外,看到评论里又开始怼 LZ,怼西游伏妖,这里补充一下个人看法

西游的问题是各方面差异太大了,表演很差,故事较差,但是画面想象力爆棚

所以,也就能看到大家评论的分化情况,因为大家对这方面的看重点是不一样的。

全文其实就一个意思 —— **不是“你的评分 /口味是错的”,“我的看法是对的”,而是“你的看法是对的”,“我的看法也是对的”,** 只是大家对这部电影的看法差别太大了(由于各种各样的原因)。

大多数时候,大家对电影的看法趋同,对于豆瓣电影的分数认可,是因为一部电影的各个方面较为平均,大家的看法也会比较一致。但是出现**西游**,**刺客聂隐娘**等等这类长 /短板差异明显的电影的时候,产生较大的差异,简单的平局分也就失效了
第 2 条附言  ·  2017-06-16 18:10:38 +08:00
Rawgit 的散点图不知为何没更新到最新的版本,可以用这个链接看

https://cdn.rawgit.com/cqcn1991/movie-compare/4552bb71/clusters.html

(昨天晚上把深夜食堂电视剧的数据给放进去了....放在电影里确实是少有的一致)
第 3 条附言  ·  2017-06-16 21:11:16 +08:00
另外,@leemail 补充得很好,
说 ordinal data 根本就不能算 mean,

具体可以参考
https://stats.stackexchange.com/questions/67551/calculate-mean-of-ordinal-variable
https://news.ycombinator.com/item?id=2423313
112 条回复    2017-06-21 21:10:22 +08:00
1  2  
cqcn1991
    101
cqcn1991  
OP
   2017-06-17 11:47:43 +08:00
@leemail 另外,Amazon/IMDB 这些也是用的平均分,想问你怎么看....
maooyer
    102
maooyer  
   2017-06-17 15:32:23 +08:00   ❤️ 1
IMDB 使用的是贝叶斯平均( http://www.imdb.com/help/show_leaf?votestopfaq
豆瓣据阿北说是使用的是平均值,不过剔除了一些识别为水军的用户
HTDit
    103
HTDit  
   2017-06-17 17:16:46 +08:00 via Android
楼主可否转载
xmadi
    104
xmadi  
   2017-06-17 19:27:17 +08:00 via iPhone
写的非常好 我觉得这篇可以拿去当毕设
cqcn1991
    105
cqcn1991  
OP
   2017-06-18 11:36:25 +08:00 via iPhone
@xmadi lz 哭晕在厕所,我都已经研究生毕业了…
zhp521163
    106
zhp521163  
   2017-06-18 17:46:41 +08:00
学习,期待持续更新
kexon
    107
kexon  
   2017-06-21 07:25:06 +08:00 via Android
看不懂,反正点赞就可以了
ryanking8215
    108
ryanking8215  
   2017-06-21 09:52:25 +08:00
楼主用“标准差 /方差”表示评分的评分离散程度,是 ok 的。
但我觉得豆瓣的平均分本身就有问题,再朴素也应该是加权计算吧?
cqcn1991
    109
cqcn1991  
OP
   2017-06-21 10:17:49 +08:00
@ryanking8215 再怎么加权影响也不大,因为一个分数表达的能力是有限的
比如说,假设一个电影评分分歧很大,50% 1 星, 50% 5 星,你加权出来无论是个什么分数,都没法体现内在的差异.
beyoung
    110
beyoung  
   2017-06-21 17:35:01 +08:00 via iPhone
把豆瓣短评都抓过来 生成一个 tag 云 跟淘宝评价标签那样 参考价值不错的
nicoljiang
    111
nicoljiang  
   2017-06-21 19:17:06 +08:00
数字永远无法表达更多。要解决这个问题,做电影画像就好了。
「剧情紧凑」、「特效大片」、「剧情无聊」、「烧脑神片」
pyufftj
    112
pyufftj  
   2017-06-21 21:10:22 +08:00
豆瓣的风气不太好,故意 1 星或者五星,都是凭个人意愿。不过对于一些冷门的电影反而公正一些。
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4371 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 10:09 · PVG 18:09 · LAX 02:09 · JFK 05:09
Developed with CodeLauncher
♥ Do have faith in what you're doing.