豆瓣电影投票的一些简单分析

不知道什么时候开始在豆瓣混了,从一个小众的图书分享网站,变成了今天很多人社交网络的必不可缺的一部分。个人来说,其实来很少在豆瓣里面的论坛里面发表太多的内容。更多的时间是在上面看书评,找电影的介绍。每次在电影院售票口还在低头找最近热播的电影到底哪一个值得我掏钱。

豆瓣电影的成功借鉴了不少IMDB的经验。特别是电影的评分系统,对于我这样懒得看网友评论,只想快点找值得一看消磨时间的人来说,真是非常高效的手段。阮一峰的博客中,对IMDB评分体系有一个非常详细的介绍,非常值得一看。而豆瓣的评分计算,也有人分析过。对于一般读者而言,只要相信这些设计好的算法可以有效的保证评分高的电影真的是非常好的电影就行了。比如我的一个目标就是,看过豆瓣250中所有的电影。

但每当我看完电影,来豆瓣给这部电影评分时,却有一些彷徨。到底是该给这部感觉一般的电影三颗星,还是四颗星呢?真是让我头疼的问题。真不知道其他人是不是也有类似的感觉:五颗星的评分方式其实来是很困难去做决定的。为了验证其他人是不是有类似的感觉,我决定看看大家都是怎么投票的。

为此,我不得不从豆瓣上获得一些数据。但豆瓣的API需要oAuth验证,编写这个接口的功夫和回答这个问题相比,实在是杀鸡用宰牛刀了。所以,我只好用了点偷懒的方法:

  • 使用浏览器作为客户端自动来读取豆瓣数据。我在GreaseMonkey上编写了一个脚本,可以在豆瓣电影下自动的读取电影页面,并读取想要的数据。
  • 让后让这个脚本将得到的数据通过AJAX的方式发送到数据Web服务器,并转存到数据库中。
  • Web服务器管理数据,并根据扫描的结果,告知脚本扫描每个电影关联的其他电影数据,如此周而复始。

详细的过程就不在这里详细的介绍了。我所需要的就是在能上网的地方开着浏览器,然后让电脑自己和远程的服务器自动扫描。半天后,我得到了将近七千部电影的数据,显然已经足够作为一个数据源对我上面的疑问进行一些分析了。

问题一:是不是所有的星级都有人选取?

很多人,像是我这样的选择困难症患者,基本上就只选1,3,5这三颗星——不喜欢,一般,太棒了!甚至更加极端一些,要么喜欢,要么痛恨。那是不是所有的人都是这么选取的呢?

答案是否定的。所有的星级都有人选取。投票评分的用户并没有我这样极端。投票的用户基本上是很连续分布的。关于这个分布的形状,我们接下来继续探讨。

问题二:大家是不是什么电影都要看呢?

在电影院门口掏手机看评分,然后买票的用户,基本上就不会去看那些评论很差的电影了。所以,豆瓣上的用户数量应该集中在好电影上。换一句话来说,也就是豆瓣用户会对那些最好的电影贡献最多的票房。

对这个问题的分析是,这个结论有一部分是正确的。参考上面的图,对于分数在5以及以下的用户数量只有全部投票的9%。也就是说,如果一部电影评分在三颗星一下基本上就不会有任何票房了,算上评论网站上水军的力量不可忽略。可以猜想,这些比“一般”还差的电影是没有方法生存下去的。

也许会有人说,这是因为很多电影没有公映,观众少,所以投票评论的数量也少。但我们如果看看TOP250里面那些8分,9分的电影,其实来很多都是没有在国内正式上映的,但还是有大量的拥趸。

另外,投票评论数量最多的是7分左右的电影。也就是说,国内最大的电影市场其实来就是这些看着还不错,但是还有些许遗憾的作品来支撑着的。他们虽然不是电影教科书里面的范例,但却是这个资本游戏中的赢家。

问题三:好电影真的不挣钱吗?

就像刚才的分析说的,用户数量最多的电影是7分左右的电影。那是不是说,9分的电影其实来不挣钱?

各档每部电影用户数量

答案是,这个猜测是错误的。因为上一个问题的分析没有考虑到一个前提——好的东西,总是稀缺的。那些最好的,评分在9分以上的作品在几千部电影中只有4%而已。所以,如果我们将每个级别上的投票人数平均到每个分数档次的每一部电影上,就得到了上面的图。

虽然9分电影数量上只有4%,可是它们的平均观众数量却远远超越所有其他分数档次的电影,并占据用户数量的10%。如果你是一个伟大的导演,一部精品的电影可能获得超过8分电影三倍的收入,而你本人也可能被写进教科书里面,被艺术学校的学生们传颂。

如果离经典还差一步,就可能立刻跌落到竞争激烈的红海中了。6到9分以下的电影占据了80%的市场份额,可以说,在这里面生存下来其实来一件艰难的事情。这部分市场就是我们在报纸,电视,广告上看到的主流市场,同时也占据了80%的用户数量。落在这个群体里面,主要的奋斗目标已经不是将电影做的完美了。而是如何将观众哄进电影院,不管他们出来后是给6分,还是8分,其实来都是差不多的。

小众市场是那些分数低于六分的电影。说实话,我自己也基本上没有看过几部这样的作品。中国没有B级片,很多这样的电影连将海报悬挂在电影院的机会都没有。那些读着大师名著,心怀理想的电影艺术系的学生也许就是这里艰难的生存吧。

 问题四:选星级适合所有的网站吗?

虽然对我有些困扰,但电影这样的网站,选用星级来评分貌似还是比较合理的方法。花了两个小时看电影,相信观众可以根据自己的感觉,直观的得到一个大概的分数级别。但这个方法能适合所有的评分体系吗?

相信这个问题是没有答案的。在分析第一个问题的时候,我还想象投票的用户是泾渭分明的,好电影所有人都会说好,不好的电影所有人都投一颗星。但实际上通过对多部电影评分数据的分析,在高分数电影上可以看到类似倾向,但一般电影中并没有类似的长尾效果。

Facebook采用“Yes/No”的选项,让用户做一个干净的解决方法。每个blog文章,一个图片,一条消息,一切的一切,只要你喜欢,就按一下啊这个按钮。

个人而言,我很赞赏这个方法。在很多领域,评论一个事物的好坏,其实来是分作很多方面的。有人赞赏一部电影趣味性的故事情节,有人喜欢摄像师美丽的画面,还有演员的表演是不是到位……,这一切也可以从多个角度评论一部电影,一本书,一张照片,一部笔记本电脑,一个手机。无疑,这种方式下的评论可扩展性将比现在星级的方式大大提高,用户得到的信息也更加有效。

发表评论

电子邮件地址不会被公开。 必填项已用*标注