豆瓣电影投票的一些简单分析

不知道什么时候开始在豆瓣混了,从一个小众的图书分享网站,变成了今天很多人社交网络的必不可缺的一部分。个人来说,其实来很少在豆瓣里面的论坛里面发表太多的内容。更多的时间是在上面看书评,找电影的介绍。每次在电影院售票口还在低头找最近热播的电影到底哪一个值得我掏钱。

豆瓣电影的成功借鉴了不少IMDB的经验。特别是电影的评分系统,对于我这样懒得看网友评论,只想快点找值得一看消磨时间的人来说,真是非常高效的手段。阮一峰的博客中,对IMDB评分体系有一个非常详细的介绍,非常值得一看。而豆瓣的评分计算,也有人分析过。对于一般读者而言,只要相信这些设计好的算法可以有效的保证评分高的电影真的是非常好的电影就行了。比如我的一个目标就是,看过豆瓣250中所有的电影。

但每当我看完电影,来豆瓣给这部电影评分时,却有一些彷徨。到底是该给这部感觉一般的电影三颗星,还是四颗星呢?真是让我头疼的问题。真不知道其他人是不是也有类似的感觉:五颗星的评分方式其实来是很困难去做决定的。为了验证其他人是不是有类似的感觉,我决定看看大家都是怎么投票的。

为此,我不得不从豆瓣上获得一些数据。但豆瓣的API需要oAuth验证,编写这个接口的功夫和回答这个问题相比,实在是杀鸡用宰牛刀了。所以,我只好用了点偷懒的方法:

  • 使用浏览器作为客户端自动来读取豆瓣数据。我在GreaseMonkey上编写了一个脚本,可以在豆瓣电影下自动的读取电影页面,并读取想要的数据。
  • 让后让这个脚本将得到的数据通过AJAX的方式发送到数据Web服务器,并转存到数据库中。
  • Web服务器管理数据,并根据扫描的结果,告知脚本扫描每个电影关联的其他电影数据,如此周而复始。

详细的过程就不在这里详细的介绍了。我所需要的就是在能上网的地方开着浏览器,然后让电脑自己和远程的服务器自动扫描。半天后,我得到了将近七千部电影的数据,显然已经足够作为一个数据源对我上面的疑问进行一些分析了。

问题一:是不是所有的星级都有人选取?

很多人,像是我这样的选择困难症患者,基本上就只选1,3,5这三颗星——不喜欢,一般,太棒了!甚至更加极端一些,要么喜欢,要么痛恨。那是不是所有的人都是这么选取的呢?

答案是否定的。所有的星级都有人选取。投票评分的用户并没有我这样极端。投票的用户基本上是很连续分布的。关于这个分布的形状,我们接下来继续探讨。

问题二:大家是不是什么电影都要看呢?

在电影院门口掏手机看评分,然后买票的用户,基本上就不会去看那些评论很差的电影了。所以,豆瓣上的用户数量应该集中在好电影上。换一句话来说,也就是豆瓣用户会对那些最好的电影贡献最多的票房。

对这个问题的分析是,这个结论有一部分是正确的。参考上面的图,对于分数在5以及以下的用户数量只有全部投票的9%。也就是说,如果一部电影评分在三颗星一下基本上就不会有任何票房了,算上评论网站上水军的力量不可忽略。可以猜想,这些比“一般”还差的电影是没有方法生存下去的。

也许会有人说,这是因为很多电影没有公映,观众少,所以投票评论的数量也少。但我们如果看看TOP250里面那些8分,9分的电影,其实来很多都是没有在国内正式上映的,但还是有大量的拥趸。

另外,投票评论数量最多的是7分左右的电影。也就是说,国内最大的电影市场其实来就是这些看着还不错,但是还有些许遗憾的作品来支撑着的。他们虽然不是电影教科书里面的范例,但却是这个资本游戏中的赢家。

问题三:好电影真的不挣钱吗?

就像刚才的分析说的,用户数量最多的电影是7分左右的电影。那是不是说,9分的电影其实来不挣钱?

各档每部电影用户数量

答案是,这个猜测是错误的。因为上一个问题的分析没有考虑到一个前提——好的东西,总是稀缺的。那些最好的,评分在9分以上的作品在几千部电影中只有4%而已。所以,如果我们将每个级别上的投票人数平均到每个分数档次的每一部电影上,就得到了上面的图。

虽然9分电影数量上只有4%,可是它们的平均观众数量却远远超越所有其他分数档次的电影,并占据用户数量的10%。如果你是一个伟大的导演,一部精品的电影可能获得超过8分电影三倍的收入,而你本人也可能被写进教科书里面,被艺术学校的学生们传颂。

如果离经典还差一步,就可能立刻跌落到竞争激烈的红海中了。6到9分以下的电影占据了80%的市场份额,可以说,在这里面生存下来其实来一件艰难的事情。这部分市场就是我们在报纸,电视,广告上看到的主流市场,同时也占据了80%的用户数量。落在这个群体里面,主要的奋斗目标已经不是将电影做的完美了。而是如何将观众哄进电影院,不管他们出来后是给6分,还是8分,其实来都是差不多的。

小众市场是那些分数低于六分的电影。说实话,我自己也基本上没有看过几部这样的作品。中国没有B级片,很多这样的电影连将海报悬挂在电影院的机会都没有。那些读着大师名著,心怀理想的电影艺术系的学生也许就是这里艰难的生存吧。

 问题四:选星级适合所有的网站吗?

虽然对我有些困扰,但电影这样的网站,选用星级来评分貌似还是比较合理的方法。花了两个小时看电影,相信观众可以根据自己的感觉,直观的得到一个大概的分数级别。但这个方法能适合所有的评分体系吗?

相信这个问题是没有答案的。在分析第一个问题的时候,我还想象投票的用户是泾渭分明的,好电影所有人都会说好,不好的电影所有人都投一颗星。但实际上通过对多部电影评分数据的分析,在高分数电影上可以看到类似倾向,但一般电影中并没有类似的长尾效果。

Facebook采用“Yes/No”的选项,让用户做一个干净的解决方法。每个blog文章,一个图片,一条消息,一切的一切,只要你喜欢,就按一下啊这个按钮。

个人而言,我很赞赏这个方法。在很多领域,评论一个事物的好坏,其实来是分作很多方面的。有人赞赏一部电影趣味性的故事情节,有人喜欢摄像师美丽的画面,还有演员的表演是不是到位……,这一切也可以从多个角度评论一部电影,一本书,一张照片,一部笔记本电脑,一个手机。无疑,这种方式下的评论可扩展性将比现在星级的方式大大提高,用户得到的信息也更加有效。

室内中的猜想

《寻找薛定谔的猫》
《寻找薛定谔的猫》

读完量子力学的书籍,你要承认自己经受了崭新世界观的洗礼。有时候,及自己就在思考,自己是不是就是那只被关在小盒子里面的猫咪,外头充满了观察者。而我们的存在,也许及时因为这个观察者的注视,否则我们空无一物。因为量子力学说,如果不是一个具备智能的观察者去注视,物质会处于混沌不分的量子状态,没有大小,没有方向,没有质量,没有时间,没有我们。

把这一切想象成一台巨大的电脑,超过《银河系旅行指南》中那台电脑,为了求解关于生命,宇宙和万事万物的答案,有一种超级智能生命制造了它,在它内部计算和模拟了外面这个实际世界的一切,去看看会发生什么。而我们这个现在可以观测到的宇宙,就是试验品。而这台超级计算机处理的极限,就是量子状态。所以尽管这台电脑的计算能力超级强大,但它也无法尽善尽美,在接近量子态去观察这个试验品,就会发现很多无法符合逻辑的结果,光不是直线传播的,可以进行超时空通讯,状态不再可观测。

Babylon  A.D.
生死新纪元 Babylon A.D.

显然,我们在这个巨大的系统中,无法像《生死新纪元》中那样逃脱,因为内外两个世界其实来是完全不同的两个物理空间,其物理规律也许都是不一样的。我们存在的这个宇宙的堆建,是建立在这台超级电脑对某种大一统物理定律的理解上的,然后分化出万事万物,并不是对外面世界的拷贝。能产生人类世界,完全是一种偶然,一种从量子阶段的不确定性开始建立的偶然所触发的。这种从微观世界开始按照某些基本规律建立的世界,有自身的稳固性,所产生的结果也不在建立这个世界电脑的预测中。一切及时模仿,也是创造和发现。

随着空间中信息熵的不断增加,处理这个世界所需要的计算资源也越来越多,多到需要和这个宇宙一样多的单元才能进行计算。这对于外面的那个世界来说也会变成一种不可忽略的资源消耗。但是他们却发现了一种好方法——使用我们这个世界的资源去解决计算能力的问题。量子力学中的状况一样,如果这个宇宙中的人不去观察,其实来物质的变化是处于不确定状态的。就像是现在我操作的电脑,后台的程序还是在运行着,可是我不去观察它的时候,它没有必要消耗不必要的资源去展示运行结果,听音乐的时候甚至你可以关闭你的显示器以及省更多的能量。

所以,茫茫宇宙中的智能生命其实来是非常有限的。对于这台超级电脑来说,它只要知道现在有哪些智能观测者观测哪些,就计算这些,其他的一些则可以尽量使用最节省能量的方式粗略的运行。要知道,这个伟大的计算系统可以洞察你所做的一切,当你偷偷拿起望远镜的时候,它知道你要观察数光年之外的恒星,就会绘制那些图像给你看。

室内猜想
室内猜想

作为一个宅男,我无疑为这个系统节省了不少能量。我所观察的空间变得非常狭窄,电脑屏幕显示一些字符的原子操作对它而言简直是小事一桩。由于一个人的注意力是有限的,当我集中精力在这里胡编乱造这些故事的时候,外头的一些声响和光线的处理自然也不必要进行的如此精细。而其他仔细研究某个细节的人类也是一样,当他注意在某一点上,世界的其他地方就模糊起来,声音也不再那么重要。而这一切只不过是那台超级电脑的节能方法而已。

不得不不承认,量子力学是一个超级好玩的科学,甚至比某些科幻小说还有意思。

再见北京

一晃2009年就要结束了,我才匆匆忙忙的在这里安了一个新家,算是对这里最后的道别,和以后几年生活的起点。

天坛

对所有人来说,北京市一个必须要来一次的城市

游学于天津多年,其实来是怀着一丝怨气来北京的。实在是因为这里的吸纳能力太强大,让旁边的这个城市喘不过来气。不过自己也是在大学毕业的时候才知道,如果生活在华北地区,一切经济、文化和体育活动都必须和它联系起来。这个城市对周围资源的吸纳能力之强大,远远超过长三角。因为后者更多意义上是滋养周边,让周围的城市变得更加富庶,而不是榨取他们仅有的资源优势。

来到这个城市,如此靠近那些著名的地点,却觉得自己可以生活的好平淡。地坛公园不过是老年人起早遛弯的一个小公园,天坛里面老大爷旁若无人的大声的唱着自己的卡拉OK,香山上的锻炼者从来没有关心过满山是否有红叶的问题,一辈子在北京长大的小孩子却从来没有去过故宫。

十一的北京、五一的北京、奥运的北京,都是属于外地人的。到处都是涌动的人头和高声叫嚷的旅游团,你却看不到北京人在那里。那些戏剧中摇着扇子,懒懒坐在胡同口喝大腕茶的老大爷从来没有出现在真实的生活中一样。在高楼叠起的建设狂潮中,一个城市似乎迷失在熙攘中,让这个来自别的城市的陌生人无所适从了。

正月里的地坛公园

吸引我们一波一波来这里的再也不是百年的古刹和皇家园林了。北京在吸纳了无数的资源的同时,也编制了无数吸引人的童话。

城外的北京

外地人来北京去紫禁城,城里人去想出去。记忆里的每次出游都是破费周折,甚至需要在外头住宿才能玩痛快。先跑题一会会,要是常住北京,需要去的地方必须有下面的这些地点:

比较近的地方

  • 北京植物园,在这里可以欣赏四季花卉,是春天出游必去的经典。
  • 卧佛寺,离植物园很近,如果有时间也去一下好了,因为听上去像offers,兆头好啊。
  • 香山公园,锻炼的好去处。大早做最早的公共车去,等旅游的人向上走的时候,就可以回家吃午饭了。
  • 八大处,景色密织之处。由于景点比较分散,景区比较大,感觉不会太拥挤。

稍微远一点

  • 司马台长城,不要去八达岭了,人太多,有力量的去这里挑战一下好了
  • 雾灵山,常年冰瀑布,京东最高峰,景色旖旎。建议住一个晚上。
  • 云蒙山,外出登山远足的好去处
  • 云佛山,初学者滑雪的好去处。和其他滑雪场一样,不要周末去。

京郊的农家游乐设施越来越齐全,吸引城里人一拨一拨的泡在郊外,呼吸新鲜的空气,见识一下农家生活。

雾灵山

匆忙脚步中的城市

大部分时间,和城里那些不能停止的脚步一样,我的都要两点一线的生活。不要迷恋朝九晚五,那绝对是传说。

很多人必须早上八点半之前坐在座位上开始忙碌的一天。在国企的同学也是如此。早上八点已经到了办公室,晚上十一点依然在办公室。周末聚会不能参加,因为还有加班。下个月呢?对不起,有出差任务。国企尚且如此,外企和私企的情况可见一斑。

有一次下午五点多我站在中关村的一座楼上看着楼下,快速移动的人群像是听到下课铃一样突然从各个办公楼爆发出来,在一辆辆鱼贯而行的公共汽车中穿行,拥挤到车中,消失在地铁中。这才意识到原来中关村的办公室里面积攒了比平时接到上多十倍的人在里面忙碌着啊。等待晚上十点多,我离开鼎好大厦的时候,这里的景象让我无法忘记,我从来没有见过如此宁静的中关村,一瞬间我竟迷失了方向,没有丝毫的喧闹,一条大街望到头竟然空无一人,就像是虚幻的游戏场面一样然我瞠目。过了很久,我才知道了关于唐家岭,很多中关村、上地人居住所竟是如此寂寥的地方。

来了北京,就像是脚上安装了弹簧,人各个似拧紧了发条的机器。这是我刚来对北京生活的感觉。现在我却不能这样评价自己是什么状态。

卡丁车

继续出发

下一站是南京,第一次去长江以南的地方工作。除了主业之外,最大的挑战就是生活环境的变化。气候变得异常极端,夏天彻底是大火炉。真不是开玩笑。走在南京的马路上,感觉柏油路总是软塌塌的,要把路人吞噬掉的感觉。冬天,到处都没有暖气,上次站在冰雨中瑟瑟发抖的记忆还难以去除呢。想想这个,北京的风沙还真是让人依恋啊。