作者:王知凡
来源:《传媒》 2014年第17期
文/王知凡
Netflix作为世界上最大的在线影片租赁服务商,与很多零售业、金融物流业巨头一样,掌握了大量的顾客数据。截至2014年3月,Netflix在国内、国际的用户总和将近5000万,这些用户在什么时间观看或搜索了哪些影片、花了多少钱、居住在什么地点,甚至是年龄、性别等都会通过注册会员和订购行为保留在Netflix的数据库中。如果将这5000万人看做是社会学研究中抽样的样本,那么Netflix则可以知道全美国甚至全球各地电影观众的背景和看电影的各种偏好。
与传统社会学研究中常用的几千,最多几万样本相比,5000万人绝对称得上是超大样本量。而且,如果Netflix想要做自身用户调查的话,这5000万人则不仅仅是抽样,而是全样本量调查。这类通过互联网搜集的、将所有数据“一网打尽”的研究方法,被人们称为“大数据研究”。2014年,国内电影大数据分析平台“数太奇”(idatage)试验了将大数据采集和问卷调查相结合的方法来研究电影观众,这无疑为电影的前期宣传与制作奠定了相对真实可靠的基础。
当抽样调查法遇到大数据
“大数据”不是万能的,但它是一种思维方法和研究方法,与传统的“经验认为”或“规律表明”相比,它可以让我们在无限接近真相的道路上又前进一步。大数据研究有局限性,就是过于依赖互联网,一些无法在互联网上反映的信息则无法纳入研究范围,而这些信息的获取正是传统抽样问卷信息采集的优势所在。
“数太奇”除了抓取分析互联网大数据,还在全国一、二、三线城市,一共抽样了15万个电影观众样本,并将其作为固定样本进行跟踪监测。通过每个月投放连续性问卷采集来的数据可以很好地弥补互联网大数据的一些“漏洞”。“数太奇”通过这一方法将可以调查到的指标扩大到了以下几项。
一是电影观众院线观影行为,包括观影黏度、观影花费、观影频次、观影时间、购票渠道、前往影院的交通方式、观影陪伴人等。
二是电影观众观影心理,包括观众对片源的偏好、电影类型偏好、影院选择、3D偏好、观影动机、影片卖点等。
三是电影观众满意度,包括对影院软硬件设施满意度、进口电影满意度、国产电影满意度、年度市场评价等。
四是电影观众观影互动行为,包括观影互动比例、互动方式、互动平台、互动传播影响力等。
五是电影观众跨屏观影行为,包括电视、电脑、移动设备等各个屏幕的观影行为、观影心理、观影互动等,也包括不同屏幕间观众的重叠度和流动率。
六是电影观众广告接触行为,包括不同屏幕间硬广告和植入广告的观众接受度、广告效果等。
七是电影观众媒体接触行为,包括电影观众平时对桌面互联网、移动互联网、电视、报纸、广播、杂志等媒体的接触频率、时间、地点、情景、内容板块、满意度等。
八是电影观众消费行为,包括电影观众在投资保险理财、服装配饰、酒水饮料、住房装修、汽车与交通、IT数码、家电、护肤美容、教育培训等领域的消费习惯和消费计划。
九是电影观众心理与价值观,包括电影观众的价值观、生活方式,以及对电影所传达出正能量的感受和评价。
以上这些指标既可以反映每月、每季度、每年的发展趋势,也可以细分成某一部影片的详细数据。将以上问卷得来数据和互联网大数据进行交叉分析,综合处理,我们就可以将分析进一步细化,将解释的问题细化到:是谁拎着LV包在周六晚上走进电影院看了一部都市爱情片?是谁边用手机聊QQ边用电脑看完科幻片后点了“周黑鸭”外卖?是谁一到片头广告时间就尿遁加散步?又是谁一看到某位明星出演就
必到影院激动捧场?
行业内对电影大数据研究方法的探索还远没有结束,但无论什么样的研究,大家的目标都是一致的,就是致力于提供给观众更个性化的内容、更定制化的营销、更娱乐化的宣传,从而真正将商业电影打造成为以满足观众需求为根本目标的优质产品。
电影大数据研究的特点
所有的大数据研究都面临相似的问题,由于各院线、电影发行公司、票务公司等天然存在的壁垒,无法进行用户资料的共享。目前,电影大数据研究的数据来源只能全部依赖于互联网的公开数据。
维克托·迈尔·舍恩伯格教授在《大数据时代》中提到,互联网大数据的特点除了数据量外,还有“允许不精确”性,数据量的大幅增加会让一些错误的数据混进数据库,淹没不同个体中的一些细节区别,但广泛且高频率的数据会让人观察到很多本可能被错过的变化,了解事物大致的发展趋势。在大数据研究中,我们追求的是整体趋势的准确,而不是细节的精确。
汽车电影 并且,大数据的使用可以进一步优化现有的计算机学习算法,舍恩伯格教授提出:“当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达到10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。”显然大数据的简单算法比小数据的复杂算法更有效。
下文中,笔者介绍的电影大数据研究的一些常用方法,均是基于以上两个特点,与传统研究思路相比,也许在体划分、概念定义和模型设计等领域显得有些“粗糙”,但当数据量放大到一定程度时,这些数据仍然是有意义的。当然,虽然是大数据研究,如何优化算法、提高数据的精确性依然是所有研究者未来长期努力的方向。
电影大数据能做什么
票房预测。2012年底上映的《人再囧途之泰囧》以不超过8000万元的投资换回了12.6亿元的票房收入,让业界很多人大跌眼镜。2014年,前期宣传营销一直是热点的《小时代3》在上映半个月后票房被同档期的《后会无期》反超。对于电影行业来说,票房预测向来是研究者们前仆后继最希望努力攻克的难关。从大数据研究方法诞生之始,就为票房预测领域带来了令人惊喜的途径。
2010年,惠普实验室通过分析Twitter数据进行电影票房预测,他们根据用户在Twitter上的电影讨论数量、态度和电影上映屏幕数等指标建立了线性回归模型(Linear Regression Model)。同一年,还有国内公司通过寻电影导演、演员阵容、上映档期等因素对票房的影响规律,从而对电影票房进行预测。
2013年,谷歌(Google)发布了白皮书《Quantifying Movie Magic with Google Search》,公布了其设计的电影票房预测模型,谷歌认为电影相关的搜索量与票房收入之间存在很强的正相关,于是谷歌采用以下四类指标同样构建了线性回归模型:一是(电影放映前一周的)电影搜索量,二是(电影放映
前一周的)电影广告的点击量,三是上映影院数量,四是同系列电影前几部的票房表现。根据这一模型,谷歌认为他们可以提前一周预测电影票房,并且准确率是92%。
为了更好地指导电影前期的营销开展,接下来谷歌又构建了一个可以提前一个月预测电影票房的模型,指标变化的关键是将“电影的搜索量”改成了“电影预告片的搜索量”。调整后的模型所需的指标为:电影预告片的搜索量,同系列电影前几部的票房表现,档期的季节性特征。只是由于谷歌并没有根据这个模型发布电影票房预测结果,模型的实用价值还有待检验。
2014年,搜狗公司对谷歌的预测模型进行了优化,用于预测国内电影票房。这一模型依然是基于“电影搜索量与票房收入之间存在正相关”这一规律上的。考虑到用户搜索电影名称时,可能会有同名但非电影的搜索结果混入数据中(如《生化危机》既是一部电影,也是一款游戏),搜狗在模型中引入了查询量的变化趋势和用户点击的分布情况,即通过用户点击的URL(统一资源定位器)来进一步确认用户的搜索意图。
同时,社交媒体上“粉丝”对电影的搜索、转发、评论等相关数据,以及垂直媒体中有关电影的宣传效果(如预告片点击量)也被引入模型,对结果进行修正。在实际的票房预测中,除了前面这些一般因素外,搜狗认为还需要考虑以下特征对结果的影响:档期的电影竞争情况、电影类型、电影产地、是否3D、预告片搜索量。
电影票房预测方法的发展至今依然处于探索阶段,目前还没有一家机构可以凭借大数据十分准确地预测出票房变化。这是因为影响票房的因素十分多元化,而且各家机构常用的线性回归模型本身也具有局限性。除了一些可以用数据体现或可以转化成数据的指标,如导演、主演、电影类型、电影产地、制片方、发行方、电影及预告片搜索量、排片场次、社交媒体提及率、社交媒体提及态度、网络新闻数量等,还有一些无法量化的指标也可以影响到预测的成败,如电影中某一剧情元素与当下社会心理的契合度。
如果综合考虑这些影响因素,票房预测就远非一个简单的线性模型就能解释,而更应近似于一种变化的曲线。
电影观众分析。当然,电影票房预测只是对互联网大数据最初步的尝试应用。近年来,随着国内各种社交媒体的兴起,很多公司也在尝试运用社交媒体数据解释更多的事情,如电影观众背景、观众对影片的评价态度及品牌关注等。
根据2014年7月CNNIC《第34次中国互联网络发展状况统计报告》显示,我国微博用户规模为2.8亿。虽然近两年微博用户一直呈下降趋势,但上亿的用户规模依然成为很多公司实践大数据的理想场地。
第一,微博所要求的实名注册制度,可以让数据分析公司容易获得用户的性别、年龄、所在地、教育
程度、职业性质等信息。第二,微博的“标签”功能,通过用户为自己定义并标注的“标签”,可以让计算机采集到用户的爱好、性格、特点。第三,通过编写特定的“爬虫”程序,对所有用户发布的微博和评论内容进行关键词筛选和抓取,可以明确划定某一部电影、影星等的“粉丝”范围和“粉丝”态度。第四,将以上这些信息进行不同组合的交叉分析,就可以得到研究所需的各类结果。
例如,要研究《分手大师》的票房是否沾了同档期《变形金刚4》的光,我们首先需要定义出两部电影的观众体,即在微博中提到“分手大师”或“变形金刚4”名字的用户,我们默认其为潜在的观众;再“爬取”这些观众的背景信息,检验这两部影片观众的性别、年龄比例或性格、爱好标签等是否有差异。如果两者的差异足以将这两部影片的观众定义成两个体,那么我们就可以判定,并不是像有些人预测的那样,《变形金刚4》将大量观众吸引到电影院,结果买不到《变形金刚4》票的观众退而求其次才看的《分手大师》,而是《分手大师》有其特定的“粉丝”体。
此外,植入式广告作为现今流行的一种广告形式越来越受到广告品牌商的青睐。《变形金刚4》里植入了大量的品牌形象,微博关键词的分析则可以从一个角度验证植入式广告的传播效果。我们可以将植入式广告的传播效果分为两个维度:一是影片的观众是否是该品牌的目标受众,二是植入式广告是否引起了影片观众的关注。
发布评论