大数据转化为多种演算法 成就Netflix精准影片推荐系统

Netflix的成功不可不归功于它们的影片推荐系统,不管使用者透过电脑、游戏机、智慧电视、电视盒、行动装置等各种装置登入Netflix,都会进入同一个首页,依分类有约40列(Row)的(依照各装置萤幕大小略有不同),每列约75则推荐影片,在这个首页里要呈现哪些推荐影片给使用者、该如何分类、显示的前后顺序等,都是Netflix透过收集大量使用者使用数据进行分析后,以至少六种演算法后优化出的个人化结果,每个不同的使用者看到的首页都截然不同。

个人化影片评比制度

在Netflix影片推荐系统里的演算法,首先先介绍「个人化影片评比」(PersonalizedVoRanker,PVR),这个演算法顾名思义是以巨量数据分析后的个人观影喜好为依据,计算出使用者喜欢哪种类型的的影片,以及这类型影片的出现次序,例如,数据显示这位使用者喜欢观赏恐怖片,Netflix就会列出一列专门的恐怖片,并再依照使用者的喜好,把影片库中的恐怖片再进行排序,因此,即便是两位同样是恐怖片爱好者,其呈现推荐影片的先后次序也会不一样。Netflix也利用个人化影片评比演算法,去计算在各种受欢迎的影片中,哪一些是使用者会喜欢的,这些结合「受欢迎」与「符合个人喜好」的影片也就可以自成一个推荐影片列。

第二个主要影片推荐系统演算法是「最佳推荐评比」(Top-NVoRanker),这个评比演算法着重计算影片库中所有的影片,并且透过使用者的喜好数据,找出使用者最喜欢的哪几部片,而不像个人影片评比演算法一样,会先计算出使用者喜欢的影片类型,再从中排出次序。

针对短时间的收看趋势,Netflix也会运用「最新趋势评比」(TredningNow)演算法,掌握使用者可能会想要看哪些影片,这种演算法主要的依据像是每年都会有的节庆,例如情人节,或者现在刚好发生了某些灾祸,现在是镁光灯焦点的特定事件等,再将这些资料与使用者的喜好数据结合,就能够推荐使用者目前的趋势影片。

继续收看是推荐与否的关键

而最能够具体展现使用者收集的巨量数据影响力的演算法,就是「继续收看评比」(ContinueWatching)演算法了,只有这个演算法是特别针对已经看过的影片,在已经看过但却没有看完的影片中,尝试找出哪些使用者还会想要继续欣赏的影片。在这个演算法中,有一些使用者的数据会被分析,包括这部影片的观看时间,在哪个时间点离开观赏(影片中间、一开始或结尾前),中断观赏后是不是还看了其它影片,以及用哪些装置观赏。

「影片相似度评比」(Vo-VoSimilarity)演算法,这是针对使用者曾经看过的影片中,依照每一部影片都挑选出相似的影片来推荐,在评比影片的相似程度时,演算法完全不会加入任何使用者喜好,完全是影片与影片之间来做评比。但评比完后,要将哪几列使用者曾经看过影片的相似影片,推荐给使用者,就会加上使用者喜好,例如使用者如果曾经看过「不可能的任务1」以及「黑洞频率」这两部片,演算法就会评比出两列影片,分别代表与「不可能的任务1」相似的影片,以及与「黑洞频率」相似的影片,但是最后要出现哪一列影片给使用者,就会依照使用者的喜好去做判断。

相关又具多样性的推荐系统

最后一个演算法是「页面产生评比」(PageGeneration:RowSelectionandRanking),这个演算法是用来决定,到底有哪些影片列可以出现在使用者的首页上。在透过上述提及的演算法得出,究竟有哪些候选影片列使用者可能会想观赏后,Netflix会再透过「页面产生评比」,排出一个与使用者相关且兼具多样性的影片推荐首页。

一般来说,以上这些演算法都采用不同的数学与资料模式,以及输入不同的数据资料,并且依照每一种演算法的目的,施以不同的模式训练。有75%的使用者都是依照Netflix的推荐来选择电影,而Netflix目前也仍然就演算法得出的结果,持续对少量使用者进行A/B测试(A/BTest),加强演算法的准确度并且测试所有的极端可能性,这所有的目的都是为了能够彻底的黏住所有的Netflix使用者。

不只推荐影片巨量数据更能预测使用者想看的影片

巨量数据除了用来做精准的影片推荐以外,而Netflix首部依照巨量数据打造而来的影片就是Netflix近几年的最热门的自制影集:纸牌屋。

在开始制作纸牌屋之前,Netflix已经透过数据分析,了解了三件Netflix的使用者喜好:第一,很多Netflix上的使用者喜欢导演DavidFincher的电影:社群网战;第二,英国原版的纸牌屋很受欢迎;第三,喜欢英版纸牌屋的Netflix使用者,也喜欢KevinSpacey的电影,或/和导演DavidFincher的作品,因此按照这三项原则打造的纸牌屋,就几乎没有失败的可能。不只是制作面,在宣传时,Netflix也剪了10部不同的预告,分别推荐给10种不同的使用者,喜欢KevinSpacey的使用者可以看到多一点KevinSpacey画面的预告片,喜欢DavidFincher作品的使用者,就可以看到贯穿他执导风格的预告片。

除了预测影集的制作,因为Netflix的月租费向来并不会太过昂贵,所以Netflix并不会在电影下档后,购入每一部电影的版权,而是透过巨量数据分析预测,购入成本效益最高的电影,确保花出去的每一块钱都能有最高的收益。

从影片推荐系统到打造影片,甚至购买版权,Netflix已经完美的将巨量数据分析活用到它服务运作的每一个角落。