本发明涉及计算机应用技术,特别涉及一种影片票房预测方法和装置。
背景技术:
目前中国的影片市场正处于蓬勃发展阶段,未来中国的影片票房很可能超越美国成为影片第一大国。
对影片票房进行合理预测,可以给影片的投资、运营、宣发等行为带来参考依据,具有很重要的实际意义。
现有的预测方式通常都是在影片上映期进行单日票房预测,如在每天的早上9点预测当天的票房,而不会进行其它预测,从而导致预测结果的内容过于单一,无法为影片的投资、运营、宣发等提供更多的参考依据。
技术实现要素:
本发明提供了一种影片票房预测方法和装置,能够丰富预测结果的内容。
具体技术方案如下:
一种影片票房预测方法,包括:
划分出M个不同的预测阶段,并针对每个预测阶段,分别训练得到所述预测阶段对应的票房预测模型,M为大于1的正整数;
当待预测影片分别处于所述不同的预测阶段时,根据所处预测阶段对应的票房预测模型对所述待预测影片进行票房预测。
一种影片票房预测装置,包括:获取单元和预测单元;
所述获取单元,用于划分出M个不同的预测阶段,并针对每个预测阶段,分别训练得到所述预测阶段对应的票房预测模型,发送给所述预测单元,M为大于1的正整数;
所述预测单元,用于当待预测影片分别处于所述不同的预测阶段时,根据所处预测阶段对应的票房预测模型对所述待预测影片进行票房预测。
基于上述介绍可以看出,采用本发明所述方案,可设置不同的预测阶段,并针对不同的预测阶段,分别训练得到对应的票房预测模型,这样,针对待预测影片,可分别根据其所处预测阶段对应的票房预测模型进行票房预测,从而丰富了预测结果的内容,进而为影片的投资、运营、宣发等提供了更多的参考依据。
【附图说明】
图1为本发明所述影片票房预测方法实施例的流程图。
图2为本发明所述不同预测阶段分别对应的模型及可利用的信息示意图。
图3为本发明所述基本信息、传播度信息和发行信息各自包括的内容示意图。
图4为本发明所述第一总票房预测模型及预测出待预测影片的总票房信息的过程示意图。
图5为本发明所述排片预测模型及预测出待预测影片的排片信息的过程示意图。
图6为本发明所述RNN模型的示意图。
图7为本发明所述影片票房预测装置实施例的组成结构示意图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
实施例一
图1为本发明所述影片票房预测方法实施例的流程图,如图1所示,包括以下具体实现方式:
在11中,划分出M个不同的预测阶段,并针对每个预测阶段,分别训练得到该预测阶段对应的票房预测模型,M为大于1的正整数;
在12中,当待预测影片分别处于不同的预测阶段时,根据所处预测阶段对应的票房预测模型对待预测影片进行票房预测。
M的具体取值可根据实际需要而定,较佳地,可取值为3,相应地,3个不同的预测阶段可分别为:影片制作期、影片宣发期和影片上映期。越往前,能够利用的信息越少,预测难度越大,但预测价值也越大。
影片制作期,通常是指影片上映之前的半年左右,这个阶段作票房预测,能够利用的信息通常只有影片的基本信息,但这个阶段进行预测的价值是很大的,如能够给影片投资方提供投资依据等,这个阶段将产生两个预测模型,分别为:影片竞争力预测模型和第一总票房预测模型。
影片宣发期,通常是指影片上映前3个月~上映前3天,这个阶段,影片已经制作完毕,进入宣传阶段,这个阶段能够利用到的信息,除了影片的基本信息之外,还有影片的传播度等信息,还包括影片制作期预测出的影片的竞争力信息等,这个阶段将产生两个预测模型,分别为:排片预测模型和第二总票房预测模型。
影片上映期,通常是指影片上映前3天~影片下映,这个阶段,将加入更多的可利用信息,如影片的发行信息等,这个阶段将产生的预测模型为:单日票房预测模型,另外还可进一步包括:大盘票房预测模型。
基于上述介绍,图2为本发明所述不同预测阶段分别对应的模型及可利用的信息示意图。
可针对图2所示每个模型,分别获取预定个数的已下映影片作为训练样本,根据获取到的训练样本训练得到每个模型。
图3为本发明所述基本信息、传播度信息和发行信息各自包括的内容示意图。
如图3所示,影片的基本信息可包括影片类型、影片阵容、放映档期以及影片的IP信息等。
影片的传播度信息可包括搜索热度和社交热度等信息,如搜索热度可以包括搜索频次和垂直搜索热度等信息,社交热度可包括微博热度和多少人期待想看等信息。
影片的发行信息可包括排片信息和预售票房信息等。
以下分别针对上述各模型进行详细介绍。
1)影片竞争力预测模型
影片竞争力预测模型可以认为是影片的一个分档预测模型,如将影片分为1~10档,档位越高,表明影片的竞争力越大。
为得到影片竞争力预测模型,可首先获取预定个数的已下映影片作为训练样本,然后根据获取到的训练样本训练得到影片竞争力预测模型。
比如,分别已知各训练样本的基本信息和所处的档位信息等,可将基本信息作为输入,将所处的档位信息作为输出,训练得到影片竞争力预测模型,具体训练方式为现有技术。
由于影片竞争力预测模型采用的是分档的机制,也可以认为是一个分类的任务,因此可采用传统的多分类支持向量机(SVM,Support Vector Machine)分类器模型来作为影片竞争力预测模型。
这样,针对待预测影片,可按照影片竞争力预测模型的输入要求,输入待预测影片的第一信息,得到输出的待预测影片所处的档位信息,第一预定信息包括:基本信息。
2)第一总票房预测模型
本发明所述方案中,选择局部加权线性回归(LWLR,Locally Weighted Linear Regression)模型来作为第一总票房预测模型,即对待预测影片进行预测时,对所有训练样本,分别计算其和待预测影片之间的相似度,根据相似度进行样本加权。
为此,在训练第一总票房预测模型时,在获取到训练样本之后,可分别计算各训练样本与待预测影片之间的相似度,并按照相似度的不同分别赋予各训练样本不同的权重,相似度越大,对应的权重越大,之后,根据各训练样本并结合其权重,训练得到第一总票房预测模型。
比如,分别已知各训练样本的基本信息、所处的档位和总票房信息等,可将总票房作为输出,其它作为输入,训练得到第一总票房预测模型,具体训练方式为现有技术。
在计算各训练样本与待预测影片之间的相似度时,现有的作法是通过特征的相似度来计算,比如具有相同导演、演员之类的影片可以认为是相似的影片,但这种方式有个显著的缺点,就是没办法找到具有相似趋势的影片,比如粉丝片,都具有相似的趋势走向。
为此,本发明所述方案中提出通过另外一种方式来计算影片之间的相似度,即获取各用户对影片的评价、期待想看、搜索日志等数据,通过计算用户分布的相似度,来确定两个影片之间的相似度,从而可以很好地将具有相同受众的影片聚合到一起,具体如何计算为现有技术。
比如,在豆瓣网上,很多人在观看了影片A后对其进行了评价,这些人中的大部分人又表达了想看影片B的意愿,那么则可认为影片A和影片B属于相似影片。
在对待预测影片进行预测时,相似度越大的训练样本的参考借鉴意义越大,比如,待预测影片为“寒战2”,那么相比于动画片,香港的警匪片对于“寒战2”的预测的参考借鉴意义明显更大,因此权重也更大。
在训练得到第一总票房预测模型之后,可按照第一总票房预测模型的输入要求,输入待预测影片的第二预定信息,得到输出的待预测影片的总票房信息,第二预定信息可包括:基本信息以及预测出的所处的档位信息。
基于上述介绍,图4为本发明所述第一总票房预测模型及预测出待预测影片的总票房信息的过程示意图。
3)排片预测模型
由于每个影片的排片,都会受当天其它影片的影响,因此在作排片预测时,不能每个影片单独预测,而是需要用一个总体的预测来预测当天所有影片的排片情况,相应地,可采用线性模型和softmax模型的组合来作为排片预测模型。
比如,针对每个训练样本,在已知该训练样本的基本信息、上映期间每天的排片信息和传播度信息,以及,同天上映的其它影片的基本信息、当天的排片信息和传播度信息等的情况下,可将该训练样本以及同天上映的其它影片的排片信息作为输出,将其它信息作为输入,训练得到排片预测模型,具体如何训练为现有技术。
在得到排片预测模型之后,针对待预测影片,可按照排片预测模型的输入要求,输入待预测影片的第三预定信息以及同天上映的其它影片的第三预定信息,得到输出的待预测影片在上映期间的任一选定日期的排片信息,同时,也会输出该选定日期同天上映的其它影片的排片信息,第三预定信息可包括:基本信息和估计出的该选定日期的传播度信息。
由于是在影片宣发期对待预测影片进行排片预测,而此时获取到的关于待预测影片的传播度信息和选定日期的传播度信息通常是会不同的,因此,为提高预测结果的准确度,可按照现有技术,根据历史传播度信息变化情况,估计出选定日期的传播度信息。
图5为本发明所述排片预测模型及预测出待预测影片的排片信息的过程示意图,如图5所示,排片预测模型为线性模型和softmax模型的组合,线性模型可为因子分解机(FM,Factorization Machine)模型,起到预测打分的作用,softmax模型可起到归一化的作用,两个模型的具体实现均为现有技术。
4)第二总票房预测模型
相比于第一总票房预测模型,在训练第二总票房预测模型时,也需要设置训练样本的权重,且计算训练样本与待预测影片之间的相似度的方式也相同,第二总票房预测模型也可为LWLR模型,不同的是,作为模型的输入的信息更为丰富,如可包括:基本信息、传播度信息、排片信息和所处的档位信息等。
在影片宣发期,用户可能会利用第二总票房预测模型,对待预测影片的总票房进行多次预测,而每次预测时的传播度信息等都可能是不同的,因此,需要针对每个训练样本,分别获取其在影片宣发期的多个不同时间(不同日期)的传播度信息,并可将各训练样本的基本信息、所处的档位信息、上映期的平均排片信息、不同时间的传播度信息、不同时间分别与上映时间之间的时间差等作为输入,将总票房作为输出,训练得到第二总票房预测模型。
这样,针对待预测影片,可按照第二总票房预测模型的输入要求,输入待预测影片的第四预定信息,得到输出的待预测影片的总票房信息,第四预定信息可包括:平均排片信息和所处的档位信息,以及,基本信息、当前的传播度信息和当前时间与上映时间之间的时间差信息。
5)单日票房预测模型
单日票房预测是一种短时间的票房预测,比如可在每天早上9点预测当天的票房。
由于可分别已知各训练样本的基本信息以及在不同上映日期的传播度信息、发行信息和单日票房信息,因此,可将单日票房信息作为输出,其它信息作为输入,训练得到单日票房预测模型,具体训练方式为现有技术。
影片在某一日期的发行信息可包括:影片在该日期的排片信息,以及,影片在该日期的预售票房信息等。
单日票房预测模型可包括:线性模型、非线性模型或循环神经网络模型等。
线性模型和非线性模型均为回归模型,如可包括逻辑回归(LR,Logistic Regression)模型、FM模型、梯度提升决策树(GBDT,Gradient Boosting Decision Tree)模型等,较佳地,可选取FM模型。
循环神经网络(RNN,Recurrent neural Network)模型是一种时序模型,可将每天预测出的单日票房和隐层输出,作为下一天的预测的输入。
图6为本发明所述RNN模型的示意图,如图6所示,yi表示每天输出的单日票房,hi表示隐层,如何获取hi为现有技术,xi表示当天的特征,如基本信息、当天的传播度信息和发行信息等,也就是说,除了xi对当天的票房有影响外,前一天的输出和隐层输出也会对当天票房有影响。
6)大盘票房预测模型
可分别预测出预测当日上映的所有影片的单日票房,将所有影片的单日票房相加,即可得到大盘票房。
需要说明的是,在训练得到上述各模型时,如果能够获取到更多的输入信息,那么可采用更多的输入信息来训练得到上述各模型,不限于以上所述。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
实施例二
图7为本发明所述影片票房预测装置实施例的组成结构示意图,如图7所示,包括:获取单元71和预测单元72。
获取单元71,用于划分出M个不同的预测阶段,并针对每个预测阶段,分别训练得到该预测阶段对应的票房预测模型,发送给预测单元72,M为大于1的正整数。
预测单元72,用于当待预测影片分别处于不同的预测阶段时,根据所处预测阶段对应的票房预测模型对待预测影片进行票房预测。
M的具体取值可根据实际需要而定,较佳地,可取值为3,相应地,3个不同的预测阶段可分别为:影片制作期、影片宣发期和影片上映期。
影片制作期,通常是指影片上映之前的半年左右,这个阶段作票房预测,能够利用的信息通常只有影片的基本信息,但这个阶段进行预测的价值是很大的,如能够给影片投资方提供投资依据等,这个阶段将产生两个预测模型,分别为:影片竞争力预测模型和第一总票房预测模型。
影片宣发期,通常是指影片上映前3个月~上映前3天,这个阶段,影片已经制作完毕,进入宣传阶段,这个阶段能够利用到的信息,除了影片的基本信息之外,还有影片的传播度等信息,还包括影片制作期预测出的影片的竞争力信息等,这个阶段将产生两个预测模型,分别为:排片预测模型和第二总票房预测模型。
影片上映期,通常是指影片上映前3天~影片下映,这个阶段,将加入更多的可利用信息,如影片的发行信息等,这个阶段将产生的预测模型为:单日票房预测模型,另外还可进一步包括:大盘票房预测模型。
其中,影片的基本信息可包括影片类型、影片阵容、放映档期以及影片的IP信息等。
影片的传播度信息可包括搜索热度和社交热度等信息,如搜索热度可以包括搜索频次和垂直搜索热度等信息,社交热度可包括微博热度和多少人期待想看等信息。
影片的发行信息可包括排片信息和预售票房信息等。
获取单元71可针对每个模型,分别获取预定个数的已下映影片作为训练样本,根据获取到的训练样本训练得到该模型。
如前所述,影片制作期的票房预测模型可包括:影片竞争力预测模型和第一总票房预测模型。
当待预测影片处于影片制作期时,预测单元72可按照影片竞争力预测模型的输入要求,输入待预测影片的第一预定信息,得到输出的待预测影片所处的档位信息,所处的档位越高,表明竞争力越大,第一预定信息可包括:基本信息;并按照第一总票房预测模型的输入要求,输入待预测影片的第二预定信息,得到输出的待预测影片的总票房信息,第二预定信息可包括:基本信息以及所处的档位信息。
影片宣发期的票房预测模型可包括:排片预测模型和第二总票房预测模型。
当待预测影片处于影片宣发期时,预测单元72可按照排片预测模型的输入要求,输入待预测影片的第三预定信息以及同天上映的其它影片的第三预定信息,得到输出的待预测影片在上映期间的任一选定日期的排片信息,第三预定信息可包括:基本信息和估计出的选定日期的传播度信息;并按照第二总票房预测模型的输入要求,输入待预测影片的第四预定信息,得到输出的待预测影片的总票房信息,第四预定信息可包括:平均排片信息和所处的档位信息,以及,基本信息、当前的传播度信息和当前时间与上映时间之间的时间差信息。
其中,获取单元71在训练第一总票房预测模型和第二总票房预测模型时,在获取到训练样本之后,可分别计算各训练样本与待预测影片之间的相似度,并按照相似度的不同分别赋予各训练样本不同的权重,相似度越大,对应的权重越大,之后,根据各训练样本并结合其权重,训练得到第一总票房预测模型和第二总票房预测模型。
上述影片竞争力预测模型可为:分类器模型;
排片预测模型可为:线性模型和softmax模型的组合;
第一总票房预测模型和第二总票房预测模型可为:局部加权线性回归模型。
影片上映期的票房预测模型可包括:单日票房预测模型。
当待预测影片处于影片上映期时,预测单元72可将待预测影片的基本信息、预测当日的传播度信息和发行信息作为单日票房预测模型的输入,得到输出的待预测影片的单日票房。
影片上映期的票房预测模型还可进一步包括:大盘票房预测模型。
预测单元72可分别预测出预测当日上映的所有影片的单日票房,将所有影片的单日票房相加,得到大盘票房。
单日票房预测模型可为:线性模型、非线性模型、循环神经网络模型。
图7所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,此处不再赘述。
总之,采用本发明所述方案,可设置不同的预测阶段,并针对不同的预测阶段,分别训练得到对应的票房预测模型,这样,针对待预测影片,可分别根据其所处预测阶段对应的票房预测模型进行票房预测,从而相比于现有技术丰富了预测结果的内容,进而为影片的投资、运营、宣发等提供了更多的参考依据。
另外,现有技术中在进行预测时,大多采用线性模型,利用特征的加权方式,来得到预测结果,而本发明所述方案中,在进行不同的预测时,可采用不同的模型,如进行单日票房预测时,可采用线性模型、非线性模型或RNN模型,在进行排片预测时,还可采用softmax模型,在进行总票房预测时,可采用LWLR模型等,即针对不同的预测阶段,分别采用与之相适应的模型,从而提高了预测结果的准确性。
再有,现有技术中在进行预测时,所利用的信息通常只有影片的基本信息和发行信息,而本发明所述方案中,所利用的信息非常齐全,从影片的基本信息、发行信息到搜索热度、社交热度等传播度信息,基于上述众多的信息来进行预测,从而进一步提高了预测结果的准确性。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。