電視劇收視率預(yù)測論文

時(shí)間:2022-02-06 10:20:42

導(dǎo)語:電視劇收視率預(yù)測論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

電視劇收視率預(yù)測論文

【摘要】電視劇收視率和網(wǎng)絡(luò)播放量一直是衡量電視劇熱度的重要評價(jià)指標(biāo)。本文在前人研究的基礎(chǔ)上,首先對收視率的時(shí)間序列變化進(jìn)行研究。采用無監(jiān)督學(xué)習(xí)的流程,總結(jié)出描述收視率變化的四個(gè)特征,用k-means聚類分析方法,依據(jù)四個(gè)特征將電視劇分成了三類,并根據(jù)每一類收視率的實(shí)際變化特點(diǎn),分別采用自回歸模型和灰色預(yù)測模型進(jìn)行了時(shí)序預(yù)測,最終分析出了電視劇收視隨時(shí)間的變化趨勢。

【關(guān)鍵詞】時(shí)間序列預(yù)測;k-means聚類;自回歸模型;灰色預(yù)測模型

1.前言

電視劇(又稱為劇集、電視戲劇節(jié)目、電視戲劇或電視系列劇)是一種適應(yīng)電視廣播特點(diǎn)、融合舞臺和電影藝術(shù)的表現(xiàn)方法而形成的藝術(shù)樣式。電視劇熱度值,不僅體現(xiàn)了人們對于娛樂生活的輿論趨勢,更是電視劇平臺多元化發(fā)展的體現(xiàn)。對于電視劇熱度值的研究正在快速發(fā)展,人民大學(xué)新聞學(xué)院的周小、韓瑞娜、凌姝在其相關(guān)研究中,開展了對網(wǎng)上收視度與線下收視率的關(guān)系探討,并提出了多屏發(fā)展下新的電視評估體系的參考因素[1]。此外,胡兵、鄧極在《微博對電視劇收視率的影響研究》中,還深入探究了新媒體微博對于傳統(tǒng)電視劇收視率的影響[2]。各大視頻網(wǎng)站都在近幾年推出了關(guān)于電視劇指數(shù)的綜合評價(jià)體系,如“愛奇藝指數(shù)”、“優(yōu)酷指數(shù)”等。本文在前人研究的基礎(chǔ)上,逐步深入地對多屏播放模式下的電視劇熱度展開了研究,探尋了電視劇收視率變化模式的客觀規(guī)律,提出描述收視率變化模式的四個(gè)特征,并用k-means方法進(jìn)行聚類分析,根據(jù)三類電視劇的特點(diǎn),建立了自回歸模型和灰色預(yù)測模型進(jìn)行時(shí)間序列預(yù)測,按類別對比了不同階次間自回歸模型的擬合效果,最終建立了通過歷史數(shù)據(jù)對電視劇最后三集的收視率進(jìn)行預(yù)測的模型。

2.電視劇收視率預(yù)測模型的建立和求解

2.1數(shù)據(jù)收集和預(yù)處理。本文中用到的電視劇相關(guān)信息主要來源于百度百科資料庫,其中收視率數(shù)據(jù)來源于CSM52城市網(wǎng)和全國網(wǎng)收視率(www.csm.com.cn),播放量數(shù)據(jù)來源于騰訊、優(yōu)酷、愛奇藝等主流視頻網(wǎng)站。當(dāng)一部電視劇在同一時(shí)間段于多個(gè)電視臺播出時(shí),我們將各個(gè)臺收視率加在一起,作為數(shù)據(jù)用收視率。在收集到近幾年電視劇的比較權(quán)威的大量數(shù)據(jù)后,我們小組對數(shù)據(jù)進(jìn)行了預(yù)處理工作。電視劇的熱播有很多原因,為了研究熱度高的電視劇內(nèi)在的規(guī)律,我們將研究對象定為近幾年的“大熱劇”。研究對象符合以下兩條標(biāo)準(zhǔn):(1)最近三年播出:由于近幾年網(wǎng)絡(luò)化發(fā)展迅速,收視率和播放量的發(fā)展模式與數(shù)年前有所不同。若加入很早之前的熱門電視劇(如《還珠格格》、《西游記》)為研究對象,勢必會(huì)造成收視率與網(wǎng)絡(luò)播放量的異常波動(dòng),所以我們將研究對象定為近三年電視劇。(2)平均首播收視率在2%以上:通過收視率以及網(wǎng)絡(luò)搜索量數(shù)據(jù)比較,我們發(fā)現(xiàn),近三年的電視劇中,平均收視率在2%以上的電視劇,在播出時(shí)均造成了不小的轟動(dòng),并成為了當(dāng)時(shí)的熱點(diǎn),符合我們對于研究對象熱度高的要求。所以,我們用以上條件為標(biāo)準(zhǔn),并結(jié)合了社會(huì)輿論、觀眾口碑和電視劇影響力等因素進(jìn)行調(diào)整。從近三年所有電視劇范圍內(nèi),最終選擇了《瑯琊榜》、《人民的名義》、《羋月傳》、《三生三世十里桃花》、《花千骨》、《歡樂頌1》、《歡樂頌2》、《微微一笑很傾城》、《武媚娘傳奇》、《虎媽貓爸》、《何以笙簫默》、《親愛的翻譯官》、《女醫(yī)明妃傳》這13部類型、風(fēng)格、播出時(shí)間并不相同的“大熱劇”為研究對象。2.2基于收視率特征的電視劇聚類分析。對于收視率來說,因?yàn)榍皫准氖找暵蕜荼嘏c后幾集的收視率有很大的關(guān)聯(lián)性,所以通過歷史數(shù)據(jù)可以一定程度上揭示現(xiàn)象的變化規(guī)律,所以我們采用時(shí)間序列預(yù)測模型。本文選用自回歸模型進(jìn)行預(yù)測。由于不同類型的電視劇具有不同的收視規(guī)律,顯然不適合用同一模型求解。因此,我們將收視率的變化模式作為電視劇聚類標(biāo)準(zhǔn),將研究對象進(jìn)行聚類分析。為了定量地刻畫電視劇的變化模式,我們對13部電視劇的收視率與集數(shù)進(jìn)行了一次、二次擬合,將擬合得到的參數(shù)作為聚類特征,進(jìn)行了如表1的統(tǒng)計(jì)分析。表1描述收視率變化模式的四個(gè)特征用上述方法,可以分別計(jì)算出13部電視劇的每個(gè)特征值,由于篇幅所限不再一一贅述。進(jìn)而利用python實(shí)現(xiàn)k-means聚類分析的方法,將所有電視劇分為三個(gè)類別,每個(gè)類別具有如下表2的特征:2.3收視率自回歸模型的建立與優(yōu)化。2.3.1利用AR(2)模型預(yù)測第一種模式電視劇收視率首先,對于第一種模式,我們選取了《人民的名義》作為研究對象,分別嘗試了四種自回歸模型。采用同樣的訓(xùn)練集和測試集,來評估不同回歸模型的性能。此處代表第集的收視率:經(jīng)過研究發(fā)現(xiàn),第三種模型,即運(yùn)用前一集和前第三集的數(shù)據(jù)的二階自回歸模型擬合最好。因?yàn)槭找暵蕰?huì)受到人為因素影響,相鄰劇集間收視率會(huì)小范圍波動(dòng),而采用隔一集的收視率數(shù)據(jù)可以一定程度上減少波動(dòng)帶來的影響。而三階自回歸模型會(huì)因?yàn)閰?shù)較多,出現(xiàn)一定的過擬合現(xiàn)象。因此,我們選擇的自回歸模型為:我們利用《人民的名義》、《三生三世十里桃花》、《歡樂頌1》、《虎媽貓爸》、《何以笙簫默》作為訓(xùn)練集,以《女醫(yī)明妃傳》作為與測試集檢驗(yàn)?zāi)P偷男阅埽胑xcel的擬合工具進(jìn)行求解,最終得到模型的表達(dá)式為:之后分析該模型的擬合性能,模型的擬合優(yōu)度R2=0.92988,SignificanceF=3.67*10-45。兩個(gè)影響因素的P-value也通過了0.05的顯著性水平檢測。可見,該模型在訓(xùn)練集上能夠較好地反映出數(shù)據(jù)的波動(dòng)性。之后對該模型的預(yù)測性能進(jìn)行檢測,將《女醫(yī)明妃傳》后23個(gè)收視率數(shù)據(jù)代入模型中,求解出《女醫(yī)明妃傳》后20個(gè)收視率數(shù)據(jù)的預(yù)測值。經(jīng)過計(jì)算,該模型在測試集結(jié)果中,真實(shí)值與預(yù)測值的相關(guān)系數(shù)為0.923112,均方差為0.981483。能夠看出,模型具有較好的預(yù)測能力。2.3.2利用GM(1,1)模型預(yù)測第二種模式電視劇收視率接著,我們分析了第二種模式中劇集的收視率變化。在第二種收視率變化模式中,由于存在收視率的拐點(diǎn),所以最后的10集的收視率可能有所下降(如羋月傳),也可能上下波動(dòng)(如花千骨)。所以在該模式中,我們選取電視劇的后半段收視率作為訓(xùn)練集,并選取非線性的時(shí)序預(yù)測模型——灰色預(yù)測GM(1,1)來進(jìn)行建模。GM(1,1)模型是一種灰色動(dòng)態(tài)預(yù)測模型,在灰色系統(tǒng)理論中應(yīng)用最為廣泛的,該模型是由一個(gè)單變量的一階微分方程組成,可以用于復(fù)雜系統(tǒng)某一主導(dǎo)因素特征值的擬合和預(yù)測,以探究主導(dǎo)因素變化規(guī)律和未來發(fā)展變化態(tài)勢。該模型訓(xùn)練需要的數(shù)據(jù)少,能夠反映非線性的變化趨勢,同時(shí)對樣本分布沒有嚴(yán)格的平穩(wěn)性要求,所以非常符合該模式的收視率預(yù)測。我們利用python編程實(shí)現(xiàn)了灰色預(yù)測模型,訓(xùn)練集采用《羋月傳》、《瑯琊榜》、《花千骨》、《微微一笑很傾城》、《歡樂頌2》五部電視劇的后一半集數(shù)的收視率,測試集選取這五部電視劇的最后三集收視率。我們建立了GM(1,1)模型和二階自回歸模型進(jìn)行對比,希望體現(xiàn)出灰色預(yù)測模型對于該類電視劇的適用性。經(jīng)過模型的訓(xùn)練和求解,在測試集上的測試性能如表3所示。從表3可以看出,真實(shí)值和預(yù)測值的均方差方面,GM(1,1)模型均方誤差為,而AR(2)模型的均方誤差為,灰色預(yù)測模型表現(xiàn)更加優(yōu)秀。同時(shí)以《羋月傳》和《微微一笑很傾城》為例(在表格中標(biāo)注為黃色),灰色預(yù)測模型成功預(yù)測出了最后兩天的下降趨勢,而自回歸模型則并未能預(yù)測出來2.3.3對第三種模式電視劇收視率的討論在數(shù)據(jù)統(tǒng)計(jì)過程中,我們也發(fā)現(xiàn)了諸如《親愛的翻譯官》、《古劍奇譚》等電視劇,其收視率變化模式存在較大幅度的波動(dòng)。究其原因,這些電視劇的收視率收到很多其他外界因素的干擾。以《古劍奇譚》為例,該劇作為湖南衛(wèi)視試水的首部周播劇,開創(chuàng)了周播劇先河,并且收獲了大量粉絲,成為了當(dāng)時(shí)的現(xiàn)象級熱播劇,然而我們發(fā)現(xiàn),其電視劇收視率在接近結(jié)尾的15集左右,出現(xiàn)大幅度下降。經(jīng)過分析發(fā)現(xiàn),收視率縮水的時(shí)期正好在8月末9月初,處在開學(xué)期。由于《古劍奇譚》屬于古裝仙俠劇,主演們均為當(dāng)紅小鮮肉,所以面對的收視群體多為年輕觀眾,包括一大部分學(xué)生。所以導(dǎo)致在開學(xué)季出現(xiàn)收視下滑。從中我們也可看出收視群體的不同,對于電視劇收視率的影響。由此看出,這類電視劇的后三集收視率很難用之前的收視率來預(yù)測。一種解決方案是排除異常點(diǎn)的干擾,通過數(shù)據(jù)預(yù)處理進(jìn)行降噪,進(jìn)而用AR(2)或者GM(1,1)模型求解;另一個(gè)解決方案是在模型中加入更多的影響因素,建立多元回歸模型進(jìn)行求解。

3.結(jié)論與展望

電視劇的收視率和網(wǎng)絡(luò)播放量一直是衡量電視劇熱度的重要評價(jià)指標(biāo)。本文在前人研究的基礎(chǔ)上,首先對收視率的時(shí)間序列變化進(jìn)行研究。采用無監(jiān)督學(xué)習(xí)的流程,總結(jié)出描述收視率變化的四個(gè)特征,用k-means聚類分析方法,依據(jù)四個(gè)特征將電視劇分成了三類,并根據(jù)每一類收視率的實(shí)際變化特點(diǎn),分別采用自回歸模型和灰色預(yù)測模型進(jìn)行了時(shí)序預(yù)測,最終分析出了電視劇收視隨時(shí)間的變化趨勢。

參考文獻(xiàn)

[1]梁招娣,劉小龍.基于RBF神經(jīng)網(wǎng)絡(luò)的電視收視率預(yù)測[J].河南科學(xué),2013(9):1428-1431.

[2],田鋼,溫淑鴻.基于BP神經(jīng)網(wǎng)絡(luò)的電視節(jié)目收視率預(yù)測模型[J].電視技術(shù),2014,38(6):94-96.

[3]張茜,吳超,喬晗,等.基于TEI@I方法論的中國季播電視綜藝節(jié)目收視率預(yù)測[J].系統(tǒng)工程理論與實(shí)踐,2016(11):2905-2914.

[4]黃玲莉,劉小龍.基于ARIMA與BP神經(jīng)網(wǎng)絡(luò)的收視率組合預(yù)測模型[J].電視技術(shù)2015,39(9):117-121.

[5]胡兵,鄧極.微博對電視劇收視率的影響研究[J].今傳媒,2015(06):32-34.

作者:倪子航 單位:南京市第二十九中學(xué)