流行電視劇數(shù)據(jù)分析
時(shí)間:2022-11-15 09:48:01
導(dǎo)語:流行電視劇數(shù)據(jù)分析一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1數(shù)據(jù)
1.1數(shù)據(jù)收集。本文共收集了包括《楚喬傳》《人民的名義》《夏至未至》等八部正在更新或已經(jīng)更新完的電視劇的單集點(diǎn)擊量,收視率,評(píng)論數(shù)等數(shù)據(jù)。采用的電視劇每集點(diǎn)擊量,評(píng)論數(shù)來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)(index.youku.com)和愛奇藝指數(shù)(index.iqiyi.com),網(wǎng)站提供視頻上線之后的每集電視劇的點(diǎn)擊量總數(shù),電視劇每天至少更新一集。播出時(shí)段的收視率來自于央視索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一個(gè)收視率數(shù)據(jù),同步更新的電視劇使用收集數(shù)據(jù)當(dāng)天之前的數(shù)據(jù),之后的數(shù)據(jù)不再進(jìn)行統(tǒng)計(jì)。1.2數(shù)據(jù)預(yù)處理。為了避免因播放源不同而引起的數(shù)據(jù)之間難以考慮到的誤差,本文所使用的八部電視劇均為湖南衛(wèi)視同一時(shí)段播放的,且網(wǎng)絡(luò)點(diǎn)擊量的數(shù)據(jù)均來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)。此外,為了方便數(shù)據(jù)的使用,本文將點(diǎn)擊量的單位定為百萬次,收視率的單位為%,評(píng)論數(shù)的單位為千條。此外,本文還會(huì)去掉一些因?yàn)樯暇€時(shí)間較短等其他因素導(dǎo)致的一些異常值,以求得更精準(zhǔn)的模型。和圖2)
2理論基礎(chǔ)
一元線性回歸模型具有簡(jiǎn)單易行的特點(diǎn),且經(jīng)過多次數(shù)據(jù)處理和計(jì)算后發(fā)現(xiàn)擬合度較高,所以本文所使用的模型的理論基礎(chǔ)均為一元線性回歸模型的理論。對(duì)于一元線性回歸模型f(x)=w0+w1x,每一個(gè)xi都有一個(gè)實(shí)際的yi和本文通過回歸得出的f(xi)與其對(duì)應(yīng),本文令yi=w0+w1xi+εi,,其中εi,是真實(shí)值與預(yù)測(cè)值之間的差值,即εi,=yi-f(xi),當(dāng)殘差平方和RSS最小時(shí),證明該模型與實(shí)際擬合程度最高,即該模型越精確。其中RSS=ε12+ε22+…+εn2=∑i=1n[yi-f(x)i]2殘差平方和是回歸參數(shù)w0和w1的函數(shù),即表示為RSS(w0,w1),要找到最好的回歸方程,即求L=min∑i=1n(yi-[w0+w1xi])2,在求解L時(shí),本文采用梯度下降的方法:對(duì)L求偏導(dǎo)數(shù)得到∂L∂w1=[(w1x+w0)-y]x和∂L∂w0=(w1x+w0)-y。令w1i+1=w1i-α∂L∂w1,w0i+1=w0i-α∂L∂w0,其中α為學(xué)習(xí)率(learningrate),直到∂L∂w1=0且∂L∂w0=0,求出當(dāng)時(shí)的w0和w1。
3模型的建立與處理
3.1基于一元非線性時(shí)間序列預(yù)測(cè)模型對(duì)收視率的預(yù)測(cè)。收視率,指在某個(gè)時(shí)段收看某個(gè)電視節(jié)目的目標(biāo)觀眾人數(shù)占總目標(biāo)人群的比重,以百分比表示。收視率越高,則該電視劇與同期節(jié)目相比受到的關(guān)注度就越高,一般來說,當(dāng)t-1時(shí)刻的電視劇收視率越高時(shí),觀眾對(duì)t時(shí)刻的電視劇的期望就越高,t時(shí)刻的收視率就越高。因此本文猜想,t-1時(shí)的收視率與t時(shí)刻的收視率存在某種關(guān)系。本文以t-1時(shí)刻的收視率為自變量來預(yù)測(cè)t時(shí)刻的收視率,進(jìn)行了多次數(shù)據(jù)分析。以《楚喬傳》為例:如圖3是真實(shí)的t時(shí)刻與t-1時(shí)刻的電視劇收視率的關(guān)系:圖3電視劇《楚喬傳》t時(shí)的收視率與t-1時(shí)收視率的關(guān)系由上圖可以看出,t-1時(shí)刻的收視率與t時(shí)刻的收視率基本符合一元二次的函數(shù)關(guān)系,得到的模型擬合程度較高。之后以上圖中得到的回歸方程,預(yù)測(cè)最后5集電視劇收視率,得出結(jié)果后再與前面幾集的收視率做回歸分析,得到如下圖4:圖4《楚喬傳》預(yù)計(jì)的t時(shí)收視率與t-1時(shí)收視率的關(guān)系該數(shù)據(jù)同樣得到了擬合程度很高的模型,與真實(shí)結(jié)果相比差距很小。其中,實(shí)際結(jié)果得出的二次項(xiàng)系數(shù)為負(fù)而上圖中二次項(xiàng)系數(shù)為正,可能是因?yàn)槭褂玫臄?shù)據(jù)量過少。同時(shí)本文對(duì)當(dāng)時(shí)電視劇播出的背景做過調(diào)查后發(fā)現(xiàn),最后五集播出時(shí)處于工作日。很多人因?yàn)楣ぷ鞯脑虿荒芗皶r(shí)收看電視,這也可能是造成預(yù)測(cè)結(jié)果偏大的一個(gè)原因。最后本文經(jīng)過多次驗(yàn)證得出該模型可以很好的擬合數(shù)據(jù),對(duì)任一時(shí)刻的收視率,該模型都具有很好的預(yù)測(cè)效果。因而本文可以認(rèn)為,熱播電視劇的收視率與上一集的收視率存在一元二次的函數(shù)關(guān)系。3.2一元線性模型預(yù)測(cè)單集電視劇評(píng)論數(shù)。通常來講,對(duì)于一部熱播電視劇,如果某一集相比較其他更加吸引觀眾,便更會(huì)引起人們對(duì)他的關(guān)注,反映到數(shù)據(jù)上的一方面就是該集的評(píng)論數(shù)就會(huì)越多。而在收視率和點(diǎn)擊量?jī)蓚€(gè)可能可以預(yù)測(cè)評(píng)論數(shù)的因素中,本文猜想點(diǎn)擊量能更好地預(yù)測(cè)評(píng)論數(shù),并通過數(shù)據(jù)驗(yàn)證了本文的猜想。以《人民的名義》和《三生三世十里桃花》為例(如圖5和圖6)從下圖可以看出,不論是單集還是整體,在收視率這一方面《人民的名義》遠(yuǎn)超《三生三世十里桃花》,而點(diǎn)擊量方面的結(jié)果恰好相反,《三生三世十里桃花》則是更勝一籌,但如果本文比較兩部電視劇的評(píng)論數(shù)(如圖7),《三生三世十里桃花》占據(jù)了絕對(duì)優(yōu)勢(shì)。造成這種結(jié)果的原因是因?yàn)閮刹侩娨晞∈湛吹娜巳耗挲g段不同,《人民的名義》的觀眾群體年齡相對(duì)較高,多通過電視收看電視劇,很少會(huì)到網(wǎng)絡(luò)上發(fā)表對(duì)這部電視劇的看法;而《三生三世十里桃花》的觀眾群體相對(duì)年輕,多通過網(wǎng)絡(luò)收看電視劇,并樂于與其他人商量對(duì)這部電視劇的觀點(diǎn)。因而造成了點(diǎn)擊量與評(píng)論數(shù)的數(shù)據(jù)更為相符。通過比較可以初步驗(yàn)證本文的猜想,但這只能說明點(diǎn)擊量比收視率能更好地預(yù)測(cè)單集的評(píng)論數(shù),是否點(diǎn)擊量就能與評(píng)論數(shù)很好地契合,這還需要本文進(jìn)一步的數(shù)據(jù)分析。以《擇天記》為例,本文以《擇天記》的單集點(diǎn)擊量為自變量,該集的評(píng)論數(shù)為因變量,刪除一些誤差較大的數(shù)據(jù)后得到20組單集評(píng)論數(shù)和點(diǎn)擊量數(shù)據(jù)。將這20組數(shù)據(jù)進(jìn)行回歸分析得到的結(jié)果如表1和圖8所示:表120組數(shù)據(jù)所得回歸直線的評(píng)估參數(shù)圖820組數(shù)據(jù)預(yù)測(cè)的t時(shí)評(píng)論量與真實(shí)值的對(duì)比通過回歸分析本文可以看出,這二十組數(shù)據(jù)間的線性相關(guān)性較強(qiáng),擬合程度較好。本文再以前十五組數(shù)據(jù)為訓(xùn)練集,最后五組數(shù)據(jù)為測(cè)試集。將預(yù)測(cè)的五組數(shù)據(jù)與真實(shí)的五組數(shù)據(jù)作對(duì)比,并計(jì)算二者的相關(guān)系數(shù)ρ,即得表2:表2所得回歸方程的預(yù)測(cè)能力檢驗(yàn)二者的相關(guān)系數(shù)ρ=0.792,即二者的相關(guān)性較強(qiáng),因而本文可以看出電視劇的單集點(diǎn)擊量對(duì)當(dāng)集的評(píng)論數(shù)有著較好的預(yù)測(cè)能力。當(dāng)本文把電視劇的數(shù)量擴(kuò)展到6部時(shí),本文先將156組數(shù)據(jù)進(jìn)行回歸分析,結(jié)果如表3和圖9所示:表3156組數(shù)據(jù)所得回歸直線的評(píng)估參數(shù)圖9156組數(shù)據(jù)預(yù)測(cè)的t時(shí)評(píng)論數(shù)與真實(shí)值的對(duì)比刪去這些數(shù)據(jù)中較大的66組數(shù)據(jù),剩余的90組數(shù)據(jù)中,以其中85組為訓(xùn)練集,另外5組為測(cè)試集,計(jì)算該模型的預(yù)測(cè)能力,如表4:表4回歸直線的預(yù)測(cè)能力檢驗(yàn)由此可見,當(dāng)數(shù)據(jù)更大時(shí),點(diǎn)擊量與評(píng)論數(shù)的線性相關(guān)性加強(qiáng),而點(diǎn)擊量對(duì)評(píng)論數(shù)的預(yù)測(cè)能力也一直十分優(yōu)秀,所以本文可以推測(cè),當(dāng)數(shù)據(jù)數(shù)目足夠大時(shí),點(diǎn)擊量與評(píng)論數(shù)將符合一元線性回歸模型。3.3單集收視率、點(diǎn)擊量與集數(shù)的關(guān)系。一般來講,電視劇開播初期,因?yàn)椴煌娨晞〉拿餍顷嚾荨⑿麄髁Χ炔煌诓恢绖∏榈那闆r下,電視劇的收視率與點(diǎn)擊量可能會(huì)有不同程度的波動(dòng),但隨電視劇的播出,人們對(duì)該電視劇了解進(jìn)一步深入,這種波動(dòng)可能會(huì)逐漸減小。因而本文推測(cè),隨集數(shù)的增長(zhǎng),單集電視劇的收視率與點(diǎn)擊量都會(huì)趨于平緩,且隨劇情深入,人們對(duì)電視劇的期望應(yīng)該會(huì)越高,因而二者都應(yīng)緩慢上升。下面本文分別以八部電視劇的集數(shù)為自變量,同一集(同為第一集、第二集等)的平均收視率和平均點(diǎn)擊量為因變量探究二者的關(guān)系,結(jié)果如圖10和圖11。由圖本文不難看出,真實(shí)的結(jié)果與本文的預(yù)期有一定的偏差:收視率與本文的預(yù)期基本相符,始終波動(dòng)較小,且有小幅上升,到最后達(dá)到最大值,這也反映了人們對(duì)電視劇結(jié)尾的期望。但點(diǎn)擊量始終保持較大的波動(dòng),偶爾會(huì)有小幅上揚(yáng),但總體來看一直在下降,且在3/10/30集左右都出現(xiàn)了明顯的斷層情況,一直到最后都沒有再大幅回升,不符合人們對(duì)大結(jié)局的期望值。探究這種現(xiàn)象發(fā)生的原因,本文認(rèn)為這與二者所代表的受眾群體相關(guān):常使用優(yōu)酷、土豆等網(wǎng)上觀看電視劇的多為二三十歲的中青年人,他們的時(shí)間相對(duì)緊湊,沒有時(shí)間每天晚上都在電視機(jī)前等待電視劇的更新,大多數(shù)時(shí)候只是通過網(wǎng)絡(luò)回看已經(jīng)播出的電視劇,在這種情況下,他們對(duì)電視劇的觀看就有了選擇性,某一集的劇情吸引人,可能該集的點(diǎn)擊量會(huì)有一個(gè)激增,其他的集數(shù)點(diǎn)擊量可能就較少,也正是由于這個(gè)原因,他們更偏愛集數(shù)較短的電視劇,因而隨集數(shù)的增長(zhǎng),電視劇的點(diǎn)擊量會(huì)逐步下降;而收視率的受眾群體多為其他人群,生活更加規(guī)律,時(shí)間相對(duì)寬裕,受眾群體穩(wěn)定因而收視率的變化相對(duì)平緩,且隨電視劇的深入,知道這部電視劇的人就更多,收看電視劇的人數(shù)就會(huì)逐步增多,因而電視劇的平均收視率會(huì)平緩地上升。
4結(jié)論與展望
在如今電視劇風(fēng)靡的背景下,本文研究了電視劇的一些數(shù)據(jù),以一元線性回歸模型的原理為理論基礎(chǔ),發(fā)現(xiàn)收視率符合一元二次的時(shí)間序列預(yù)測(cè)模型,即知道某一集的收視率,便能比較好的預(yù)測(cè)出下一集電視劇的收視率,對(duì)于電視劇的出版方來說,合理的安排好劇情精彩的集數(shù),以此大幅帶動(dòng)周圍集數(shù)的收視率就顯得尤為重要。此外,本文還研究了單集點(diǎn)擊量與該集評(píng)論數(shù)的關(guān)系,發(fā)現(xiàn)某集的點(diǎn)擊量與該集的評(píng)論數(shù)成正相關(guān),因此,網(wǎng)絡(luò)視頻播出方可以加大宣傳的力度,提高該集的關(guān)注度,以此提高單集點(diǎn)擊量。最后,本文發(fā)現(xiàn)隨集數(shù)的增加,收視率平緩上升,而視頻點(diǎn)擊量則在波動(dòng)下降,對(duì)于集數(shù)較多的電視劇更為明顯,因此電視臺(tái)方面可以在收視后期多插播一些廣告或延長(zhǎng)時(shí)長(zhǎng)以增加收益,而出版方則要控制好電視劇的長(zhǎng)短,既要使電視劇的收視率達(dá)到一個(gè)令人滿意的高度,又要保證點(diǎn)擊量不會(huì)太低,以求得最大的收益。上述模型經(jīng)驗(yàn)證后發(fā)現(xiàn)擬合程度都很高,能夠很好地進(jìn)行預(yù)測(cè),這些問題的研究對(duì)于提高出版方與播出方的收益都有十分重要的意義。在未來對(duì)這些問題的深入研究中,通過更多電視劇的數(shù)據(jù),以及更高級(jí)的算法模型,使得模型能夠更加精確,具有更好的現(xiàn)實(shí)解釋力。
作者:王一鳴 單位:諸城市實(shí)驗(yàn)中學(xué)
參考文獻(xiàn):
[1]陳春燕,張鈺,常標(biāo)等.基于ARMA模型的在線電視劇流行度預(yù)測(cè)[J].計(jì)算機(jī)科學(xué)與探索,2016,10(3).
[2]毋世曉,趙翠.基于時(shí)序分析的視頻點(diǎn)擊量預(yù)測(cè)[J].電腦編程技巧與維護(hù),2016(20).
[3]趙忠仁.電視劇參數(shù)這樣讀[J].成功營(yíng)銷,2013(4).[4]石光.電視劇收視率在大數(shù)據(jù)環(huán)境下的分析[J].西部廣播電視,2017(11).
- 上一篇:電視劇藝術(shù)審美趣味研究
- 下一篇:《小王子》原著與電影的差異化分析