大數據下公共政策實施評估研究

時間:2022-01-21 03:18:51

導語:大數據下公共政策實施評估研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據下公共政策實施評估研究

摘要:公共政策涉及到對社會資源的分配和協調,與社會大眾的利益密切相關。對公共政策實施進行科學評估有利于提升政府施政能力。傳統評估方式存在一定局限,利益相關方參與度不夠。本文基于互聯網大數據公共政策實施評估進行了研究。通過對論壇、微博等互聯網站點在政策出臺后一段時間(如半年)的海量數據,以及部分用戶行為數據,進行聚類分析,建立公共政策實施評估指數模型。

關鍵詞:公共政策;互聯網數據;聚類分析;指數模型

公共政策從某種意義上說是公共權力機關經由某個法定的程序所制定的為解決公共問題、達成公共目標、實現公共利益,以協調經濟社會活動及相互關系的實施方案。公共政策的評估主要從兩個方面著力,一是在公共政策出臺之前,對政策的可行性進行評估;二是在政策出臺之后,對政策的實時效果進行評估,找出與公共政策設計目標的差距。傳統的評估方法有兩類,一類是現場調研考察。選取與公共政策相關的不同層次的利益相關方,通過深入座談、問卷調查、文檔查看、實地考察、專家打分等方式,形成評估報告。另一類是建立統計分析模型。運用數理經濟學、計量經濟學和統計學等多種數理經濟模型和計量經濟模型,對公共政策進行量化評估,通過數據分析對政策實施進行量化評估。近年來,互聯網技術發展迅速,產生了海量的數據,為大數據的應用打下了堅實的基礎。據有關文獻報道[1,4],國內、外利用互聯網大數據對公共政策實施進行評估取得了較好的應用效果。本文對基于互聯網大數據的公共政策實施評估進行了研究,通過對論壇、微博、微信、貼吧、博客、手機APP、平媒、政府網站互動欄目等互聯網站點在政策出臺后一段時間(如政策出臺后半年內)的海量數據,以及部分用戶行為數據,進行建模分析,將互聯網上的公眾意見引入到公共政策的實施效果評估中。

1公共政策實施評估方法簡述

[2]公共政策評估,從評估的范圍看,有對公共政策實施效果及價值進行判斷的專項評估,也有只對公共政策實施整個過程的分析和評判。從評估的過程看也有廣義和狹義之分。廣義的政策評估包含事前評估、執行評估和事后評估三種類型,而狹義的政策評估常常指事后評估。從評估的方法看,有定性分析評估和定量分析評估,定性評估在國內現有的評價模式中應用較為廣泛。1.1定性評估方式。定性評估是基于經驗的實證研究,常常采用訪問法、觀察法、案例研究法等非數字技術方法,依賴于評估方對公共政策實施的了解、調查和感性認識。如通過相關會議上的匯報交流、實地調研座談、上報材料、媒體報道、內參反映、相關利益方來信/來訪等,歸納總結為政策實施評估報告。定性評估方式相對簡單,容易實施,速度快、方便、直接,比較受到各級政府的推崇。但定性評估方式易受各類條件的約束,其科學性、客觀性難有保障,評估人員的直覺和經驗作用明顯,評估對象面較窄,利益相關方參與度不夠。1.2定量評估方式。定量評估是相對定性評估的另一種評估方法,通過數據歸集建立統計分析模型,把理論性概念量化成具體數據,通過科學計算,對公共政策實施進行定量評估。定量研究在某些方面相比定性研究方法有優勢,能夠用數據直觀表達評估結果,但也存在不可靠的風險,過多地強調客觀性和普遍性,忽略了人的主觀性和特殊性。定量分析的方法對于解決常規性問題效果很好,對于非常規性的復雜問題,往往效果不佳。1.3互聯網大數據評估。隨著互聯網和自媒體的高速發展,互聯網本身的海量數據為基于大數據的公共政策評估帶來便利。盡管在數據處理方式上,大數據的分析方法與傳統定量分析的建模分析有相通之處,但存在較大差異。大數據評估由于數據采集方式、處理方式的變革,將會帶來評估模式革命性的變化。一是數據采集從樣本數據轉向全數據,使評估更加接近事實本身;二是分析方法上由重視變量之間的因果性轉向更加關注相關性,通過分析、揭示公共政策制定、實施與效果之間的相關性,使政策評價更趨于科學、民主和客觀;三是參與對象更加廣泛,通過大量收集互聯網上利益相關者的情感、意愿、評價等信息,更多的了解公共政策實施對象參與的積極性和對公共政策實施效果的看法和評價。

2互聯網大數據評估基礎準備

2.1數據準備。2.1.1數據采集。根據行政區劃和政策評估有效時間和區間進行限定,采用互聯網爬蟲技術或以購買服務的方式從互聯網爬蟲公司采集數據,包括新聞、論壇、微博、微信、貼吧、博客、手機APP、平媒、政府網站互動欄目、綜合網站互動欄目等互聯網站點在政策出臺后一段時間(如出臺后半年內的數據)的數據,構建基于輿情內容的熱度、重點、焦點、敏感度、高頻詞、粘度等用戶關注的行為數據,為多維度的輿情分析打基礎。2.1.2數據預處理。互聯網采集的數據與實際建模分析的要求相差甚遠,極易受噪聲、重復數據、缺失值和不一致數據的侵擾,必須進行預處理,數據預處理主要完成采集數據中的噪聲清洗,糾正不一致性。一是檢測、剔除重復數據。主要是記錄去重和特征去重。考慮到中文處理的復雜性,可以采用特征去重、哈希去重等技術消除重復記錄。二是異常數據處理。可以采用統計方法、關聯分析、聚類方法進行異常數據處理,如缺失值處理、異常值(離群點)處理、噪音數據處理等。三是特定領域的數據清洗。這種數據清洗方案和算法都是針對特定領域,通過聚集、刪除冗余、特征聚類來減少無關數據,實現數據的規范化。在公共政策評估中,可以根據公共政策的關鍵描述,建立關鍵詞知識庫和清洗模型,進行定向采集或定向清洗。四是數據集成入庫。完成數據清洗后,通過規范、轉換和規整處理,把采集數據規范到可以進行比較分析的某一度量空間,進行數據入庫。2.1.3評估模型算法。由于互聯網漢字文本信息的特點,只能通過語義分析找到文本數據內在的固有屬性。基于互聯網輿情對公共政策實施效果評估是一種常見的聚類分析評估,通過對海量數據的采集分析,按照輿情特點對公共政策評估進行聚類分析,通過關鍵詞頻度和特征表述并進行適度的加權值,實現類似滿意、比較滿意、一般、不滿意的聚類分析。聚類算法是一種典型的無監督學習算法,根據樣本之間的相似程度,將樣本劃分到不同的類別中。聚類分析的主要算法有劃分聚類、層次聚類、基于密度的聚類、基于模型的聚類、基于網格的聚類和基于模糊的聚類。

3基于聚類分析的公共政策模型結構研究

3.1研究準備。一是建立大數據評估的相關知識庫。對已的公共政策建立關鍵詞知識庫,如公共政策主題(政府文件名稱、文號、會議名稱、政策主題),關鍵詞,主要內容描述,利益相關對象描述等。二是數據抽取和基本清洗。選取公共政策出臺后一段時間(如出臺后半年內的數據),選取特定的互聯網渠道作為數據采集來源,采用爬蟲技術或向第三方數據爬蟲公司購買相關數據,經去重、去噪、數據歸一化后集成入庫。三是數據定向抽取和建模清洗。按照評價模型體系評價指標的要求和聚類分析的數據規范,對單個指數進行數據抽取和規范化建模清洗,形成每個指數聚類分析所需的數據集市。3.2評價模型指標體系。采用傳統指數分析與大數據聚類分析相結合的方式建立評價模型指標體系。評價模型為三級指標模型,建立層次化結構的公共政策評估指標體系。一級指標從政策關注度(A)、政策輿情評價(B)、利益相關者評價(C)、網上調查問卷(D)等四個層面反映互聯網大數據對公共政策實施評估的主題評價,二級指標是對上一級影響因素的進一步細分,第三級指標通過數據處理和聚類分析,采用可量化的數據對前一級指標的每個方面進行描述。三級指標的數據處理,主要是在對定向數據集進行分詞處理、語義分析的基礎上,通過聚類分析算法,得出量化評分。計算公式:P=k1*A+k2*B+k3*C+k4*D;0<P<100;根據P的計算值,將評估結果定位為非常滿意、滿意、基本滿意、不滿意四個等級;K1-k4為權重,取值范圍為0-1,且k1+k2+k3+k4=1;A-D為一級指標取值,通過二級指標加權計算得出,取值范圍0-100之間,如A=k11*A1+k12*A2,K11-k12為權重,取值范圍為0-1,且k11+k12=1。二級指標取值通過三級指標加權計算得出,取值范圍0-100之間,如A1=k111*a11+k112*a12+k113*a13+k114*a14,K111-k114為權重,取值范圍為0-1,且k111+k112+k113+k114=1。三級指標取值通過聚類分析,統計計算和歸一化處理得到。3.3評價模型與大數據聚類分析。3.3.1指標模型。⑴關注度指數關注度指數包括搜索指數和影響力指數。搜索指數和影響力指數的計算也有較為復雜的數據處理、分析建模過程。如百度指數a11的取值計算,以公共政策的覆蓋范圍為基礎,圍繞政策的前后一段時間區間,以網民在百度的搜索量為數據基礎,以建立的公共政策知識庫關鍵詞為統計對象,分析并計算出各個關鍵詞在百度網頁搜索中搜索頻次,并進行加權求和。360指數a12、微指數a13、騰訊指數a14都可以用類似的方法確定。影響力指數主要關注公共政策的、轉發、瀏覽、評論情況。通過分析公共政策后一段時間,微博、論壇、微信公眾號、貼吧、博客、手機APP等關注的程度,包括對關鍵信息的搜索量、相關網頁點擊數、轉發數、瀏覽數、評價數、關注數等分析,確定影響力指數[5]。⑵輿情評價指數輿情評價指數[3]是一個直接反映網民對政策評估的指標,權重系數高于關注度。強相關主要是采集數據與主題相關程度更加高,如直接對公共政策進行評價或有多關鍵詞同時出現;弱相關主要是有關鍵詞出現,但頻度、數量較少,與主題的相關程度相對較弱。強相關的權重明顯要高于弱相關權重。三級指標的處理采用聚類分析和分類分析結合的方法,以論壇評價指數b12、b22為例,首先是語料選擇,采用前面敘述的方式,建立關鍵詞知識庫,依照知識庫關鍵詞,對預處理后的各類論壇原帖及跟帖進行分詞處理、智能過濾,形成供分析的語料數據集市。采用基于劃分的Kmeans聚類算法和基于層次的聚類算法對文本進行聚類,形成評價話題聚類。由于b12、b22指數值在0-100之間取值,取值按照正面評價*權重-負面評價*權重-中性評價*權重得到。其他輿情評價指數的計算類似。圖2為輿情評價指數聚類、分類處理流程示意圖。⑶利益相關者評價指數利益相關者輿情評價指數計算與輿情評價指數基本相同,只是對數據集市的內容進行進一步定向篩選,根據利益相關者知識庫關鍵詞,通過IP地址分析、文本分詞和語義分析,在已經建立的數據集市中建立子集,子集作為利益相關者輿情分析基本語料數據,進行上述類似建模分析。利益相關者評價指數權重取值更高。⑷網上調查評價網上調查由政策者來組織,通過政府網站或其他綜合網站進行數據收集。網上調查的指標設計可以更加具有針對性,但參與人數、填報數據質量、不真實數據等也要認真考慮。

4結束語

應用互聯網大數據對公共政策實施評估,是新的研究領域,具有直面利益相關者的優點。本文提出的指數模型對公共政策實施大數據評估具有一定參考作用,但是數據采集質量難以保證,各類權重的使用具有隨意性。所以,傳統定性分析、傳統定量分析、基于互聯網的大數據分析應當互相融合,取長補短,使公共政策實施的評估更加科學合理。

參考文獻:

[1]魏航,王建冬,童楠楠.基于大數據的公共政策評估研究:回顧與建議[J].電子政務E-GOVERNMENT,2016.1:11-17

[2]高峰.政策評估的通用模型研究[J].科技管理研究,2015.24:35-39

[3]連芷萱,蘭月新,夏一雪,劉茉,張雙獅.面向大數據的網絡輿情多維動態分類與預測模型研究[J].情報雜志,2018.5:123-133

[4]張達剛,陳海寧,陳華,張光怡.環境評估大數據管理平臺初探及技術綜述[J].計算機系統應用,2019.28(4):205-211

[5]文馨,陳能成,肖長江.基于SparkGraphX和社交網絡大數據的用戶影響力分析[J].計算機應用研究,2018.35(3):830-834

作者:楊志新 高翔 張慶 張狄 單位:1.湖南省政府發展研究中心 2.長沙市天心閣大數據研究院