• <menu id="o88ui"><tt id="o88ui"></tt></menu>

    數據庫研究 | CND中文新聞數據庫

    2019-05-08
    萌泰科技 張煦曄
    摘要:CND中文新聞數據庫是萌泰數據聯合南京大學新聞傳播學院合作研發的國內最大的面向社會科學研究的中文新聞數據庫。數據庫采集來自互聯網上公開的門戶網站、報紙、公眾號和App等不同數據來源的中文新聞,并提取新聞的時間、空間、人物、機構、事件、主題、情感、影響力、詞頻等關鍵指標,形成結構化的可供分析研究的數據庫
    CND中文新聞數據庫是萌泰數據聯合南京大學新聞傳播學院合作研發的國內最大的面向社會科學研究的中文新聞數據庫。數據庫采集來自互聯網上公開的門戶網站、報紙、公眾號和App等不同數據來源的中文新聞,并提取新聞的時間、空間、人物、機構、事件、主題、情感、影響力、詞頻等關鍵指標,形成結構化的可供分析研究的數據庫

    隨著21世紀的到來,人類社會已經逐漸進入大數據時代,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!比蛎刻焐傻臄祿窟_到2.5EB,相當于10億張容量為25GB的藍光光盤,而且其增長勢頭在不斷加快。令人吃驚的是,人類迄今為止生成的數據中,有90%是在近兩年內產生的。
    這些數據中,其中有一類數據記錄了我們人類社會的所有發展過程,是社會發展和變遷的見證者,它就是“新聞”。目前我國每天產生的文本新聞(含各類資訊)的數量可能超過數十萬篇,如此數量規模的新聞文本中蘊含了大量的信息和知識。如何將這些有價值的新聞文本存儲起來,并從中提取出有價值的信息和知識是一個巨大挑戰。CND(Chinese News Database)項目正是在這一背景下誕生。CND項目由上海萌泰數據科技股份有限公司聯合南京大學新聞傳播學院共同發起,致力于構建全球最大的中文新聞數據庫。CND通過分布式爬蟲技術實時監測來自中國和世界各地的公布在互聯網上的中文新聞媒體數據,包括門戶網站、報紙、公眾號、App社交媒體等,最終建立一個能夠覆蓋全媒體、全領域、全時域的中文新聞開放數據服務平臺,為相關領域的學者、媒體機構、政府機構、企業等用戶提供新聞數據可視化分析和研究服務,幫助用戶更好地洞察和了解社會現象,市場需求以及政治、經濟、社會變遷的趨勢。 
    CND中文新聞數據庫主要提供以下服務:

    (1)中文新聞數據檢索

    CND項目一期采集了國家網信辦公布的可供新聞轉載的380家新聞出版單位的所有互聯網公開的數據,目前數量總量超過5000萬條,涉及媒體來源600余家。二期將計劃采集國內主流1500家網站數據以及主要報紙,公眾號和APP的新聞數據。CND項目采用Hadoop平臺作為文本存儲的基礎架構,并基于分布式搜索引擎對文本提供索引。

    (2)可視化分析

    CND項目集成了一款文本分析與挖掘工具——銳研·云質析系統。用戶可以將搜索的文本內容添加到自定義的文本庫,通過中文自然語言處理引擎,結合系統和用戶自定義的詞匯字典庫進行各類詞頻分析,文本分類、文本聚類、情感分析、主題分析等。

    (3)新聞指數

    CND項目還提供了一個指數查詢工具——銳研新聞指數(RNI, Ring News Index)。新聞指數可以提供用戶檢索某一個關鍵詞或關鍵詞組合在一定時間范圍內的出現詞頻、新聞數量、新聞文本情感均值、新聞傳播影響力均值等。這些指標可以按天、月、年時間進行可視化展現,指數結果也可以進行導出,以供進一步分析研究。
    CND中文新聞數據庫是萌泰銳研社會科學專題數據庫平臺(RingData.NET)中最重要的專題數據庫之一,具有獨特的社會應用價值。CND項目將通過持續投入,希望成為學術研究領域最大的中文新聞數據庫。CND的未來發展將從以下幾個方面著手:

    (1)知識挖掘

    新聞文本中蘊含了大量有待挖掘的信息,CND將致力于對文本內容進行深度挖掘,提取更多有意義的變量,如事件分類、人物角色、觀點觀念、行為方式、態度傾向等等。通過構建知識網絡,還可以分析各類信息主體之間的關聯關系。CND項目將可能構建一個潛在的人類社會知識網絡體系。

    (2)內容生產

    新聞行業從根本上說是內容產業,而數據庫本身是內容整合的有效工具,是數字內容產業的價值體現。整合是結構的優化,流程的再造,是力量的倍增器。以數據庫為核心的媒體資源整合,是提高新聞媒體競爭力的重要手段。其中“數據新聞”、“算法新聞”或“人工智能新聞”是一個方向。這類新聞通常是基于數據的抓取、挖掘、統計、分析和可視化呈現的新型新聞報道方式,是隨著大數據和人工智能時代的到來出現的一種新型報道形態。這在一定程度上可能改變傳統新聞生產流程?!按髷祿笔剐侣剤蟮栏呖陀^性和說服力,通過數據,可以深入發掘事物之間的深層聯系并預測事物發展的趨勢?!坝脭祿f話”、“用數據講新聞”是大數據時代新聞報道形式出現的一大新的亮點。

    (3)科研和社會服務

    一方面,數據庫本身就是媒體。在統一的數據庫平臺上,新聞資源得以有效的整合。新聞數據庫對外開放,通過信息檢索和分析工具,可以實現信息的增值。另一方面,數據庫是朝陽產業,具有廣闊的發展前景。在新聞媒體數據庫的建設過程中,要注意分析受眾的需求,根據不同用戶、不同行業的特點,開發特色的數據庫產品,最大限度地滿足社會的需求。
    CND中文新聞數據庫能夠及時采集、存儲各種新聞信息,并提供各類可視化分析工具,可以為政府決策、企業經營、學術科研、媒體創新等方面提供數據支撐。隨著中文新聞數據庫規模的不斷擴充和人工智能技術的不斷升級,相信在不久的將來,CND中文新聞數據庫項目的價值將得到進一步的彰顯。
      發表評論
      評論通過審核后顯示。
      彩神8官网