新聞評(píng)估系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-04-24 07:03
【摘要】:資訊閱讀類終端給用戶的獲取知識(shí)和信息以及傳播觀點(diǎn)提供了很大的便利,通過這種方式閱讀資訊不僅方便快捷而且不受時(shí)間地點(diǎn)的限制。這類資訊閱讀類客戶端的發(fā)展的同時(shí),也帶動(dòng)了各種形式的媒體的發(fā)展,從而極大程度上拓展了客戶端文章的來源。文章來源的豐富,一方面帶來了信息量的增加,另一方面也給文章質(zhì)量的把控增加了難度。所以很容易會(huì)出現(xiàn)“標(biāo)題黨”、“低俗”、“虛假內(nèi)容”等情況影響用戶的體驗(yàn)的情況。用戶每天花費(fèi)在閱讀資訊內(nèi)容上的時(shí)間比較有限,所以在面對(duì)海量新聞文章時(shí)更好的做法是優(yōu)先推薦相對(duì)熱門、內(nèi)容相對(duì)比較好能夠吸引用戶的新聞文章。因此,本文從熱點(diǎn)話題挖掘和文章評(píng)估的兩個(gè)角度展開研究,并且在研究研究過程中搭建新聞評(píng)估系統(tǒng)。本文將系統(tǒng)的介紹新聞評(píng)估系統(tǒng)的構(gòu)建過程。首先,通過對(duì)熱點(diǎn)話題挖掘和文章評(píng)估的研究意義和研究現(xiàn)狀的分析,引出了新聞評(píng)估系統(tǒng)中的研究?jī)?nèi)容。隨后,對(duì)新聞評(píng)估系統(tǒng)展開業(yè)務(wù)分析,明確系統(tǒng)的功能與性能需求,即針對(duì)每日新增的海量文章數(shù)據(jù),能夠收集、處理、整合好不同的特征數(shù)據(jù),支持相關(guān)算法模型的使用,并且可以根據(jù)需求更新、恢復(fù)算法模型,最終通過服務(wù)的方式將評(píng)估的結(jié)果提供,為用戶提供從數(shù)據(jù)收集整理、熱點(diǎn)新聞挖掘、新聞評(píng)估以及評(píng)估結(jié)果展現(xiàn)服務(wù)的一站式服務(wù)。接下來,圍繞需求分析的結(jié)果闡述新聞評(píng)估系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)過程,其中熱點(diǎn)話題挖掘和新聞評(píng)估是本文中研究重點(diǎn)。熱點(diǎn)文章挖掘主要是采用了主題模型,但是在實(shí)際應(yīng)用過程中主題模型對(duì)某些文章的挖掘效果不如人意。本文基于實(shí)際的應(yīng)用場(chǎng)景,從業(yè)務(wù)的角度出發(fā),結(jié)合生產(chǎn)環(huán)境中可以利用到的文章特征屬性優(yōu)化主題模型的挖掘效果。對(duì)于新聞評(píng)估,系統(tǒng)主要把評(píng)估設(shè)定為一個(gè)多分類問題,文中主要采取GBDT和XGBoost算法做為評(píng)估模型,通過實(shí)驗(yàn)對(duì)比優(yōu)化和相關(guān)測(cè)試,把新聞評(píng)估系統(tǒng)的效果進(jìn)行提升。系統(tǒng)將新聞評(píng)估的結(jié)果通過Thrift服務(wù)的形式進(jìn)行提供,并且為了能夠更好的提供服務(wù),設(shè)計(jì)了多層Thrift服務(wù),包括:數(shù)據(jù)服務(wù)、調(diào)度服務(wù)、調(diào)度監(jiān)控服務(wù)。
【圖文】:
簡(jiǎn)介let Allocation)是一種文檔生成模型。主題又對(duì)應(yīng)著不同的詞。一篇文章的主題,然后再在這個(gè)主題下以一定的的第一個(gè)詞。不斷重復(fù)這個(gè)過程,就 所示。當(dāng)然這里假定詞與詞之間是沒是這樣的:匯的分布題的分布章的詞匯個(gè)數(shù) N的詞匯個(gè)數(shù)小于 N 執(zhí)行第 5 步,否則分布隨機(jī)生成一個(gè)主題,通過該主題執(zhí)行第 4 步
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文式(TProtocol)和采用什么方式進(jìn)行數(shù)據(jù)傳輸(TTran輸數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)(struct) 和傳輸數(shù)據(jù)的業(yè)務(wù)邏輯境快速的構(gòu)建相應(yīng)的代碼,并且通過自己內(nèi)部的序簡(jiǎn)化和壓縮提高高并發(fā)、大型系統(tǒng)中數(shù)據(jù)交互的成 的整體架構(gòu),,分為 6 個(gè)部分:(1)業(yè)務(wù)邏輯實(shí)現(xiàn);的 Service ;(3)執(zhí)行讀寫操作的計(jì)算結(jié)果;(4據(jù)傳輸方式;(6)底層 I/O 通信。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G210.7;TP391.1
本文編號(hào):2638666
【圖文】:
簡(jiǎn)介let Allocation)是一種文檔生成模型。主題又對(duì)應(yīng)著不同的詞。一篇文章的主題,然后再在這個(gè)主題下以一定的的第一個(gè)詞。不斷重復(fù)這個(gè)過程,就 所示。當(dāng)然這里假定詞與詞之間是沒是這樣的:匯的分布題的分布章的詞匯個(gè)數(shù) N的詞匯個(gè)數(shù)小于 N 執(zhí)行第 5 步,否則分布隨機(jī)生成一個(gè)主題,通過該主題執(zhí)行第 4 步
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文式(TProtocol)和采用什么方式進(jìn)行數(shù)據(jù)傳輸(TTran輸數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)(struct) 和傳輸數(shù)據(jù)的業(yè)務(wù)邏輯境快速的構(gòu)建相應(yīng)的代碼,并且通過自己內(nèi)部的序簡(jiǎn)化和壓縮提高高并發(fā)、大型系統(tǒng)中數(shù)據(jù)交互的成 的整體架構(gòu),,分為 6 個(gè)部分:(1)業(yè)務(wù)邏輯實(shí)現(xiàn);的 Service ;(3)執(zhí)行讀寫操作的計(jì)算結(jié)果;(4據(jù)傳輸方式;(6)底層 I/O 通信。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G210.7;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 陸偉;張曉娟;;基于主題與用戶偏好分析的查詢推薦研究[J];情報(bào)學(xué)報(bào);2012年12期
2 邢東山,沈鈞毅,宋擒豹;從Web日志中挖掘用戶瀏覽偏愛路徑[J];計(jì)算機(jī)學(xué)報(bào);2003年11期
3 劉洪濤;肖開洲;吳渝;黃智興;;帶輿論評(píng)價(jià)的引文網(wǎng)絡(luò)構(gòu)建與主題發(fā)現(xiàn)[J];情報(bào)學(xué)報(bào);2011年04期
相關(guān)碩士學(xué)位論文 前3條
1 王博遠(yuǎn);基于用戶交互關(guān)系的用戶創(chuàng)作內(nèi)容質(zhì)量評(píng)估[D];北京郵電大學(xué);2014年
2 羅樂;基于潛在語義分析的文本分類算法研究[D];西南大學(xué);2013年
3 袁堂朋;基于用戶行為模式的Web日志挖掘模型的研究與實(shí)現(xiàn)[D];南京郵電大學(xué);2013年
本文編號(hào):2638666
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/2638666.html
最近更新
教材專著