當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于Simhash和CNN的相似新聞推薦

發(fā)布時(shí)間：2021-07-10 11:01

　　在這個(gè)信息化和網(wǎng)絡(luò)數(shù)字化即將到來的信息時(shí)代,互聯(lián)網(wǎng)上的數(shù)據(jù)和信息每天都在海量地增長,各種信息的過載使得用戶無法快速、準(zhǔn)確地獲取自己最關(guān)心的內(nèi)容,增加了用戶獲取信息時(shí)的時(shí)間和精力成本。于是在基于內(nèi)容的新聞推薦領(lǐng)域,相似文本檢測有著重要的應(yīng)用。在傳統(tǒng)的方法中,一般基于文本關(guān)鍵詞的統(tǒng)計(jì)信息進(jìn)行推薦,而忽略了自然語言的語義信息相似性。隨著幾年來機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的興起,自然語言處理技術(shù)的發(fā)展,尤其是詞向量技術(shù)在文本的語義信息表示上的突破,使得文本相似度的檢測不再局限于統(tǒng)計(jì)理論。然而,在海量文本的相似度檢測中,深度學(xué)習(xí)提升了結(jié)果的準(zhǔn)確性,卻也失去了傳統(tǒng)方法速度與需要的計(jì)算資源少的優(yōu)勢。因此,為了在海量新聞的相似推薦中,保證提高準(zhǔn)確性的同時(shí),減少在時(shí)間與計(jì)算資源上的消耗,本文研究出將Simhash與卷積神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的相似新聞推薦算法。主要思想是首先應(yīng)用Simhash算法進(jìn)行相似文本的初步選擇,之后再應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)（CNN:Convolution Neural Network）算法在初選的文本中進(jìn)行準(zhǔn)確度更高的相似文本推薦。主要的研究工作由三部分組成。（1）在傳統(tǒng)的Simhash方法的基礎(chǔ)上...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：78 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)結(jié)構(gòu)圖,模型,向量,中心詞

電子科技大學(xué)碩士學(xué)位論文10根據(jù)以下公式（2-4），我們可以通過微分計(jì)算出任一背景詞向量(=1,…,2)的梯度，如公式（2-5）：log(∣)=log(∑exp()∈)（2-4）log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈（2-5）其他詞向量的梯度同理可得。在實(shí)際應(yīng)用中，一般使用CBOW的背景詞向量作為一個(gè)詞的詞向量表示。（2）Skip-GramSkip-Gram即跳字模型的網(wǎng)絡(luò)結(jié)構(gòu)與CBOW類似，如圖2-2所示。其核心思想為根據(jù)當(dāng)前中心詞來預(yù)測中心詞的上下文的詞，與CBOW模型正相反。圖2-2Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)結(jié)構(gòu)圖,模型,向量,句子

電子科技大學(xué)碩士學(xué)位論文12圖2-3DM模型網(wǎng)絡(luò)結(jié)構(gòu)圖在PV-DM模型中，用矩陣D的某一列來代表一個(gè)句子，用矩陣W的某一列來表示一個(gè)詞。模型訓(xùn)練時(shí)固定滑動(dòng)窗口的長度，在一個(gè)句子中進(jìn)行滑動(dòng)采樣來產(chǎn)生訓(xùn)練集，隨機(jī)選擇其中一個(gè)詞作為預(yù)測詞，其他為輸入詞。將句子的句向量和輸入詞的詞向量融合成為一個(gè)新的向量，一般是求平均或者累加操作，以此來預(yù)測當(dāng)前詞。同一個(gè)句子的訓(xùn)練中句向量會(huì)進(jìn)行多次訓(xùn)練，它的作用相當(dāng)于這一個(gè)句子的主題表征。句向量的計(jì)算過程需要保持除了句向量矩陣D中的參數(shù)外，其他參數(shù)不變，使用隨機(jī)梯度下降法更新句向量直至收斂。4）PV-DBOWPV-DBOW[26]（DistributedBagofWordsversionofParagraphVector）模型是另一個(gè)用于訓(xùn)練句向量的模型，結(jié)構(gòu)與Word2Vec中的Skip-Gram模型相似，該模型將句向量矩陣作為輸入，直接預(yù)測從文本中隨機(jī)選擇的一個(gè)詞。具體步驟是在每一次迭代更新時(shí)，基于一個(gè)隨機(jī)窗口隨機(jī)采集一個(gè)單詞進(jìn)行預(yù)測分類，即以句向量作為模型的輸入去做詞的分類。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-4所示：圖2-4DBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖

【參考文獻(xiàn)】：
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
[2]一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計(jì)算機(jī)學(xué)報(bào). 2011(05)

本文編號(hào)：3275794

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3275794.html

上一篇：基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究
下一篇：基于深度學(xué)習(xí)的通用目標(biāo)檢測方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Simhash和CNN的相似新聞推薦