基于Simhash和CNN的相似新聞推薦
發(fā)布時(shí)間:2021-07-10 11:01
在這個(gè)信息化和網(wǎng)絡(luò)數(shù)字化即將到來的信息時(shí)代,互聯(lián)網(wǎng)上的數(shù)據(jù)和信息每天都在海量地增長,各種信息的過載使得用戶無法快速、準(zhǔn)確地獲取自己最關(guān)心的內(nèi)容,增加了用戶獲取信息時(shí)的時(shí)間和精力成本。于是在基于內(nèi)容的新聞推薦領(lǐng)域,相似文本檢測(cè)有著重要的應(yīng)用。在傳統(tǒng)的方法中,一般基于文本關(guān)鍵詞的統(tǒng)計(jì)信息進(jìn)行推薦,而忽略了自然語言的語義信息相似性。隨著幾年來機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的興起,自然語言處理技術(shù)的發(fā)展,尤其是詞向量技術(shù)在文本的語義信息表示上的突破,使得文本相似度的檢測(cè)不再局限于統(tǒng)計(jì)理論。然而,在海量文本的相似度檢測(cè)中,深度學(xué)習(xí)提升了結(jié)果的準(zhǔn)確性,卻也失去了傳統(tǒng)方法速度與需要的計(jì)算資源少的優(yōu)勢(shì)。因此,為了在海量新聞的相似推薦中,保證提高準(zhǔn)確性的同時(shí),減少在時(shí)間與計(jì)算資源上的消耗,本文研究出將Simhash與卷積神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的相似新聞推薦算法。主要思想是首先應(yīng)用Simhash算法進(jìn)行相似文本的初步選擇,之后再應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN:Convolution Neural Network)算法在初選的文本中進(jìn)行準(zhǔn)確度更高的相似文本推薦。主要的研究工作由三部分組成。(1)在傳統(tǒng)的Simhash方法的基礎(chǔ)上...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖
電子科技大學(xué)碩士學(xué)位論文10根據(jù)以下公式(2-4),我們可以通過微分計(jì)算出任一背景詞向量(=1,…,2)的梯度,如公式(2-5):log(∣)=log(∑exp()∈)(2-4)log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈(2-5)其他詞向量的梯度同理可得。在實(shí)際應(yīng)用中,一般使用CBOW的背景詞向量作為一個(gè)詞的詞向量表示。(2)Skip-GramSkip-Gram即跳字模型的網(wǎng)絡(luò)結(jié)構(gòu)與CBOW類似,如圖2-2所示。其核心思想為根據(jù)當(dāng)前中心詞來預(yù)測(cè)中心詞的上下文的詞,與CBOW模型正相反。圖2-2Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖
電子科技大學(xué)碩士學(xué)位論文12圖2-3DM模型網(wǎng)絡(luò)結(jié)構(gòu)圖在PV-DM模型中,用矩陣D的某一列來代表一個(gè)句子,用矩陣W的某一列來表示一個(gè)詞。模型訓(xùn)練時(shí)固定滑動(dòng)窗口的長度,在一個(gè)句子中進(jìn)行滑動(dòng)采樣來產(chǎn)生訓(xùn)練集,隨機(jī)選擇其中一個(gè)詞作為預(yù)測(cè)詞,其他為輸入詞。將句子的句向量和輸入詞的詞向量融合成為一個(gè)新的向量,一般是求平均或者累加操作,以此來預(yù)測(cè)當(dāng)前詞。同一個(gè)句子的訓(xùn)練中句向量會(huì)進(jìn)行多次訓(xùn)練,它的作用相當(dāng)于這一個(gè)句子的主題表征。句向量的計(jì)算過程需要保持除了句向量矩陣D中的參數(shù)外,其他參數(shù)不變,使用隨機(jī)梯度下降法更新句向量直至收斂。4)PV-DBOWPV-DBOW[26](DistributedBagofWordsversionofParagraphVector)模型是另一個(gè)用于訓(xùn)練句向量的模型,結(jié)構(gòu)與Word2Vec中的Skip-Gram模型相似,該模型將句向量矩陣作為輸入,直接預(yù)測(cè)從文本中隨機(jī)選擇的一個(gè)詞。具體步驟是在每一次迭代更新時(shí),基于一個(gè)隨機(jī)窗口隨機(jī)采集一個(gè)單詞進(jìn)行預(yù)測(cè)分類,即以句向量作為模型的輸入去做詞的分類。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-4所示:圖2-4DBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
[2]一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計(jì)算機(jī)學(xué)報(bào). 2011(05)
本文編號(hào):3275794
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖
電子科技大學(xué)碩士學(xué)位論文10根據(jù)以下公式(2-4),我們可以通過微分計(jì)算出任一背景詞向量(=1,…,2)的梯度,如公式(2-5):log(∣)=log(∑exp()∈)(2-4)log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈(2-5)其他詞向量的梯度同理可得。在實(shí)際應(yīng)用中,一般使用CBOW的背景詞向量作為一個(gè)詞的詞向量表示。(2)Skip-GramSkip-Gram即跳字模型的網(wǎng)絡(luò)結(jié)構(gòu)與CBOW類似,如圖2-2所示。其核心思想為根據(jù)當(dāng)前中心詞來預(yù)測(cè)中心詞的上下文的詞,與CBOW模型正相反。圖2-2Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖
電子科技大學(xué)碩士學(xué)位論文12圖2-3DM模型網(wǎng)絡(luò)結(jié)構(gòu)圖在PV-DM模型中,用矩陣D的某一列來代表一個(gè)句子,用矩陣W的某一列來表示一個(gè)詞。模型訓(xùn)練時(shí)固定滑動(dòng)窗口的長度,在一個(gè)句子中進(jìn)行滑動(dòng)采樣來產(chǎn)生訓(xùn)練集,隨機(jī)選擇其中一個(gè)詞作為預(yù)測(cè)詞,其他為輸入詞。將句子的句向量和輸入詞的詞向量融合成為一個(gè)新的向量,一般是求平均或者累加操作,以此來預(yù)測(cè)當(dāng)前詞。同一個(gè)句子的訓(xùn)練中句向量會(huì)進(jìn)行多次訓(xùn)練,它的作用相當(dāng)于這一個(gè)句子的主題表征。句向量的計(jì)算過程需要保持除了句向量矩陣D中的參數(shù)外,其他參數(shù)不變,使用隨機(jī)梯度下降法更新句向量直至收斂。4)PV-DBOWPV-DBOW[26](DistributedBagofWordsversionofParagraphVector)模型是另一個(gè)用于訓(xùn)練句向量的模型,結(jié)構(gòu)與Word2Vec中的Skip-Gram模型相似,該模型將句向量矩陣作為輸入,直接預(yù)測(cè)從文本中隨機(jī)選擇的一個(gè)詞。具體步驟是在每一次迭代更新時(shí),基于一個(gè)隨機(jī)窗口隨機(jī)采集一個(gè)單詞進(jìn)行預(yù)測(cè)分類,即以句向量作為模型的輸入去做詞的分類。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-4所示:圖2-4DBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍. 計(jì)算機(jī)科學(xué). 2013(12)
[2]一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計(jì)算機(jī)學(xué)報(bào). 2011(05)
本文編號(hào):3275794
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3275794.html
最近更新
教材專著