天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Simhash和CNN的相似新聞推薦

發(fā)布時(shí)間:2021-07-10 11:01
  在這個(gè)信息化和網(wǎng)絡(luò)數(shù)字化即將到來的信息時(shí)代,互聯(lián)網(wǎng)上的數(shù)據(jù)和信息每天都在海量地增長,各種信息的過載使得用戶無法快速、準(zhǔn)確地獲取自己最關(guān)心的內(nèi)容,增加了用戶獲取信息時(shí)的時(shí)間和精力成本。于是在基于內(nèi)容的新聞推薦領(lǐng)域,相似文本檢測(cè)有著重要的應(yīng)用。在傳統(tǒng)的方法中,一般基于文本關(guān)鍵詞的統(tǒng)計(jì)信息進(jìn)行推薦,而忽略了自然語言的語義信息相似性。隨著幾年來機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的興起,自然語言處理技術(shù)的發(fā)展,尤其是詞向量技術(shù)在文本的語義信息表示上的突破,使得文本相似度的檢測(cè)不再局限于統(tǒng)計(jì)理論。然而,在海量文本的相似度檢測(cè)中,深度學(xué)習(xí)提升了結(jié)果的準(zhǔn)確性,卻也失去了傳統(tǒng)方法速度與需要的計(jì)算資源少的優(yōu)勢(shì)。因此,為了在海量新聞的相似推薦中,保證提高準(zhǔn)確性的同時(shí),減少在時(shí)間與計(jì)算資源上的消耗,本文研究出將Simhash與卷積神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的相似新聞推薦算法。主要思想是首先應(yīng)用Simhash算法進(jìn)行相似文本的初步選擇,之后再應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN:Convolution Neural Network)算法在初選的文本中進(jìn)行準(zhǔn)確度更高的相似文本推薦。主要的研究工作由三部分組成。(1)在傳統(tǒng)的Simhash方法的基礎(chǔ)上... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:78 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Simhash和CNN的相似新聞推薦


CBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)結(jié)構(gòu)圖,模型,向量,中心詞


電子科技大學(xué)碩士學(xué)位論文10根據(jù)以下公式(2-4),我們可以通過微分計(jì)算出任一背景詞向量(=1,…,2)的梯度,如公式(2-5):log(∣)=log(∑exp()∈)(2-4)log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈(2-5)其他詞向量的梯度同理可得。在實(shí)際應(yīng)用中,一般使用CBOW的背景詞向量作為一個(gè)詞的詞向量表示。(2)Skip-GramSkip-Gram即跳字模型的網(wǎng)絡(luò)結(jié)構(gòu)與CBOW類似,如圖2-2所示。其核心思想為根據(jù)當(dāng)前中心詞來預(yù)測(cè)中心詞的上下文的詞,與CBOW模型正相反。圖2-2Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)圖

網(wǎng)絡(luò)結(jié)構(gòu)圖,模型,向量,句子


電子科技大學(xué)碩士學(xué)位論文12圖2-3DM模型網(wǎng)絡(luò)結(jié)構(gòu)圖在PV-DM模型中,用矩陣D的某一列來代表一個(gè)句子,用矩陣W的某一列來表示一個(gè)詞。模型訓(xùn)練時(shí)固定滑動(dòng)窗口的長度,在一個(gè)句子中進(jìn)行滑動(dòng)采樣來產(chǎn)生訓(xùn)練集,隨機(jī)選擇其中一個(gè)詞作為預(yù)測(cè)詞,其他為輸入詞。將句子的句向量和輸入詞的詞向量融合成為一個(gè)新的向量,一般是求平均或者累加操作,以此來預(yù)測(cè)當(dāng)前詞。同一個(gè)句子的訓(xùn)練中句向量會(huì)進(jìn)行多次訓(xùn)練,它的作用相當(dāng)于這一個(gè)句子的主題表征。句向量的計(jì)算過程需要保持除了句向量矩陣D中的參數(shù)外,其他參數(shù)不變,使用隨機(jī)梯度下降法更新句向量直至收斂。4)PV-DBOWPV-DBOW[26](DistributedBagofWordsversionofParagraphVector)模型是另一個(gè)用于訓(xùn)練句向量的模型,結(jié)構(gòu)與Word2Vec中的Skip-Gram模型相似,該模型將句向量矩陣作為輸入,直接預(yù)測(cè)從文本中隨機(jī)選擇的一個(gè)詞。具體步驟是在每一次迭代更新時(shí),基于一個(gè)隨機(jī)窗口隨機(jī)采集一個(gè)單詞進(jìn)行預(yù)測(cè)分類,即以句向量作為模型的輸入去做詞的分類。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2-4所示:圖2-4DBOW模型網(wǎng)絡(luò)結(jié)構(gòu)圖

【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍.  計(jì)算機(jī)科學(xué). 2013(12)
[2]一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉.  計(jì)算機(jī)學(xué)報(bào). 2011(05)



本文編號(hào):3275794

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3275794.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ea033***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产精品美女午夜福利| 午夜福利国产精品不卡| 国语对白刺激高潮在线视频| 伊人久久青草地综合婷婷| 免费在线播放一区二区| 日韩欧美91在线视频| 亚洲国产色婷婷久久精品| 亚洲国产精品久久网午夜| 亚洲一区二区福利在线| 老鸭窝老鸭窝一区二区 | 中文字幕亚洲在线一区| 国产精品福利一二三区| 国产高清在线不卡一区| 91偷拍与自偷拍精品| 日韩和欧美的一区二区三区| 九九热这里只有精品哦| 欧美六区视频在线观看| 国产精品十八禁亚洲黄污免费观看| 麻豆在线观看一区二区| 偷拍美女洗澡免费视频| 在线免费看国产精品黄片| 午夜亚洲精品理论片在线观看| 黄片免费在线观看日韩| 午夜视频成人在线观看| 国产又粗又爽又猛又黄的 | 日本欧美视频在线观看免费 | 久久99精品日韩人妻| 欧美午夜一区二区福利视频| 免费性欧美重口味黄色| 精品人妻精品一区二区三区| 欧洲一区二区三区自拍天堂| 污污黄黄的成年亚洲毛片| 少妇激情在线免费观看| 亚洲精品美女三级完整版视频| 国产成人精品视频一二区| 五月天婷亚洲天婷综合网| 午夜视频成人在线免费| 日本不卡在线一区二区三区| 成人精品欧美一级乱黄| 国产精品一区二区三区欧美| 老富婆找帅哥按摩抠逼视频|