天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的戰(zhàn)略性新興產(chǎn)業(yè)科技報(bào)告推薦研究

發(fā)布時(shí)間:2020-07-21 08:58
【摘要】:科技創(chuàng)新是戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展的核心推動(dòng)力,而科技創(chuàng)新的基本前提是要充分、合理的利用現(xiàn)有的科技信息資源,就必須做好科研成果的轉(zhuǎn)化?萍紙(bào)告作為一種特殊的科技文獻(xiàn),主要記錄和描述科研項(xiàng)目的過(guò)程和結(jié)果,對(duì)于科技創(chuàng)新具有非常重要的參考價(jià)值?萍紙(bào)告是科研工作者所承擔(dān)的實(shí)驗(yàn)、科研等工作的全過(guò)程及取得的成果,是按照相關(guān)格式和標(biāo)準(zhǔn)編寫(xiě)而成,能夠如實(shí)反映所承擔(dān)科研項(xiàng)目所采用的技術(shù)、方法及過(guò)程中總結(jié)的經(jīng)驗(yàn)、教訓(xùn)的科技文獻(xiàn)。2014年,隨著國(guó)家科技報(bào)告服務(wù)系統(tǒng)(NSTRS)正式向社會(huì)大眾提供科技報(bào)告服務(wù),標(biāo)志著我國(guó)科技報(bào)告工作步入了新階段。截至2018年4月2日,國(guó)家科技報(bào)告服務(wù)系統(tǒng)共收錄了 123635份科技報(bào)告,用戶可以在系統(tǒng)中進(jìn)行搜索,以獲取符合自身科研興趣的科技報(bào)告。這雖然能夠從某種程度上滿足用戶的需求,但用戶如何從大量的科技報(bào)告中獲取自己想要的報(bào)告成為隨之而來(lái)的難題,為用戶推薦滿足其實(shí)際需求的科技報(bào)告成為接下來(lái)要解決的問(wèn)題。鑒于此,在檢索和閱讀大量國(guó)內(nèi)外相關(guān)文獻(xiàn)的基礎(chǔ)上,對(duì)各種推薦方法進(jìn)行深入學(xué)習(xí)和研究后,本文基于主題模型提出了以下三種推薦方法:第一,基于LDA模型的推薦,利用LDA主題模型完成主題抽取,再通過(guò)計(jì)算文檔主題之間的相似度完成推薦。該方法不僅實(shí)現(xiàn)了詞頻空間上的降維,降低了計(jì)算的難度,還可以發(fā)現(xiàn)文檔間的潛在聯(lián)系及文檔內(nèi)各主題的概率分布。第二,基于CTM主題關(guān)聯(lián)模型的推薦,該方法在兼顧LDA模型的同時(shí),通過(guò)發(fā)現(xiàn)各主題在不同文檔中的潛在聯(lián)系,最后將主題間關(guān)聯(lián)度較大的文檔推薦給用戶,彌補(bǔ)了 LDA主題模型傾向于推薦某一主題范圍文檔的問(wèn)題,提高了推薦效果,并通過(guò)實(shí)證驗(yàn)證了 CTM關(guān)聯(lián)模型的優(yōu)越性。第三,基于用戶主題興趣的推薦,通過(guò)獲取用戶歷史行為記錄,提取用戶興趣特征,構(gòu)建用戶-文檔-主題間的關(guān)系,再計(jì)算文檔主題與用戶興趣主題之間的相似度,最后按照相似度排序?qū)⑾嗨贫容^大的前m篇文檔推薦給用戶,從而完成推薦過(guò)程。該方法在主題模型的基礎(chǔ)上加入了用戶興趣,使得推薦結(jié)果更貼合用戶實(shí)際需求,進(jìn)而提升推薦效果。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:G350
【圖文】:

概率分布,多項(xiàng)式分布,圖模型,數(shù)學(xué)基礎(chǔ)


wn)邋=邋p(d)Y1p(.z\d)p(wn\z)邐(2.1)逡逑圖2.1為PLSI圖模型,d表示某文檔,z表示潛在變量,w表示文檔d中的單詞。逡逑N表示文檔中的單詞個(gè)數(shù),M為文檔數(shù)。逡逑d邋邐z邐w邋N逡逑M逡逑圖2.1邋PLSI的圖模型逡逑與LSI模型相比,PLSI中文本的多項(xiàng)式分布假設(shè)更加符合文本特性,且具有更逡逑堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。然而,PLSI也存在一些缺陷,每次有新文檔是都需要重復(fù)訓(xùn)練,逡逑因此在大數(shù)據(jù)下PLSI的表現(xiàn)是低效的,易產(chǎn)生過(guò)度擬合問(wèn)題。逡逑2.1.3邋LDA主題模型逡逑LDA主題模型,即潛在狄利克雷分配模型,是廣泛應(yīng)用于文本挖掘和自然語(yǔ)言逡逑處理研宄中最流行的生成主題模型。其主要思想是:使用隱含主題的隨機(jī)混合來(lái)表逡逑示文檔,每個(gè)隱含主題則有在詞典空間的概率分布來(lái)表示,不同的主題在詞典空間逡逑的分布也不同[41]。LDA模型能夠很好的模擬人構(gòu)思創(chuàng)作整篇文章的過(guò)程,它會(huì)先逡逑為文章擬好若干不同的主題

概率分布,圖模型,參數(shù)推理,近似推理


wn)邋=邋p(d)Y1p(.z\d)p(wn\z)邐(2.1)逡逑圖2.1為PLSI圖模型,d表示某文檔,z表示潛在變量,w表示文檔d中的單詞。逡逑N表示文檔中的單詞個(gè)數(shù),M為文檔數(shù)。逡逑d邋邐z邐w邋N逡逑M逡逑圖2.1邋PLSI的圖模型逡逑與LSI模型相比,PLSI中文本的多項(xiàng)式分布假設(shè)更加符合文本特性,且具有更逡逑堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)。然而,PLSI也存在一些缺陷,每次有新文檔是都需要重復(fù)訓(xùn)練,逡逑因此在大數(shù)據(jù)下PLSI的表現(xiàn)是低效的,易產(chǎn)生過(guò)度擬合問(wèn)題。逡逑2.1.3邋LDA主題模型逡逑LDA主題模型,即潛在狄利克雷分配模型,是廣泛應(yīng)用于文本挖掘和自然語(yǔ)言逡逑處理研宄中最流行的生成主題模型。其主要思想是:使用隱含主題的隨機(jī)混合來(lái)表逡逑示文檔,每個(gè)隱含主題則有在詞典空間的概率分布來(lái)表示,不同的主題在詞典空間逡逑的分布也不同[41]。LDA模型能夠很好的模擬人構(gòu)思創(chuàng)作整篇文章的過(guò)程,它會(huì)先逡逑為文章擬好若干不同的主題

相似度,常用方法,相關(guān)系數(shù),算法


標(biāo)用戶U的k個(gè)最近鄰居N(c)=邋{Cl,C2,...cfc),接著計(jì)算目標(biāo)用戶與其他用戶之間逡逑的相似度,然后選擇相似度較大的前k個(gè)用戶作為目標(biāo)用戶的最近鄰居。協(xié)同過(guò)濾逡逑算法尋找鄰居的過(guò)程如圖2.3所示:尋找用戶A的最近鄰居,通過(guò)計(jì)算用戶A與其逡逑他用戶間的相似度,則與A相似度較大的前5位用戶被認(rèn)為是最近鄰居。逡逑Q邋。_逡逑CX邐'逡逑0。逡逑圖2.3發(fā)現(xiàn)最近鄰居過(guò)程逡逑基于CF算法中用來(lái)計(jì)算相似度的常用方法主要有Pearson相關(guān)系數(shù)相似度、余逡逑弦相似度、修正的余弦相似度。逡逑①皮爾森相關(guān)系數(shù)逡逑Pearson系數(shù)是描述兩個(gè)用戶間的關(guān)聯(lián)程度。如果我們用Zix;?表示用戶i和用戶逡逑j對(duì)各項(xiàng)目的共同評(píng)分集合,那么sim(i,j)表示這兩位用戶之間的關(guān)聯(lián)度,計(jì)算公式逡逑如下:逡逑sim(i,j)邋=邐(2.3)逡逑JZcElixj(^i,c ̄"邋Ri)邋-yj^ce邋hxj(Rj,c ̄邋Rj)逡逑其中,是用戶i對(duì)項(xiàng)目c的評(píng)分,r停綾硎居沒(méi)В楹陀沒(méi)В旮髯遠(yuǎn)韻钅科婪皺義系木。辶x希保靛義

本文編號(hào):2764201

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2764201.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f482b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com