天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

互聯(lián)網(wǎng)文本信息挖掘與個性化推薦的研究

發(fā)布時間:2018-02-25 01:08

  本文關(guān)鍵詞: 話題發(fā)現(xiàn) 自動摘要 聚類算法 協(xié)同過濾 個性化推薦 出處:《北京交通大學(xué)》2014年博士論文 論文類型:學(xué)位論文


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)站的普及以及大量文本數(shù)據(jù)的出現(xiàn),互聯(lián)網(wǎng)已經(jīng)成為了人們獲取信息資源的一條重要渠道。但是網(wǎng)絡(luò)數(shù)據(jù)成千上萬,一個人無論如何用多久的時間也不可能完成對整個互聯(lián)網(wǎng)的探索。因此簡化對網(wǎng)絡(luò)的探索過程,提高網(wǎng)絡(luò)信息的檢索效率就成為了當(dāng)前網(wǎng)絡(luò)時代的研究方向。好的信息挖掘方法可以提高人們的信息檢索效率,能夠提供準(zhǔn)確、及時、可靠的網(wǎng)絡(luò)信息匯總,提供適合人們閱讀的摘要。同時,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的網(wǎng)站出現(xiàn)了不需要人工搜索,就可獲得信息的新途徑,這些新途徑就是信息推薦。在合適的時機(jī),給合適的對象提供相關(guān)信息或相關(guān)產(chǎn)品推薦,能夠提升用戶瀏覽興趣,提高網(wǎng)站的服務(wù)體驗,并且增加用戶對網(wǎng)站的粘度。推薦方法是繼搜索引擎之后的又一大信息獲取方法,該方法在未來有著很大的應(yīng)用前景,不但對于互聯(lián)網(wǎng)新聞消息、相關(guān)文本推薦有幫助,而且在電子商務(wù)、公司產(chǎn)品推廣以及新產(chǎn)品擴(kuò)展和傳播等領(lǐng)域均具有重要的應(yīng)用價值。鑒于此,本論文結(jié)合交叉學(xué)科的研究方法,針對現(xiàn)有互聯(lián)網(wǎng)文本信息的特點提出網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)算法以及網(wǎng)絡(luò)自動摘要生成模型,并且通過研究網(wǎng)絡(luò)用戶之間的興趣聯(lián)系和用戶偏好進(jìn)而提出個性化推薦算法。本文分別從互聯(lián)網(wǎng)文本數(shù)據(jù)采集與處理、文本信息聚類算法、熱點信息挖掘、網(wǎng)絡(luò)新聞?wù)崛》椒、協(xié)同過濾推薦算法、基于社團(tuán)關(guān)系的信息推薦等方向和角度,對互聯(lián)網(wǎng)的文本數(shù)據(jù)挖掘及個性化推薦進(jìn)行了研究。 論文的主要研究內(nèi)容如下: 1.研究了互聯(lián)網(wǎng)文本信息采集與預(yù)處理技術(shù),中文分詞與聚類方法,并針對互聯(lián)網(wǎng)文本信息的特點,提出了一種網(wǎng)絡(luò)熱點事件的發(fā)現(xiàn)算法。該方法通過引入文本詞語的突發(fā)度量值,結(jié)合詞語位置對權(quán)重的影響因素,完善了詞語權(quán)重計算的準(zhǔn)確度。此外,本文提出一種基于預(yù)設(shè)密度的聚類算法,該算法通過以相似的文本為核心的類簇,獲得合理劃分的文本主題。從而在不需要事先指定事件數(shù)的情況下,自動發(fā)現(xiàn)該時間段內(nèi)的熱點事件。實驗結(jié)果表明,該算法在發(fā)現(xiàn)互聯(lián)網(wǎng)熱點事件的檢測中有較好的效果。 2.研究了對網(wǎng)絡(luò)文本信息自動生成摘要的方法。該方法使得文本信息得以壓縮,使用摘要的形式來表示文本,從而可以提供用戶快速獲取文本的主要內(nèi)容。通過分析了互聯(lián)網(wǎng)新聞自動摘要的特殊情況,針對多文本信息的摘要,提出了摘要主題的概念。局部主題就是在把互聯(lián)網(wǎng)新聞劃分成句子后,根據(jù)分層聚類形成的結(jié)果,產(chǎn)生的信息集合。其次,利用互聯(lián)網(wǎng)新聞常附有人工評論信息的條件,進(jìn)一步提高文本摘要的準(zhǔn)確度。通過將新聞?wù)募霸u論的語句映射為網(wǎng)絡(luò)節(jié)點,再引入網(wǎng)絡(luò)中分析節(jié)點權(quán)重的HITS算法,來計算處于不同位置的句子的影響力。根據(jù)評論信息對新聞?wù)恼Z句的影響程度,改進(jìn)傳統(tǒng)算法中計算這些語句的權(quán)重大小,進(jìn)而影響了摘要句的選取。實驗表明,使用評論信息的摘要算法比沒有使用評論信息的摘要算法的效果更好。該研究為互聯(lián)網(wǎng)條件下的信息抽取和自動摘要以及未來進(jìn)一步的文本信息壓縮提供了基礎(chǔ)。 3.研究了基于協(xié)同過濾的推薦算法。在傳統(tǒng)的協(xié)同過濾基礎(chǔ)上,改進(jìn)了協(xié)同過濾推薦算法中的用戶相似度計算,進(jìn)而提高了推薦的準(zhǔn)確度。通過考慮不同用戶的共同喜好,以及他們各自偏好對相似度的影響,進(jìn)而提出一種基于對數(shù)的相似度計算公式。并且在實際應(yīng)用中,使用微博數(shù)據(jù)檢驗了改進(jìn)后的推薦算法。對微博聚類形成不同的話題類,然后獲得用戶與這些話題類的關(guān)系網(wǎng)絡(luò),從而利用改進(jìn)的協(xié)同過濾算法做推薦。實驗的結(jié)果表明,基于微博數(shù)據(jù)的推薦能夠有效的命中驗證集中的數(shù)據(jù),具有良好的推薦效果。新的推薦算法與傳統(tǒng)的協(xié)同過濾算法相比,較大幅度的提高了推薦準(zhǔn)確率,具有更好的個性化推薦效果。 4.從推薦系統(tǒng)的角度出發(fā),通過提出了兩種不同社團(tuán)形成模型,研究在不同社團(tuán)形成條件下的適合的推薦方法。對此,提出了兩種適合社團(tuán)內(nèi)相似度計算的模型,并與傳統(tǒng)相似度模型對比,測試了幾種相似度計算模型在以社團(tuán)為推薦條件下的實際應(yīng)用效果。實測中,以公認(rèn)的Movielens數(shù)據(jù)集為驗證數(shù)據(jù),驗證了基于社團(tuán)形成的模型不但在推薦的準(zhǔn)確度,以及推薦的多樣性等方面都優(yōu)于傳統(tǒng)的熱傳導(dǎo)模型及概率傳遞模型。通過比較兩種社團(tuán)形成的模型,發(fā)現(xiàn)非嚴(yán)格劃分的社團(tuán)模型,與嚴(yán)格劃分社團(tuán)模型相比,擁有更高的推薦準(zhǔn)確度與推薦多樣性值。因此該種模型更適合推薦系統(tǒng),尤其適合為個性化推薦提供服務(wù)。
[Abstract]:......
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2014
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期

2 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期

3 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期

4 劉挺,吳巖,王開鑄;串頻統(tǒng)計和詞形匹配相結(jié)合的漢語自動分詞系統(tǒng)[J];中文信息學(xué)報;1998年01期

5 李景陽;孫茂松;;Non-Independent Term Selection for Chinese Text Categorization[J];Tsinghua Science and Technology;2009年01期

6 郭玉箐,萬敏,羅振聲;面向非受限領(lǐng)域的綜合式自動中文文摘方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2002年01期

7 何明升;復(fù)雜巨系統(tǒng):互聯(lián)網(wǎng)—社會研究的一個新視角[J];學(xué)術(shù)交流;2005年07期



本文編號:1532416

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1532416.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ffdf5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com