天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)的短文本聚類方法

發(fā)布時間:2017-06-13 10:09

  本文關(guān)鍵詞:基于頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)的短文本聚類方法,,由筆耕文化傳播整理發(fā)布。


【摘要】:Web2.0的誕生和發(fā)展使互聯(lián)網(wǎng)上的內(nèi)容發(fā)生了巨大的變化。在Web1.0時代,互聯(lián)網(wǎng)以靜態(tài)網(wǎng)頁為主,靜態(tài)網(wǎng)頁中的內(nèi)容大都是長的、規(guī)范性的文本。到了Web2.0時代,動態(tài)網(wǎng)頁技術(shù)高速發(fā)展,互聯(lián)網(wǎng)上產(chǎn)生了微博、問答社區(qū)、論壇、以及即時通信軟件等一大批應(yīng)用。在這些應(yīng)用平臺上內(nèi)容大都是以短文本為主,短文本具有簡單、碎片化的特點。與長文本相比,這類短小、精悍的文本更容易在互聯(lián)網(wǎng)上傳播,因為它易于編輯、方便閱讀,更加適合當今社會快節(jié)奏的生活。隨著互聯(lián)網(wǎng)上短文本數(shù)量的急劇增長,如何從這些海量的短文本中挖掘出有用的信息成為了一個熱門的研究領(lǐng)域。文本挖掘技術(shù)是數(shù)據(jù)挖掘和機器學(xué)習(xí)的傳統(tǒng)研究領(lǐng)域之一,經(jīng)過多年的研究和發(fā)展已經(jīng)積累了一大批優(yōu)秀的理論和成果。但傳統(tǒng)的文本挖掘方法都以長文本為處理對象,短文本和長文本相比存在嚴重的數(shù)據(jù)稀疏問題。并且短文本大都存在用詞和語法不規(guī)范的問題,例如:微博平臺上的短文本使用了大量的網(wǎng)絡(luò)用語,而且拼寫錯誤和錯別字比較明顯。這使得已有的、成熟的長文本處理技巧和方法,在短文本上表現(xiàn)的差強人意。短文本挖掘需要根據(jù)短文本自身的特點,設(shè)計適合短文本自身特性的挖掘方法。針對短文本的數(shù)據(jù)稀疏和用語不規(guī)范的特點,本文提出了一種基于頻繁詞集共現(xiàn)網(wǎng)絡(luò)的短文本聚類算法。該方法首先挖掘語料中存在的詞的K頻繁項集(K=3),然后,基于挖掘出的頻繁詞集構(gòu)建頻繁詞共現(xiàn)網(wǎng)絡(luò)FWN(Frequent Words co-occurrence Network,如果兩個詞同時處于同一個頻繁詞集內(nèi)則認為這兩個詞之間存在一條邊)。由于在FWN網(wǎng)絡(luò)中,話題以社區(qū)的形式存在,即同一個話題的特征詞緊密聯(lián)系,形成一個話題社區(qū)(一個話題社區(qū)可以看做是一個話題的特征詞的集合),我們在構(gòu)建好的FWN網(wǎng)絡(luò)上使用復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法識別FWN網(wǎng)絡(luò)中的話題社區(qū)。最后我們以話題的特征詞作為話題的類原型,使用基于最大相似性指派的單遍聚類算法實現(xiàn)對短文本的快速聚類。在微博短文本數(shù)據(jù)集上的實驗結(jié)果顯示,我們給出的方法可以快速地找到微博短文本中的熱點話題,并且不需要事先指定話題的數(shù)目K。另外,我們的方法除了可以對微博短文本進行聚類外,還可以用于對搜索引擎中的搜索結(jié)果進行聚類,以便于對搜索結(jié)果進行二次整理和分主題展現(xiàn)。我們開發(fā)了一個百度新聞搜索結(jié)果聚類原型系統(tǒng),該系統(tǒng)可以較好地展現(xiàn)出查詢詞檢索結(jié)果上的類結(jié)構(gòu),為查詢多樣性和查詢消歧給出了解決思路。
【關(guān)鍵詞】:短文本聚類 FWN網(wǎng)絡(luò) 文本挖掘 復(fù)雜網(wǎng)絡(luò) 社區(qū)發(fā)現(xiàn) 聚類
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:O157.5;TP391.1
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-11
  • 1 引言11-16
  • 1.1 研究背景11-13
  • 1.2 研究意義13-14
  • 1.3 研究現(xiàn)狀14-15
  • 1.4 本文主要研究內(nèi)容15-16
  • 2 文本聚類相關(guān)技術(shù)16-27
  • 2.1 數(shù)據(jù)預(yù)處理16-20
  • 2.1.1 中文分詞17-18
  • 2.1.2 去停用詞18
  • 2.1.3 短文本數(shù)據(jù)18-20
  • 2.2 文本建模20-22
  • 2.2.1 布爾模型20-21
  • 2.2.2 向量空間模型21
  • 2.2.3 概率模型21-22
  • 2.3 文本相似度計算22-23
  • 2.4 傳統(tǒng)聚類方法23-26
  • 2.4.1 基于劃分的方法23-24
  • 2.4.2 基于層次的方法24-25
  • 2.4.3 基于密度的方法25-26
  • 2.4.4 譜聚類方法26
  • 2.5 本章小結(jié)26-27
  • 3 基于頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)的短文本聚類算法27-45
  • 3.1 算法思想27
  • 3.2 相關(guān)知識27-30
  • 3.2.1 社區(qū)發(fā)現(xiàn)27-28
  • 3.2.2 頻繁項集挖掘28-30
  • 3.3 頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)30-31
  • 3.3.1 頻繁詞集30
  • 3.3.2 頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)30-31
  • 3.4 基于頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)的短文本聚類算法31-37
  • 3.5 FWN算法實驗與分析37-38
  • 3.5.1 實驗環(huán)境37
  • 3.5.2 實驗數(shù)據(jù)37
  • 3.5.3 實驗評價指標37-38
  • 3.5.4 實驗結(jié)果及分析38
  • 3.6 微博話題發(fā)現(xiàn)應(yīng)用38-44
  • 3.6.1 相關(guān)背景38-39
  • 3.6.2 微博數(shù)據(jù)預(yù)處理39-40
  • 3.6.3 微博話題發(fā)現(xiàn)實驗40-44
  • 3.7 本章小結(jié)44-45
  • 4 搜索結(jié)果聚類45-57
  • 4.1 背景意義45-46
  • 4.2 相關(guān)工作46
  • 4.3 搜索結(jié)果聚類實驗46-49
  • 4.3.1 實驗數(shù)據(jù)46-47
  • 4.3.2 實驗與對照47-48
  • 4.3.3 實驗結(jié)果分析48-49
  • 4.4 百度新聞搜索結(jié)果聚類系統(tǒng)49-53
  • 4.4.1 數(shù)據(jù)獲取模塊50-51
  • 4.4.2 數(shù)據(jù)預(yù)處理模塊51-52
  • 4.4.3 FWN短文本聚類52-53
  • 4.5 百度新聞搜索結(jié)果聚類系統(tǒng)53-56
  • 4.5.1 系統(tǒng)架構(gòu)53
  • 4.5.2 系統(tǒng)開發(fā)環(huán)境53-54
  • 4.5.3 系統(tǒng)界面54-56
  • 4.6 本章小結(jié)56-57
  • 5 結(jié)論57-59
  • 5.1 本文總結(jié)57-58
  • 5.2 存在問題以及工作展望58-59
  • 參考文獻59-62
  • 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果62-64
  • 學(xué)位論文數(shù)據(jù)集64

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 周揚;屈武斌;盧一鳴;張成崗;楊毅;;基于文本頻譜的中文文本聚類方法[J];四川大學(xué)學(xué)報(自然科學(xué)版);2012年06期

2 褚蕾蕾;常文波;李秦;;文本聚類中的改進特征權(quán)重算法[J];工程數(shù)學(xué)學(xué)報;2012年04期

3 李少博;邸書靈;范通讓;;利用本體技術(shù)的文本聚類模型[J];河北省科學(xué)院學(xué)報;2014年02期

4 朱會峰;左萬利;赫楓齡;彭濤;紀文彥;;一種基于本體的文本聚類方法[J];吉林大學(xué)學(xué)報(理學(xué)版);2010年02期

5 門國尊;;用于信息檢索的文本聚類技術(shù)[J];今日科苑;2008年20期

6 林明才;康耀紅;鐘聲;張誠;;文本聚類技術(shù)在科研立項管理中的應(yīng)用[J];科技管理研究;2009年10期

7 盧志茂;徐森;劉遠超;顧國昌;;使用“分裂-合并"策略改進文本聚類集成算法的研究[J];高技術(shù)通訊;2010年07期

8 邱志宇;安艷輝;;基于文本聚類的LSI文本分類模型[J];河北師范大學(xué)學(xué)報(自然科學(xué)版);2012年01期

9 何祥;駱祥峰;;基于關(guān)聯(lián)語義鏈網(wǎng)絡(luò)的文本聚類方法[J];上海大學(xué)學(xué)報(自然科學(xué)版);2014年02期

10 毛嘉莉;;文本聚類中的特征降維方法研究[J];西華師范大學(xué)學(xué)報(自然科學(xué)版);2009年04期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年

8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年

9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年

10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年

2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年

3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年

4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年

5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年

6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年

7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京理工大學(xué);2015年

8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2014年

9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年

10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年


  本文關(guān)鍵詞:基于頻繁詞集詞共現(xiàn)網(wǎng)絡(luò)的短文本聚類方法,由筆耕文化傳播整理發(fā)布。



本文編號:446304

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/446304.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d3d8c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com