基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類
發(fā)布時(shí)間:2025-02-11 17:28
當(dāng)今社會(huì),網(wǎng)絡(luò)社交已經(jīng)變成了主流。人們通過(guò)微博熱點(diǎn)、微信、頭條新聞等各種渠道可以獲取各種文本資源。當(dāng)網(wǎng)絡(luò)上的文本越來(lái)越多的時(shí)候,文本挖掘技術(shù)也逐漸被需要和重視。本文主要是研究文本聚類領(lǐng)域,傳統(tǒng)的文本聚類方法一般都是基于向量空間模型的,而網(wǎng)絡(luò)中的文本數(shù)量往往是數(shù)以百萬(wàn),不計(jì)其數(shù)的。傳統(tǒng)的向量空間模型會(huì)導(dǎo)致文本維度過(guò)高和稀疏。針對(duì)這一問(wèn)題,本文通過(guò)引入數(shù)據(jù)挖掘領(lǐng)域的頻繁詞集概念來(lái)解決維度過(guò)高和文本稀疏問(wèn)題,基于頻繁詞集的文本表示方法可以對(duì)原始的高維文本進(jìn)行降維處理。經(jīng)過(guò)頻繁詞集表示文本后,本文引入復(fù)雜網(wǎng)絡(luò)概念,將原始文本集用文本網(wǎng)絡(luò)的形式表達(dá),在復(fù)雜網(wǎng)絡(luò)中的文本不再是一對(duì)一的關(guān)系,而是多對(duì)多的關(guān)系。而現(xiàn)實(shí)情況下,各個(gè)文本之間也應(yīng)該是存在多對(duì)多的聯(lián)系的。因此,基于復(fù)雜網(wǎng)絡(luò)模型的文本聚類比傳統(tǒng)的文本聚類更能體現(xiàn)文本之間的相互聯(lián)系,更加充分的體現(xiàn)了文本之間的相似性。對(duì)文本網(wǎng)絡(luò)用社區(qū)發(fā)現(xiàn)算法進(jìn)行社區(qū)劃分,就可以將復(fù)雜的文本網(wǎng)絡(luò)劃分為一個(gè)個(gè)社區(qū),而一個(gè)社區(qū)就代表著聚類過(guò)程中的一個(gè)類簇。傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法一般是基于圖分割理論、基于模塊度優(yōu)化的算法模型。這些方法存在諸多的缺點(diǎn),比如復(fù)雜度高,重復(fù)計(jì)算等。因...
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
英文摘要
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
2 相關(guān)技術(shù)介紹
2.1 文本聚類通用流程
2.2 文本預(yù)處理
2.2.1 文本分詞處理
2.2.2 過(guò)濾停用詞
2.3 文本特征詞提取
2.3.1 基于TF-IDF的特征詞提取
2.3.2 基于TextRank的特征詞提取
2.3.3 基于卡方檢驗(yàn)的特征詞提取
2.3.4 基于信息增益的特征詞提取
2.3.5 基于互信息的特征詞提取
2.4 文本表示模型
2.4.1 基于向量空間模型的文本表示
2.4.2 基于主題模型的文本表示
2.4.3 基于詞嵌入與深度學(xué)習(xí)模型的文本表示
2.5 文本相似度計(jì)算方法
2.5.1 余弦相似度
2.5.2 歐氏距離
2.5.3 Jaccard距離
2.5.4 曼哈頓距離
2.6 傳統(tǒng)的文本聚類方法
2.6.1 基于k-means的文本聚類
2.6.2 基于DBSCAN的文本聚類
2.6.3 基于LDA的文本聚類
2.7 基于頻繁詞集的文本聚類
2.7.1 頻繁詞集挖掘相關(guān)理論
2.7.2 頻繁詞集挖掘相關(guān)算法
2.7.3 基于頻繁詞集的文本聚類
2.8 傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法
2.8.1 GN算法
2.8.2 Newman快速算法
2.8.3 K-L(Kernighan-Lin)算法
2.9 聚類評(píng)價(jià)指標(biāo)
2.10 本章小結(jié)
3 一種基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類算法
3.1 基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類流程
3.2 文本預(yù)處理及特征選取
3.3 基于頻繁詞集的文本表示模型
3.3.1 文本相似性計(jì)算
3.4 構(gòu)建文本網(wǎng)絡(luò)
3.5 基于DPCA改進(jìn)的k-means算法用于社區(qū)發(fā)現(xiàn)
3.5.1 文本網(wǎng)絡(luò)中節(jié)點(diǎn)間距離的定義
3.5.2 基于k-means算法的社區(qū)發(fā)現(xiàn)
3.5.3 基于DPCA改進(jìn)的k-means算法用于社區(qū)發(fā)現(xiàn)
3.6 本章小結(jié)
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 聚類評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)分析
4.4 實(shí)驗(yàn)中所涉及到的閾值
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
A.作者在攻讀學(xué)位期間申請(qǐng)的專利與標(biāo)準(zhǔn)
B.學(xué)位論文數(shù)據(jù)集
致謝
本文編號(hào):4033603
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
英文摘要
1 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要工作
1.4 本文的組織結(jié)構(gòu)
1.5 本章小結(jié)
2 相關(guān)技術(shù)介紹
2.1 文本聚類通用流程
2.2 文本預(yù)處理
2.2.1 文本分詞處理
2.2.2 過(guò)濾停用詞
2.3 文本特征詞提取
2.3.1 基于TF-IDF的特征詞提取
2.3.2 基于TextRank的特征詞提取
2.3.3 基于卡方檢驗(yàn)的特征詞提取
2.3.4 基于信息增益的特征詞提取
2.3.5 基于互信息的特征詞提取
2.4 文本表示模型
2.4.1 基于向量空間模型的文本表示
2.4.2 基于主題模型的文本表示
2.4.3 基于詞嵌入與深度學(xué)習(xí)模型的文本表示
2.5 文本相似度計(jì)算方法
2.5.1 余弦相似度
2.5.2 歐氏距離
2.5.3 Jaccard距離
2.5.4 曼哈頓距離
2.6 傳統(tǒng)的文本聚類方法
2.6.1 基于k-means的文本聚類
2.6.2 基于DBSCAN的文本聚類
2.6.3 基于LDA的文本聚類
2.7 基于頻繁詞集的文本聚類
2.7.1 頻繁詞集挖掘相關(guān)理論
2.7.2 頻繁詞集挖掘相關(guān)算法
2.7.3 基于頻繁詞集的文本聚類
2.8 傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法
2.8.1 GN算法
2.8.2 Newman快速算法
2.8.3 K-L(Kernighan-Lin)算法
2.9 聚類評(píng)價(jià)指標(biāo)
2.10 本章小結(jié)
3 一種基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類算法
3.1 基于頻繁詞集和復(fù)雜網(wǎng)絡(luò)的文本聚類流程
3.2 文本預(yù)處理及特征選取
3.3 基于頻繁詞集的文本表示模型
3.3.1 文本相似性計(jì)算
3.4 構(gòu)建文本網(wǎng)絡(luò)
3.5 基于DPCA改進(jìn)的k-means算法用于社區(qū)發(fā)現(xiàn)
3.5.1 文本網(wǎng)絡(luò)中節(jié)點(diǎn)間距離的定義
3.5.2 基于k-means算法的社區(qū)發(fā)現(xiàn)
3.5.3 基于DPCA改進(jìn)的k-means算法用于社區(qū)發(fā)現(xiàn)
3.6 本章小結(jié)
4 實(shí)驗(yàn)分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 聚類評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)結(jié)果與實(shí)驗(yàn)分析
4.4 實(shí)驗(yàn)中所涉及到的閾值
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄
A.作者在攻讀學(xué)位期間申請(qǐng)的專利與標(biāo)準(zhǔn)
B.學(xué)位論文數(shù)據(jù)集
致謝
本文編號(hào):4033603
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/4033603.html
最近更新
教材專著