面向新聞文本的話題發(fā)現(xiàn)研究
發(fā)布時間:2021-07-13 07:00
隨著科學技術(shù)的進步,人類進入了大數(shù)據(jù)時代。隨之產(chǎn)生了大量雜亂無序的網(wǎng)絡信息,如何從這些信息中找到用戶感興趣的內(nèi)容是文本挖掘研究領(lǐng)域的一個熱點和難點。近年來,對于新聞熱點話題發(fā)現(xiàn)的研究基本都依據(jù)向量空間模型(Vector Space Model,VSM)和LDA(Latent Dirichlet Allocation)模型進行,而如何提高聚類的效果一直是新聞話題發(fā)現(xiàn)研究領(lǐng)域存在的基本問題。所以本文將不同的模型-向量空間模型(VSM)、二元共現(xiàn)潛在語義向量空間模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)和LDA主題模型應用到話題發(fā)現(xiàn)領(lǐng)域進行研究分析。首先,針對VSM模型存在的缺點,依據(jù)詞性提取關(guān)鍵詞來構(gòu)造VSM模型。然后基于TF-IDF權(quán)值法利用K-means、凝聚式層次聚類方法進行聚類的分析比較。其次,二元CLSVSM模型挖掘了關(guān)鍵詞之間的潛在的語義信息而比VSM模型的聚類精度更高。所以本文將二元CLSVSM模型應用到話題發(fā)現(xiàn)領(lǐng)域,從聚類效果和主題識別等方面與另外兩種模型進行了對比討論。最后,對本文的數(shù)據(jù)集-搜狗新...
【文章來源】:山西大學山西省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘過程
第二章 基于向量空間模型的話題發(fā)現(xiàn)理論( ) ( )12 21 1, ,mik jkki j i jm mik jkk kx xdist x x sim x xx x== = = = (2.根據(jù)文本的相似度,可以基于各種聚類方法進行聚類分析。.1.3 聚類算法與評價指標文本聚類(Text clustering),是一種無監(jiān)督的機器學習的方法[4]。在進行的聚類分析時無需訓練數(shù)據(jù)集,故在自動化處理方面的能力很高;同時在獲本信息的摘要等方面起著非常重要的作用[27]。依據(jù)是使聚類結(jié)果中同一個簇檔信息的相似性大,即差異盡量;使不同類別里的文本信息的相似度小,異盡量大[28]。文本聚類的過程如圖 2.1:
圖 2.2 基于劃分法的算法流程圖在所有的依據(jù)劃分的方法中,K-means 聚類方法是最經(jīng)典也是被應用最多的種。本文采用 K-means 算法進行新聞文本的聚類分析,該算法比較容易實現(xiàn),過需要在事先設定一個值k ,即確定要劃分的簇的個數(shù)[31]。其算法流程如下:輸入:生成的類別的個數(shù)k ,文本集合d 。輸出:平方誤差最小時的k 個類別。第一步,從文本集合中選取k 個初始點做為這k 個類的中心,即1 2, , ,kd d d ;第二步,對于文本集合中剩余的文檔id ,逐個計算該文檔與每個簇的中心的離;第三步,將該文檔id 歸入距離最小的類別中,并重新計算這 k 個類別的中心,一個類別的中心為該類別中所有樣本(點)的平均值;第四步,一直循環(huán)第二、三步,直到中心點不再變化。K-means 算法可以有效處理文本集比較大的文本,具有良好的統(tǒng)計意義,時復雜度是 ( kn),k 表示類別的個數(shù),n表示文本集中文檔的個數(shù)。
【參考文獻】:
期刊論文
[1]基于共現(xiàn)潛在語義向量空間模型的語義核構(gòu)建[J]. 牛奉高,張亞宇. 情報學報. 2017(08)
[2]基于KL距離的卷積神經(jīng)網(wǎng)絡人臉特征提取模型[J]. 羅可,周安眾. 長沙理工大學學報(自然科學版). 2017(02)
[3]基于卷積神經(jīng)網(wǎng)絡的職位描述文本分類方法[J]. 陶宏曜,梁棟屹. 軟件. 2017(06)
[4]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[5]基于LDA主題模型的移動應用相似度構(gòu)建方法[J]. 褚征,于炯,王佳玉,王躍飛. 計算機應用. 2017(04)
[6]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[7]基于密度的改進聚類算法比較[J]. 郭文娟. 甘肅科技. 2017(01)
[8]基于Spark和改進的TF-IDF算法的用戶特征分析[J]. 張舒雅,王占剛. 軟件工程. 2016(10)
[9]基于多類別語義詞簇的新聞讀者情緒分類[J]. 溫雯,吳彪,蔡瑞初,郝志峰,王麗娟. 計算機應用. 2016(08)
[10]文本挖掘在中文信息分析中的應用研究述評[J]. 李尚昊,朝樂門. 情報科學. 2016(08)
碩士論文
[1]面向海量商品數(shù)據(jù)的分布式層次聚類算法設計與實現(xiàn)[D]. 周俊林.浙江大學 2017
[2]面向?qū)υ捨谋镜闹黝}分割技術(shù)研究[D]. 王炳浩.哈爾濱工業(yè)大學 2016
[3]基于譜聚類的文本聚類算法研究[D]. 張吉文.貴州大學 2015
[4]基于新型多標記集成學習方法的文本分類研究[D]. 張濤.南京郵電大學 2015
[5]多中心聚類算法的研究與改進[D]. 徐祥.安徽大學 2015
[6]基于聚類分析的煙草行業(yè)客戶細分研究[D]. 龐夫星.山東財經(jīng)大學 2014
[7]基于LDA模型的新聞話題發(fā)現(xiàn)研究[D]. 馬曉姝.東北師范大學 2014
[8]基于后綴樹的文本聚類方法研究[D]. 張中賢.華南理工大學 2013
[9]基于文檔團的Markov網(wǎng)絡檢索模型[D]. 湯皖寧.江西師范大學 2013
[10]基于隱含語義分析的微博熱點話題發(fā)現(xiàn)策略[D]. 馬雯雯.重慶大學 2013
本文編號:3281594
【文章來源】:山西大學山西省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘過程
第二章 基于向量空間模型的話題發(fā)現(xiàn)理論( ) ( )12 21 1, ,mik jkki j i jm mik jkk kx xdist x x sim x xx x== = = = (2.根據(jù)文本的相似度,可以基于各種聚類方法進行聚類分析。.1.3 聚類算法與評價指標文本聚類(Text clustering),是一種無監(jiān)督的機器學習的方法[4]。在進行的聚類分析時無需訓練數(shù)據(jù)集,故在自動化處理方面的能力很高;同時在獲本信息的摘要等方面起著非常重要的作用[27]。依據(jù)是使聚類結(jié)果中同一個簇檔信息的相似性大,即差異盡量;使不同類別里的文本信息的相似度小,異盡量大[28]。文本聚類的過程如圖 2.1:
圖 2.2 基于劃分法的算法流程圖在所有的依據(jù)劃分的方法中,K-means 聚類方法是最經(jīng)典也是被應用最多的種。本文采用 K-means 算法進行新聞文本的聚類分析,該算法比較容易實現(xiàn),過需要在事先設定一個值k ,即確定要劃分的簇的個數(shù)[31]。其算法流程如下:輸入:生成的類別的個數(shù)k ,文本集合d 。輸出:平方誤差最小時的k 個類別。第一步,從文本集合中選取k 個初始點做為這k 個類的中心,即1 2, , ,kd d d ;第二步,對于文本集合中剩余的文檔id ,逐個計算該文檔與每個簇的中心的離;第三步,將該文檔id 歸入距離最小的類別中,并重新計算這 k 個類別的中心,一個類別的中心為該類別中所有樣本(點)的平均值;第四步,一直循環(huán)第二、三步,直到中心點不再變化。K-means 算法可以有效處理文本集比較大的文本,具有良好的統(tǒng)計意義,時復雜度是 ( kn),k 表示類別的個數(shù),n表示文本集中文檔的個數(shù)。
【參考文獻】:
期刊論文
[1]基于共現(xiàn)潛在語義向量空間模型的語義核構(gòu)建[J]. 牛奉高,張亞宇. 情報學報. 2017(08)
[2]基于KL距離的卷積神經(jīng)網(wǎng)絡人臉特征提取模型[J]. 羅可,周安眾. 長沙理工大學學報(自然科學版). 2017(02)
[3]基于卷積神經(jīng)網(wǎng)絡的職位描述文本分類方法[J]. 陶宏曜,梁棟屹. 軟件. 2017(06)
[4]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[5]基于LDA主題模型的移動應用相似度構(gòu)建方法[J]. 褚征,于炯,王佳玉,王躍飛. 計算機應用. 2017(04)
[6]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[7]基于密度的改進聚類算法比較[J]. 郭文娟. 甘肅科技. 2017(01)
[8]基于Spark和改進的TF-IDF算法的用戶特征分析[J]. 張舒雅,王占剛. 軟件工程. 2016(10)
[9]基于多類別語義詞簇的新聞讀者情緒分類[J]. 溫雯,吳彪,蔡瑞初,郝志峰,王麗娟. 計算機應用. 2016(08)
[10]文本挖掘在中文信息分析中的應用研究述評[J]. 李尚昊,朝樂門. 情報科學. 2016(08)
碩士論文
[1]面向海量商品數(shù)據(jù)的分布式層次聚類算法設計與實現(xiàn)[D]. 周俊林.浙江大學 2017
[2]面向?qū)υ捨谋镜闹黝}分割技術(shù)研究[D]. 王炳浩.哈爾濱工業(yè)大學 2016
[3]基于譜聚類的文本聚類算法研究[D]. 張吉文.貴州大學 2015
[4]基于新型多標記集成學習方法的文本分類研究[D]. 張濤.南京郵電大學 2015
[5]多中心聚類算法的研究與改進[D]. 徐祥.安徽大學 2015
[6]基于聚類分析的煙草行業(yè)客戶細分研究[D]. 龐夫星.山東財經(jīng)大學 2014
[7]基于LDA模型的新聞話題發(fā)現(xiàn)研究[D]. 馬曉姝.東北師范大學 2014
[8]基于后綴樹的文本聚類方法研究[D]. 張中賢.華南理工大學 2013
[9]基于文檔團的Markov網(wǎng)絡檢索模型[D]. 湯皖寧.江西師范大學 2013
[10]基于隱含語義分析的微博熱點話題發(fā)現(xiàn)策略[D]. 馬雯雯.重慶大學 2013
本文編號:3281594
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3281594.html
最近更新
教材專著