天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

面向新聞文本的話題發(fā)現(xiàn)研究

發(fā)布時間:2021-07-13 07:00
  隨著科學技術(shù)的進步,人類進入了大數(shù)據(jù)時代。隨之產(chǎn)生了大量雜亂無序的網(wǎng)絡信息,如何從這些信息中找到用戶感興趣的內(nèi)容是文本挖掘研究領(lǐng)域的一個熱點和難點。近年來,對于新聞熱點話題發(fā)現(xiàn)的研究基本都依據(jù)向量空間模型(Vector Space Model,VSM)和LDA(Latent Dirichlet Allocation)模型進行,而如何提高聚類的效果一直是新聞話題發(fā)現(xiàn)研究領(lǐng)域存在的基本問題。所以本文將不同的模型-向量空間模型(VSM)、二元共現(xiàn)潛在語義向量空間模型(Co-occurrence Latent Semantic Vector Space Model,CLSVSM)和LDA主題模型應用到話題發(fā)現(xiàn)領(lǐng)域進行研究分析。首先,針對VSM模型存在的缺點,依據(jù)詞性提取關(guān)鍵詞來構(gòu)造VSM模型。然后基于TF-IDF權(quán)值法利用K-means、凝聚式層次聚類方法進行聚類的分析比較。其次,二元CLSVSM模型挖掘了關(guān)鍵詞之間的潛在的語義信息而比VSM模型的聚類精度更高。所以本文將二元CLSVSM模型應用到話題發(fā)現(xiàn)領(lǐng)域,從聚類效果和主題識別等方面與另外兩種模型進行了對比討論。最后,對本文的數(shù)據(jù)集-搜狗新... 

【文章來源】:山西大學山西省

【文章頁數(shù)】:52 頁

【學位級別】:碩士

【部分圖文】:

面向新聞文本的話題發(fā)現(xiàn)研究


數(shù)據(jù)挖掘過程

流程圖,文本聚類,流程圖


第二章 基于向量空間模型的話題發(fā)現(xiàn)理論( ) ( )12 21 1, ,mik jkki j i jm mik jkk kx xdist x x sim x xx x== = = = (2.根據(jù)文本的相似度,可以基于各種聚類方法進行聚類分析。.1.3 聚類算法與評價指標文本聚類(Text clustering),是一種無監(jiān)督的機器學習的方法[4]。在進行的聚類分析時無需訓練數(shù)據(jù)集,故在自動化處理方面的能力很高;同時在獲本信息的摘要等方面起著非常重要的作用[27]。依據(jù)是使聚類結(jié)果中同一個簇檔信息的相似性大,即差異盡量;使不同類別里的文本信息的相似度小,異盡量大[28]。文本聚類的過程如圖 2.1:

算法流程圖,文本,文檔,類別


圖 2.2 基于劃分法的算法流程圖在所有的依據(jù)劃分的方法中,K-means 聚類方法是最經(jīng)典也是被應用最多的種。本文采用 K-means 算法進行新聞文本的聚類分析,該算法比較容易實現(xiàn),過需要在事先設定一個值k ,即確定要劃分的簇的個數(shù)[31]。其算法流程如下:輸入:生成的類別的個數(shù)k ,文本集合d 。輸出:平方誤差最小時的k 個類別。第一步,從文本集合中選取k 個初始點做為這k 個類的中心,即1 2, , ,kd d d ;第二步,對于文本集合中剩余的文檔id ,逐個計算該文檔與每個簇的中心的離;第三步,將該文檔id 歸入距離最小的類別中,并重新計算這 k 個類別的中心,一個類別的中心為該類別中所有樣本(點)的平均值;第四步,一直循環(huán)第二、三步,直到中心點不再變化。K-means 算法可以有效處理文本集比較大的文本,具有良好的統(tǒng)計意義,時復雜度是 ( kn),k 表示類別的個數(shù),n表示文本集中文檔的個數(shù)。

【參考文獻】:
期刊論文
[1]基于共現(xiàn)潛在語義向量空間模型的語義核構(gòu)建[J]. 牛奉高,張亞宇.  情報學報. 2017(08)
[2]基于KL距離的卷積神經(jīng)網(wǎng)絡人臉特征提取模型[J]. 羅可,周安眾.  長沙理工大學學報(自然科學版). 2017(02)
[3]基于卷積神經(jīng)網(wǎng)絡的職位描述文本分類方法[J]. 陶宏曜,梁棟屹.  軟件. 2017(06)
[4]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)
[5]基于LDA主題模型的移動應用相似度構(gòu)建方法[J]. 褚征,于炯,王佳玉,王躍飛.  計算機應用. 2017(04)
[6]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇.  通信技術(shù). 2017(03)
[7]基于密度的改進聚類算法比較[J]. 郭文娟.  甘肅科技. 2017(01)
[8]基于Spark和改進的TF-IDF算法的用戶特征分析[J]. 張舒雅,王占剛.  軟件工程. 2016(10)
[9]基于多類別語義詞簇的新聞讀者情緒分類[J]. 溫雯,吳彪,蔡瑞初,郝志峰,王麗娟.  計算機應用. 2016(08)
[10]文本挖掘在中文信息分析中的應用研究述評[J]. 李尚昊,朝樂門.  情報科學. 2016(08)

碩士論文
[1]面向海量商品數(shù)據(jù)的分布式層次聚類算法設計與實現(xiàn)[D]. 周俊林.浙江大學 2017
[2]面向?qū)υ捨谋镜闹黝}分割技術(shù)研究[D]. 王炳浩.哈爾濱工業(yè)大學 2016
[3]基于譜聚類的文本聚類算法研究[D]. 張吉文.貴州大學 2015
[4]基于新型多標記集成學習方法的文本分類研究[D]. 張濤.南京郵電大學 2015
[5]多中心聚類算法的研究與改進[D]. 徐祥.安徽大學 2015
[6]基于聚類分析的煙草行業(yè)客戶細分研究[D]. 龐夫星.山東財經(jīng)大學 2014
[7]基于LDA模型的新聞話題發(fā)現(xiàn)研究[D]. 馬曉姝.東北師范大學 2014
[8]基于后綴樹的文本聚類方法研究[D]. 張中賢.華南理工大學 2013
[9]基于文檔團的Markov網(wǎng)絡檢索模型[D]. 湯皖寧.江西師范大學 2013
[10]基于隱含語義分析的微博熱點話題發(fā)現(xiàn)策略[D]. 馬雯雯.重慶大學 2013



本文編號:3281594

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3281594.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9cf98***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品推荐国产麻豆剧传媒| 日韩精品一区二区亚洲| 加勒比人妻精品一区二区| 欧美国产日产在线观看| 午夜福利国产精品不卡| 天海翼精品久久中文字幕| 色婷婷国产熟妇人妻露脸| 日韩精品你懂的在线观看| 夫妻性生活真人动作视频| 日韩欧美在线看一卡一卡| 亚洲精品中文字幕无限乱码| 九九热精品视频免费观看| 亚洲精品黄色片中文字幕| 久久精品伊人一区二区| 日本免费一区二区三女| 国产成人精品一区二三区在线观看 | 日本一本不卡免费视频 | 日本人妻免费一区二区三区| 少妇被粗大进猛进出处故事| 日本不卡在线一区二区三区| 久久精品国产亚洲熟女| 91国内视频一区二区三区| 风间中文字幕亚洲一区| 中国一区二区三区人妻| 不卡一区二区在线视频| 深夜少妇一区二区三区| 不卡一区二区在线视频| 色一欲一性一乱—区二区三区| 国产丝袜极品黑色高跟鞋| 国产毛片av一区二区三区小说| 久久综合九色综合欧美| 午夜资源在线观看免费高清| 国产熟女高清一区二区| 国产传媒一区二区三区| 国产传媒一区二区三区| 亚洲欧洲一区二区综合精品| 五月天丁香婷婷一区二区| 国产精品一区日韩欧美| 久七久精品视频黄色的| 精品人妻一区二区三区四区久久 | 青青免费操手机在线视频|