互聯網輿情信息管控關鍵技術研究與實現
發(fā)布時間:2021-07-08 23:31
本文針對互聯網信息內容新、變化快和新類別層出不窮的特點,對輿情信息管控領域的幾個關鍵技術做了較為深入的研究,設計了中文文本聚類模型CTCM。本文首先對中文分詞技術、文本特征選取、漢語語言構成及分詞詞表進行分析,提出并實現了基于正向最大匹配的新詞發(fā)現,該算法可及時發(fā)現任意長度的熱點詞匯,可實現動態(tài)調整詞表。其次,通過對各種聚類算法的分析、比較與實驗,針對互聯網輿情信息管控領域的特點,本文創(chuàng)新性的提出了基于密度與CFK-Means相結合的聚類算法—DK算法,既極大地降低了計算復雜度和計算時間,又克服了單純采用K-Means算法依賴初始聚類數和初始聚類中心點的缺陷。大量的實驗數據顯示,DK算法顯著提高了聚類速度和準確率。最后,本文將文本聚類的思想引入類描述信息的自動生成,將每個段落看成是一個篇幅較小的文本,計算類與文本的相似程度,找出與類相似程度最高的段和語句,從而確定類的描述信息。通過測試,證明本文設計實現的中文文本聚類系統(tǒng)實現了對于互聯網輿情信息熱點的及時發(fā)現、及時分類,有效的改善了網絡管控的效果。
【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:67 頁
【學位級別】:碩士
【部分圖文】:
網絡社區(qū)的迅速發(fā)展數據統(tǒng)計
for (int i=0; i<count; i++) {determine whether every word exists in the dictionary;get the candidate for new word in using MM method;}}if the specific new word appear more than the limit times, we suppose it may bea candidate for the new word;using the rule of Chinese word constructure to get the final new word;perfect the existed dictionary and add the new word.
另一個是改進具體算法。本文改進了初始模板的選定方法,以每個向量為圓心,以所有向量之間距離的平均值為半徑作圓,然后根據每個圓內的數據點的密度來排序確定初始聚類中心和初始聚類數。這樣,K-means 聚類算法需要的初始模板就由以上算法動態(tài)生成,而無需用戶進行事先指定。K-Means 算法中,初始聚類中心的選擇對聚類結果的影響是很大的,如下圖 4.1,圖 a 是三個簇的實際分布,圖 b 是選取了較好的初始聚類中心(十字標記的數據對象)得到的結果,圖 c 是選取不好的初始聚類中心得到的結果。從中可以看到,選擇初始聚類中心是很關鍵的。
本文編號:3272549
【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:67 頁
【學位級別】:碩士
【部分圖文】:
網絡社區(qū)的迅速發(fā)展數據統(tǒng)計
for (int i=0; i<count; i++) {determine whether every word exists in the dictionary;get the candidate for new word in using MM method;}}if the specific new word appear more than the limit times, we suppose it may bea candidate for the new word;using the rule of Chinese word constructure to get the final new word;perfect the existed dictionary and add the new word.
另一個是改進具體算法。本文改進了初始模板的選定方法,以每個向量為圓心,以所有向量之間距離的平均值為半徑作圓,然后根據每個圓內的數據點的密度來排序確定初始聚類中心和初始聚類數。這樣,K-means 聚類算法需要的初始模板就由以上算法動態(tài)生成,而無需用戶進行事先指定。K-Means 算法中,初始聚類中心的選擇對聚類結果的影響是很大的,如下圖 4.1,圖 a 是三個簇的實際分布,圖 b 是選取了較好的初始聚類中心(十字標記的數據對象)得到的結果,圖 c 是選取不好的初始聚類中心得到的結果。從中可以看到,選擇初始聚類中心是很關鍵的。
本文編號:3272549
本文鏈接:http://sikaile.net/tushudanganlunwen/3272549.html