基于刻面分類的網(wǎng)絡(luò)群體事件主題聚類研究
本文選題:刻面分類 + 網(wǎng)絡(luò)群體事件。 參考:《江蘇科技大學(xué)》2016年碩士論文
【摘要】:伴隨著我國經(jīng)濟(jì)與文化的快速發(fā)展,我國的社會經(jīng)濟(jì)結(jié)構(gòu)進(jìn)入了一個急劇變革的轉(zhuǎn)型時期。龐大的網(wǎng)絡(luò)群體與社會經(jīng)濟(jì)矛盾交織在一起,加上“互聯(lián)網(wǎng)+”行動計劃的推動,使得近年來我國網(wǎng)絡(luò)群體事件呈現(xiàn)數(shù)量多、規(guī)模大、主題和背景復(fù)雜的趨勢。網(wǎng)絡(luò)群體事件的頻繁發(fā)生,已經(jīng)嚴(yán)重影響到甚至危害了社會秩序的穩(wěn)定和人民群眾的安寧,同時也得到了政府相關(guān)部門的高度重視。有效地對網(wǎng)絡(luò)群體事件進(jìn)行監(jiān)控,關(guān)鍵在于快速及時地獲取網(wǎng)絡(luò)群體事件的主題信息。主題聚類是目前實現(xiàn)主題識別的主要技術(shù),如何利用主題聚類技術(shù)從繁雜的網(wǎng)絡(luò)信息中獲取網(wǎng)絡(luò)群體事件的主題,已然成為國內(nèi)外眾多學(xué)者研究和探索的熱點。本文針對網(wǎng)絡(luò)群體事件的主題聚類進(jìn)行了研究,主要工作包含以下兩個方面:(1)首先研究并改進(jìn)了新聞網(wǎng)頁文本的關(guān)鍵詞提取方法。傳統(tǒng)的文本關(guān)鍵詞提取方法主要基于詞匯的詞頻特征,而網(wǎng)頁文本與普通文本在文本形式上存在差異,因此利用傳統(tǒng)的關(guān)鍵詞提取方法提取網(wǎng)頁文本關(guān)鍵詞時效果不理想。本文在基于詞頻特征的關(guān)鍵詞提取方法基礎(chǔ)上,通過分析網(wǎng)頁文本的特點,結(jié)合詞匯的詞性特征、位置特征和詞共現(xiàn)特征等信息,并給予每個特征信息適當(dāng)?shù)恼{(diào)整參數(shù),形成了多種特征組合的詞匯權(quán)重計算公式,并依據(jù)此公式進(jìn)行新聞網(wǎng)頁文本的關(guān)鍵詞提取。(2)針對傳統(tǒng)的基于向量空間模型的文本聚類算法存在的數(shù)據(jù)高維稀疏、缺乏語義信息的問題,本文提出了基于刻面分類和潛在語義分析(LSA,Latent Semantic Analysis)的文本聚類算法。首先引入刻面分類思想,將文本特征詞匯劃分為主題性刻面和描述性刻面,選取主題性刻面包含的特征詞匯構(gòu)建詞匯-文本矩陣,降低了矩陣的維度和稀疏程度;然后利用LSA方法將高維的特征空間投射到低維的潛在語義空間中,不僅進(jìn)一步縮小了詞匯-文本矩陣的規(guī)模,而且能更好的挖掘網(wǎng)頁文本的語義信息。最后結(jié)合網(wǎng)頁文本數(shù)據(jù)集進(jìn)行了主題聚類實驗論證,驗證了基于刻面分類和LSA的網(wǎng)絡(luò)群體事件主題聚類算法聚類結(jié)果的準(zhǔn)確性和高效性。
[Abstract]:With the rapid development of economy and culture in China, the social and economic structure of our country has entered a period of rapid transformation.The huge network group and the social economic contradiction are intertwined together, together with the promotion of the "Internet" action plan, which makes the network group events in our country present the trend of large number, large scale, complex theme and background in recent years.The frequent occurrence of network group events has seriously affected and even endangered the stability of social order and the peace of the people, and has also been attached great importance by the relevant government departments.The key to monitor network group events effectively lies in getting the topic information of network group events quickly and timely.Topic clustering is the main technology to realize topic recognition at present. How to use topic clustering technology to obtain network group events from complex network information has become a hot topic for many scholars at home and abroad to study and explore.In this paper, the topic clustering of network group events is studied. The main work includes the following two aspects: 1) first, we study and improve the keyword extraction method of news page text.The traditional keyword extraction method is mainly based on the word frequency feature of the vocabulary, but the text form of the web page text is different from that of the ordinary text, so the effect of the traditional keyword extraction method is not ideal.On the basis of the keyword extraction method based on word frequency feature, this paper analyzes the characteristics of the web page text, combines the information of lexical part of speech, location feature and word co-occurrence feature, and gives appropriate adjustment parameters for each feature information.This paper forms a formula for calculating the lexical weight of a variety of feature combinations, which is used to extract the keywords of news pages. (2) aiming at the high dimensional sparse data existing in the traditional text clustering algorithm based on vector space model,Due to the lack of semantic information, a text clustering algorithm based on facet classification and latent Semantic analysis is proposed in this paper.Firstly, by introducing the idea of facet classification, the text feature vocabulary is divided into thematic etch and descriptive facet, and the feature words contained in thematic bread are selected to construct the lexical text matrix, which reduces the dimension and sparsity of the matrix.Then the high-dimensional feature space is projected into the low-dimensional latent semantic space by using the LSA method, which not only reduces the size of the lexical-text matrix, but also can better mine the semantic information of the web page text.Finally, the experimental results of topic clustering based on the text data set of web pages are presented to verify the accuracy and efficiency of the clustering algorithm based on facet classification and LSA.
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳雪;郭書杰;朱會;;動態(tài)權(quán)重的數(shù)字化刻面分類模式研究[J];艦船電子工程;2009年12期
2 余金山;劉云城;;基于刻面分類和本體的類庫檢索[J];微型機(jī)與應(yīng)用;2010年23期
3 王淵峰,薛云皎,張涌,朱三元,錢樂秋;刻面分類構(gòu)件的匹配模型[J];軟件學(xué)報;2003年03期
4 徐小華;;建立有可能重新使用的軟件圖書館[J];淮南師范學(xué)院學(xué)報;2006年03期
5 李穎;李闖;;基于刻面描述和術(shù)語的構(gòu)件檢索算法[J];通化師范學(xué)院學(xué)報;2008年12期
6 龔雙;劉波;劉佩珊;;基于刻面描述的構(gòu)件檢索匹配方法應(yīng)用研究[J];計算機(jī)應(yīng)用與軟件;2009年10期
7 付青華;林寧;馮惠;周平;;基于刻面分類的構(gòu)件檢索系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2010年06期
8 宋海濤;孫延明;鄭時雄;;基于語義的產(chǎn)品分類刻面自動抽取[J];商場現(xiàn)代化;2007年07期
9 范菁;劉韜;熊麗榮;;信用構(gòu)件的刻面分類及檢索方法研究[J];計算機(jī)系統(tǒng)應(yīng)用;2008年06期
10 王淵峰,張涌,任洪敏,朱三元,錢樂秋;基于刻面描述的構(gòu)件檢索[J];軟件學(xué)報;2002年08期
相關(guān)會議論文 前1條
1 施煒;賈曉輝;鄧志凌;樂嘉錦;;構(gòu)件檢索的刻面索引研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
相關(guān)重要報紙文章 前4條
1 本報記者 周巖;“世紀(jì)之星”天然藍(lán)寶石[N];中國礦業(yè)報;2002年
2 記者 俞家燁;美國寶石學(xué)院在滬舉辦研討會[N];中國黃金報;2006年
3 唐仲興 李軍;鋯石[N];中國礦業(yè)報;2002年
4 李蔓;真誠美首創(chuàng)梅花鉆石[N];中國黃金報;2003年
相關(guān)碩士學(xué)位論文 前10條
1 劉帥;結(jié)合質(zhì)量評價的構(gòu)件刻面描述與檢索研究[D];昆明理工大學(xué);2015年
2 鄒后孝;藏語話題刻面情感識別研究及實現(xiàn)[D];西北民族大學(xué);2016年
3 馮遵倡;基于刻面分類的網(wǎng)絡(luò)群體事件主題聚類研究[D];江蘇科技大學(xué);2016年
4 宋士濤;基于本體與刻面相結(jié)合的構(gòu)件檢索研究[D];山東師范大學(xué);2011年
5 袁冬娟;基于刻面描述的水資源領(lǐng)域的構(gòu)件檢索方法[D];河海大學(xué);2007年
6 周清清;基于本體與刻面描述相結(jié)合的構(gòu)件檢索研究[D];江西師范大學(xué);2008年
7 張韜;基于刻面描述的構(gòu)件檢索方法及實現(xiàn)[D];華中科技大學(xué);2008年
8 鄒博;基于刻面分類的軟件構(gòu)件檢索的研究[D];哈爾濱工程大學(xué);2006年
9 馬亞飛;基于刻面描述的可復(fù)用構(gòu)件庫的研究[D];江西理工大學(xué);2013年
10 孟聞天;基于刻面描述的可重用軟件構(gòu)件檢索技術(shù)的研究[D];大連海事大學(xué);2005年
,本文編號:1757564
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1757564.html