基于漢語句法分析的微博聚類方法研究
本文選題:微博 + 聚類; 參考:《西安電子科技大學(xué)》2014年碩士論文
【摘要】:微博是互聯(lián)網(wǎng)上的一種重要的信息發(fā)布工具,以其簡短、便捷的方式表達(dá)用戶觀點(diǎn),已經(jīng)成為了新的媒體和社交平臺(tái)。為了更好地提升微博服務(wù)質(zhì)量,如何為不同用戶推薦感興趣的好友和內(nèi)容就成為了一個(gè)值得研究的課題。 針對此問題,現(xiàn)有方法主要是從結(jié)構(gòu)和內(nèi)容兩方面入手進(jìn)行研究。由于微博是一個(gè)由文本內(nèi)容構(gòu)成的平臺(tái),所以從文本入手更加具有普適性以及跨越性,不會(huì)受到已有用戶關(guān)系的影響,可以根據(jù)不同用戶的語義偏好性來進(jìn)行聚類。因此本文根據(jù)文本內(nèi)容來研究微博相似度,為后續(xù)的聚類處理提供可靠依據(jù)。微博是一種短文本形式,如果使用傳統(tǒng)的文本聚類方法,就會(huì)造成表示文本的向量空間模型(Vector Space Model,VSM)過于稀疏的問題。 為了避免微博特征向量過于稀疏,區(qū)別于廣泛使用的添加外來語義的處理方法,本文從漢語句法結(jié)構(gòu)入手進(jìn)行分析,明確了構(gòu)造句法分析器的需求,并依據(jù)該需求設(shè)計(jì)了句法分析器的結(jié)構(gòu)及其處理流程。處理時(shí),,首先對文本進(jìn)行句法分析,依據(jù)不同詞性的前后順序及共現(xiàn)關(guān)系,識(shí)別出不同類型的短語;然后根據(jù)識(shí)別出的短語類型,為組成該短語的不同成分賦予相應(yīng)權(quán)值,使得句中關(guān)鍵分詞的權(quán)值更大;迭代以上步驟,反復(fù)歸約出新的短語成分,就可以為文本中的核心部分賦予最大的權(quán)值,貢獻(xiàn)值較小的部分,則權(quán)值相應(yīng)較小。利用這種方法確定的特征向量,可以更加客觀地標(biāo)識(shí)出不同成分的重要性。在此基礎(chǔ)上,利用向量空間模型計(jì)算出不同微博文本之間的相似度。本文在計(jì)算相似度時(shí),為了避免出現(xiàn)聚類結(jié)果以特征向量非零項(xiàng)數(shù)為基準(zhǔn)而發(fā)生的擁簇現(xiàn)象,特意進(jìn)行了兩次程度不同的聚類,分別使用了不同的相似度函數(shù),這種方法很好地改善了上述問題。 本文算法最大限度地挖掘出了微博中有限內(nèi)容的隱含價(jià)值,實(shí)驗(yàn)表明,使用該算法得出的特征向量,提高了相似度計(jì)算的準(zhǔn)確性,并提升了微博聚類的效果。
[Abstract]:Weibo is an important information publishing tool on the Internet. It has become a new media and social platform because of its short and convenient way to express users' views. In order to improve the quality of Weibo service, how to recommend interested friends and content to different users has become a research topic. In order to solve this problem, the existing methods are mainly studied from two aspects: structure and content. Because Weibo is a platform composed of text content, it is more universal and leapfrogging from the text, and can be clustered according to the semantic preference of different users. Therefore, this paper studies Weibo similarity according to text content, and provides reliable basis for subsequent clustering processing. Weibo is a short text form. If the traditional text clustering method is used, the vector space model (VSM) representing text will be too sparse. In order to avoid the Weibo feature vector being too sparse, which is different from the widely used processing method of adding exonyms, this paper starts with the analysis of Chinese syntactic structure, and clarifies the requirements of constructing parser. According to this requirement, the structure of parser and its processing flow are designed. In processing, first of all, the text is analyzed syntactic, and different types of phrases are identified according to the order and co-occurrence of different parts of speech, and then the corresponding weights are assigned to the different components of the phrase according to the identified phrase types. If we iterate the above steps and reduce the new phrase components repeatedly, we can assign the largest weight to the core part of the text, and the smaller contribution value, the smaller the weight value. Using the eigenvector determined by this method, the importance of different components can be identified more objectively. On this basis, the vector space model is used to calculate the similarity between different Weibo texts. In this paper, in order to avoid clustering results based on the non-zero term number of feature vector, clustering with different degrees is carried out in order to avoid clustering, and different similarity functions are used respectively. This method improves the above problem well. In this paper, the hidden value of finite content in Weibo is excavated to the maximum extent. The experiments show that the feature vectors obtained by this algorithm can improve the accuracy of similarity calculation and improve the effect of Weibo clustering.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊震;段立娟;賴英旭;;基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J];北京工業(yè)大學(xué)學(xué)報(bào);2010年05期
2 王永恒;賈焰;楊樹強(qiáng);;海量短語信息文本聚類技術(shù)研究[J];計(jì)算機(jī)工程;2007年14期
3 李輝;張琦;盧湖川;;基于內(nèi)容的垃圾短信過濾[J];計(jì)算機(jī)工程;2008年12期
4 鄧維維;彭宏;;移動(dòng)環(huán)境下的垃圾短信過濾系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用;2007年01期
5 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計(jì)算機(jī)應(yīng)用;2012年07期
6 胡日勒;蔡潔;鐘義信;;短信過濾系統(tǒng)設(shè)計(jì)分析[J];計(jì)算機(jī)應(yīng)用研究;2008年08期
7 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計(jì)算[J];中文信息學(xué)報(bào);2006年01期
8 黃永光;劉挺;車萬翔;胡曉光;;面向變異短文本的快速聚類算法[J];中文信息學(xué)報(bào);2007年02期
9 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期
10 張劍峰;夏云慶;姚建民;;微博文本處理研究綜述[J];中文信息學(xué)報(bào);2012年04期
本文編號:1945920
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1945920.html