天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于漢語句法分析的微博聚類方法研究

發(fā)布時(shí)間:2018-05-28 07:56

  本文選題:微博 + 聚類; 參考:《西安電子科技大學(xué)》2014年碩士論文


【摘要】:微博是互聯(lián)網(wǎng)上的一種重要的信息發(fā)布工具,以其簡短、便捷的方式表達(dá)用戶觀點(diǎn),已經(jīng)成為了新的媒體和社交平臺(tái)。為了更好地提升微博服務(wù)質(zhì)量,如何為不同用戶推薦感興趣的好友和內(nèi)容就成為了一個(gè)值得研究的課題。 針對此問題,現(xiàn)有方法主要是從結(jié)構(gòu)和內(nèi)容兩方面入手進(jìn)行研究。由于微博是一個(gè)由文本內(nèi)容構(gòu)成的平臺(tái),所以從文本入手更加具有普適性以及跨越性,不會(huì)受到已有用戶關(guān)系的影響,可以根據(jù)不同用戶的語義偏好性來進(jìn)行聚類。因此本文根據(jù)文本內(nèi)容來研究微博相似度,為后續(xù)的聚類處理提供可靠依據(jù)。微博是一種短文本形式,如果使用傳統(tǒng)的文本聚類方法,就會(huì)造成表示文本的向量空間模型(Vector Space Model,VSM)過于稀疏的問題。 為了避免微博特征向量過于稀疏,區(qū)別于廣泛使用的添加外來語義的處理方法,本文從漢語句法結(jié)構(gòu)入手進(jìn)行分析,明確了構(gòu)造句法分析器的需求,并依據(jù)該需求設(shè)計(jì)了句法分析器的結(jié)構(gòu)及其處理流程。處理時(shí),,首先對文本進(jìn)行句法分析,依據(jù)不同詞性的前后順序及共現(xiàn)關(guān)系,識(shí)別出不同類型的短語;然后根據(jù)識(shí)別出的短語類型,為組成該短語的不同成分賦予相應(yīng)權(quán)值,使得句中關(guān)鍵分詞的權(quán)值更大;迭代以上步驟,反復(fù)歸約出新的短語成分,就可以為文本中的核心部分賦予最大的權(quán)值,貢獻(xiàn)值較小的部分,則權(quán)值相應(yīng)較小。利用這種方法確定的特征向量,可以更加客觀地標(biāo)識(shí)出不同成分的重要性。在此基礎(chǔ)上,利用向量空間模型計(jì)算出不同微博文本之間的相似度。本文在計(jì)算相似度時(shí),為了避免出現(xiàn)聚類結(jié)果以特征向量非零項(xiàng)數(shù)為基準(zhǔn)而發(fā)生的擁簇現(xiàn)象,特意進(jìn)行了兩次程度不同的聚類,分別使用了不同的相似度函數(shù),這種方法很好地改善了上述問題。 本文算法最大限度地挖掘出了微博中有限內(nèi)容的隱含價(jià)值,實(shí)驗(yàn)表明,使用該算法得出的特征向量,提高了相似度計(jì)算的準(zhǔn)確性,并提升了微博聚類的效果。
[Abstract]:Weibo is an important information publishing tool on the Internet. It has become a new media and social platform because of its short and convenient way to express users' views. In order to improve the quality of Weibo service, how to recommend interested friends and content to different users has become a research topic. In order to solve this problem, the existing methods are mainly studied from two aspects: structure and content. Because Weibo is a platform composed of text content, it is more universal and leapfrogging from the text, and can be clustered according to the semantic preference of different users. Therefore, this paper studies Weibo similarity according to text content, and provides reliable basis for subsequent clustering processing. Weibo is a short text form. If the traditional text clustering method is used, the vector space model (VSM) representing text will be too sparse. In order to avoid the Weibo feature vector being too sparse, which is different from the widely used processing method of adding exonyms, this paper starts with the analysis of Chinese syntactic structure, and clarifies the requirements of constructing parser. According to this requirement, the structure of parser and its processing flow are designed. In processing, first of all, the text is analyzed syntactic, and different types of phrases are identified according to the order and co-occurrence of different parts of speech, and then the corresponding weights are assigned to the different components of the phrase according to the identified phrase types. If we iterate the above steps and reduce the new phrase components repeatedly, we can assign the largest weight to the core part of the text, and the smaller contribution value, the smaller the weight value. Using the eigenvector determined by this method, the importance of different components can be identified more objectively. On this basis, the vector space model is used to calculate the similarity between different Weibo texts. In this paper, in order to avoid clustering results based on the non-zero term number of feature vector, clustering with different degrees is carried out in order to avoid clustering, and different similarity functions are used respectively. This method improves the above problem well. In this paper, the hidden value of finite content in Weibo is excavated to the maximum extent. The experiments show that the feature vectors obtained by this algorithm can improve the accuracy of similarity calculation and improve the effect of Weibo clustering.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊震;段立娟;賴英旭;;基于字符串相似性聚類的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J];北京工業(yè)大學(xué)學(xué)報(bào);2010年05期

2 王永恒;賈焰;楊樹強(qiáng);;海量短語信息文本聚類技術(shù)研究[J];計(jì)算機(jī)工程;2007年14期

3 李輝;張琦;盧湖川;;基于內(nèi)容的垃圾短信過濾[J];計(jì)算機(jī)工程;2008年12期

4 鄧維維;彭宏;;移動(dòng)環(huán)境下的垃圾短信過濾系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用;2007年01期

5 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計(jì)算機(jī)應(yīng)用;2012年07期

6 胡日勒;蔡潔;鐘義信;;短信過濾系統(tǒng)設(shè)計(jì)分析[J];計(jì)算機(jī)應(yīng)用研究;2008年08期

7 朱嫣嵐;閔錦;周雅倩;黃萱菁;吳立德;;基于HowNet的詞匯語義傾向計(jì)算[J];中文信息學(xué)報(bào);2006年01期

8 黃永光;劉挺;車萬翔;胡曉光;;面向變異短文本的快速聚類算法[J];中文信息學(xué)報(bào);2007年02期

9 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期

10 張劍峰;夏云慶;姚建民;;微博文本處理研究綜述[J];中文信息學(xué)報(bào);2012年04期



本文編號:1945920

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1945920.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7aaa***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
色小姐干香蕉在线综合网| 久热99中文字幕视频在线| 嫩草国产福利视频一区二区| 五月婷婷六月丁香狠狠| 亚洲欧美日韩国产综合在线| 日本欧美三级中文字幕| 老司机精品在线你懂的| 日韩一级一片内射视频4k| 日本不卡片一区二区三区| 在线观看视频日韩精品 | 国产又猛又大又长又粗| 国产精品刮毛视频不卡| 国产一区二区不卡在线视频| 欧美日韩国产成人高潮| 狠狠干狠狠操在线播放| 熟女乱一区二区三区丝袜| 国产99久久精品果冻传媒| 久久机热频这里只精品| 日本精品中文字幕在线视频| 欧美日韩国产精品黄片| 黄色av尤物白丝在线播放网址| 九九热九九热九九热九九热| 国产精品蜜桃久久一区二区| 国产又粗又硬又长又爽的剧情| 熟女少妇一区二区三区蜜桃| 国产成人亚洲综合色就色| 日本久久精品在线观看| 中文字幕不卡欧美在线| 91欧美日韩国产在线观看| 日韩黄色大片免费在线| 欧美成人久久久免费播放| 色偷偷亚洲女人天堂观看| 九九热精彩视频在线播放| 亚洲国产一区精品一区二区三区色| 91精品国产品国语在线不卡| 人妻内射在线二区一区| 色婷婷视频免费在线观看| 色综合伊人天天综合网中文 | 日韩成人高清免费在线| 日本深夜福利在线播放| 又色又爽又黄的三级视频|