短消息文本處理關(guān)鍵技術(shù)研究
本文選題:短消息文本 切入點(diǎn):文本聚類 出處:《西南財(cái)經(jīng)大學(xué)》2013年碩士論文
【摘要】:當(dāng)前我們正處于網(wǎng)絡(luò)信息爆炸的時(shí)代,雖然知識(shí)信息的獲取方式變得簡(jiǎn)單,但在以幾何級(jí)數(shù)增長(zhǎng)的數(shù)據(jù)面前我們獲取信息效率卻變得低下。如何在海量數(shù)據(jù)中及時(shí)準(zhǔn)確獲取我們所需要的信息依然是一個(gè)困擾人們的難題。文本聚類技術(shù)可以將看似雜亂無(wú)章的數(shù)據(jù)聚合成基于某一主題特征的類別信息,方便我們能及時(shí)準(zhǔn)確地發(fā)現(xiàn)有效信息。中文短消息文本由于其自身文本長(zhǎng)度短、語(yǔ)義豐富、人們用語(yǔ)習(xí)慣導(dǎo)致的語(yǔ)法不規(guī)范、含有錯(cuò)別字以及以幾何級(jí)數(shù)增長(zhǎng)等特點(diǎn)都決定了短消息文本在聚類處理中有著相當(dāng)大的困難。文本長(zhǎng)度短有可能導(dǎo)致提取出來(lái)的文本特征沒有意義,而錯(cuò)別字以及豐富的語(yǔ)義給自然語(yǔ)言處理帶來(lái)了識(shí)別方面的困難,短消息、文本呈幾何級(jí)數(shù)增長(zhǎng)給聚類技術(shù)處理的效率帶來(lái)了很大的挑戰(zhàn),F(xiàn)實(shí)中搜索引擎有時(shí)會(huì)對(duì)短消息文本不進(jìn)行處理,但多數(shù)時(shí)候處理的效率比較低很難發(fā)現(xiàn)有價(jià)值有意義的信息。然而短消息文本中蘊(yùn)含了豐富的信息,如何從中提取有意義的知識(shí)已經(jīng)變得越來(lái)越具有實(shí)際意義。 本文以中文短消息文本為研究對(duì)象,以短消息文本聚類算法的對(duì)比評(píng)價(jià)為主要研究方法,對(duì)短消息文本聚類的相關(guān)技術(shù)進(jìn)行了研究:從抓爬技術(shù)從Web中獲取短消息文本、分詞技術(shù)對(duì)中文文本進(jìn)行分詞處理以及通過(guò)將文本向量化表示成計(jì)算機(jī)可以識(shí)別的模型之后進(jìn)行聚類技術(shù)等進(jìn)行相關(guān)的研究。涉及的主要內(nèi)容包括:從短消息文本的獲取,短消息文本的內(nèi)容提取,短消息文本的去噪,短消息文本的分詞以及去除停用詞到短消息、文本的向量化表示,短消息文本的特征選擇再到短消息文本的聚類算法等關(guān)鍵技術(shù)進(jìn)行了一系列的探討和研究。具體研究工作包括: (1)對(duì)網(wǎng)絡(luò)爬蟲技術(shù)的原理以及網(wǎng)絡(luò)爬蟲的工作方式進(jìn)行了系統(tǒng)的介紹,之后運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了本文聚類研究的數(shù)據(jù)集的采集工作,接著詳細(xì)地概述了中文文本分詞技術(shù)的原理,中文分詞技術(shù)的難題以及目前比較流行的中文分詞系統(tǒng)運(yùn)用,在此基礎(chǔ)之上通過(guò)調(diào)用中科院分詞系統(tǒng)(ictclas)將從Web上獲取的短消息文本進(jìn)行分詞,在分詞的基礎(chǔ)之上運(yùn)用停用詞庫(kù)去除短消息文本中的高頻無(wú)意義詞語(yǔ),避免對(duì)聚類結(jié)果產(chǎn)生影響。 (2)系統(tǒng)研究了中文文本向量化表示模型,文本的特征選擇避免高維數(shù)據(jù)對(duì)文本聚類算法帶來(lái)維度災(zāi)難,在隨后的研究中采用了基于向量空間模型的文本表示方法和基于詞頻的特征選擇方法將文本規(guī)范化成我們聚類所需要的數(shù)據(jù)結(jié)構(gòu)形式。 (3)重點(diǎn)概述了近鄰傳播(AP)算法的基本原理,算法中涉及到的基本概念以及算法運(yùn)行的過(guò)程,討論研究了算法在運(yùn)行過(guò)程的參數(shù)選擇對(duì)聚類結(jié)果和算法效率的影響,簡(jiǎn)單介紹了k-means算法的流程以及優(yōu)缺點(diǎn),對(duì)基于詞語(yǔ)順序的聚類算法(后綴樹聚類算法)進(jìn)行了探討,明確了后綴樹算法的步驟以及構(gòu)建后綴樹的過(guò)程。其次利用提前分好類別的短消息文本數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)仿真,通過(guò)聚類評(píng)價(jià)指標(biāo)準(zhǔn)確率,召回率以及F值來(lái)比較三種聚類算法的聚類效果。通過(guò)聚類評(píng)價(jià)指標(biāo)的比較發(fā)現(xiàn)基于AP算法的文本聚類在聚類準(zhǔn)確度上比另外兩種算法有一定優(yōu)勢(shì),可以應(yīng)用在接下來(lái)的原型系統(tǒng)構(gòu)建中。 (4)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于近鄰傳播(AP)算法的短消息文本聚類原型系統(tǒng),該系統(tǒng)可以根據(jù)用戶輸入的URL進(jìn)行Web數(shù)據(jù)信息的獲取,并進(jìn)行短消息文本的聚類為用戶及時(shí)準(zhǔn)確的發(fā)現(xiàn)我們所需要的信息提供了較大的便利。
[Abstract]:......
【學(xué)位授予單位】:西南財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年22期
2 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
3 董俊;王鎖萍;熊范綸;;可變相似性度量的近鄰傳播聚類[J];電子與信息學(xué)報(bào);2010年03期
4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期
5 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期
6 劉濤,吳功宜,陳正;一種高效的用于文本聚類的無(wú)監(jiān)督特征選擇算法[J];計(jì)算機(jī)研究與發(fā)展;2005年03期
7 龍真真;張策;劉飛裔;張正文;;一種改進(jìn)的Chameleon算法[J];計(jì)算機(jī)工程;2009年20期
8 趙康;陸介平;倪巍偉;王桂平;;一種基于密度的文本聚類挖掘算法[J];計(jì)算機(jī)應(yīng)用研究;2009年01期
9 王開軍;張軍英;李丹;張新娜;郭濤;;自適應(yīng)仿射傳播聚類[J];自動(dòng)化學(xué)報(bào);2007年12期
10 肖宇;于劍;;基于近鄰傳播算法的半監(jiān)督聚類[J];軟件學(xué)報(bào);2008年11期
,本文編號(hào):1698719
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1698719.html