短消息文本處理關(guān)鍵技術(shù)研究
本文選題:短消息文本 切入點:文本聚類 出處:《西南財經(jīng)大學(xué)》2013年碩士論文
【摘要】:當前我們正處于網(wǎng)絡(luò)信息爆炸的時代,雖然知識信息的獲取方式變得簡單,但在以幾何級數(shù)增長的數(shù)據(jù)面前我們獲取信息效率卻變得低下。如何在海量數(shù)據(jù)中及時準確獲取我們所需要的信息依然是一個困擾人們的難題。文本聚類技術(shù)可以將看似雜亂無章的數(shù)據(jù)聚合成基于某一主題特征的類別信息,方便我們能及時準確地發(fā)現(xiàn)有效信息。中文短消息文本由于其自身文本長度短、語義豐富、人們用語習(xí)慣導(dǎo)致的語法不規(guī)范、含有錯別字以及以幾何級數(shù)增長等特點都決定了短消息文本在聚類處理中有著相當大的困難。文本長度短有可能導(dǎo)致提取出來的文本特征沒有意義,而錯別字以及豐富的語義給自然語言處理帶來了識別方面的困難,短消息、文本呈幾何級數(shù)增長給聚類技術(shù)處理的效率帶來了很大的挑戰(zhàn)。現(xiàn)實中搜索引擎有時會對短消息文本不進行處理,但多數(shù)時候處理的效率比較低很難發(fā)現(xiàn)有價值有意義的信息。然而短消息文本中蘊含了豐富的信息,如何從中提取有意義的知識已經(jīng)變得越來越具有實際意義。 本文以中文短消息文本為研究對象,以短消息文本聚類算法的對比評價為主要研究方法,對短消息文本聚類的相關(guān)技術(shù)進行了研究:從抓爬技術(shù)從Web中獲取短消息文本、分詞技術(shù)對中文文本進行分詞處理以及通過將文本向量化表示成計算機可以識別的模型之后進行聚類技術(shù)等進行相關(guān)的研究。涉及的主要內(nèi)容包括:從短消息文本的獲取,短消息文本的內(nèi)容提取,短消息文本的去噪,短消息文本的分詞以及去除停用詞到短消息、文本的向量化表示,短消息文本的特征選擇再到短消息文本的聚類算法等關(guān)鍵技術(shù)進行了一系列的探討和研究。具體研究工作包括: (1)對網(wǎng)絡(luò)爬蟲技術(shù)的原理以及網(wǎng)絡(luò)爬蟲的工作方式進行了系統(tǒng)的介紹,之后運用網(wǎng)絡(luò)爬蟲技術(shù)進行了本文聚類研究的數(shù)據(jù)集的采集工作,接著詳細地概述了中文文本分詞技術(shù)的原理,中文分詞技術(shù)的難題以及目前比較流行的中文分詞系統(tǒng)運用,在此基礎(chǔ)之上通過調(diào)用中科院分詞系統(tǒng)(ictclas)將從Web上獲取的短消息文本進行分詞,在分詞的基礎(chǔ)之上運用停用詞庫去除短消息文本中的高頻無意義詞語,避免對聚類結(jié)果產(chǎn)生影響。 (2)系統(tǒng)研究了中文文本向量化表示模型,文本的特征選擇避免高維數(shù)據(jù)對文本聚類算法帶來維度災(zāi)難,在隨后的研究中采用了基于向量空間模型的文本表示方法和基于詞頻的特征選擇方法將文本規(guī)范化成我們聚類所需要的數(shù)據(jù)結(jié)構(gòu)形式。 (3)重點概述了近鄰傳播(AP)算法的基本原理,算法中涉及到的基本概念以及算法運行的過程,討論研究了算法在運行過程的參數(shù)選擇對聚類結(jié)果和算法效率的影響,簡單介紹了k-means算法的流程以及優(yōu)缺點,對基于詞語順序的聚類算法(后綴樹聚類算法)進行了探討,明確了后綴樹算法的步驟以及構(gòu)建后綴樹的過程。其次利用提前分好類別的短消息文本數(shù)據(jù)集進行了實驗仿真,通過聚類評價指標準確率,召回率以及F值來比較三種聚類算法的聚類效果。通過聚類評價指標的比較發(fā)現(xiàn)基于AP算法的文本聚類在聚類準確度上比另外兩種算法有一定優(yōu)勢,可以應(yīng)用在接下來的原型系統(tǒng)構(gòu)建中。 (4)設(shè)計實現(xiàn)了一個基于近鄰傳播(AP)算法的短消息文本聚類原型系統(tǒng),該系統(tǒng)可以根據(jù)用戶輸入的URL進行Web數(shù)據(jù)信息的獲取,并進行短消息文本的聚類為用戶及時準確的發(fā)現(xiàn)我們所需要的信息提供了較大的便利。
[Abstract]:......
【學(xué)位授予單位】:西南財經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年22期
2 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
3 董俊;王鎖萍;熊范綸;;可變相似性度量的近鄰傳播聚類[J];電子與信息學(xué)報;2010年03期
4 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計算機研究與發(fā)展;2000年05期
5 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計算機研究與發(fā)展;2002年10期
6 劉濤,吳功宜,陳正;一種高效的用于文本聚類的無監(jiān)督特征選擇算法[J];計算機研究與發(fā)展;2005年03期
7 龍真真;張策;劉飛裔;張正文;;一種改進的Chameleon算法[J];計算機工程;2009年20期
8 趙康;陸介平;倪巍偉;王桂平;;一種基于密度的文本聚類挖掘算法[J];計算機應(yīng)用研究;2009年01期
9 王開軍;張軍英;李丹;張新娜;郭濤;;自適應(yīng)仿射傳播聚類[J];自動化學(xué)報;2007年12期
10 肖宇;于劍;;基于近鄰傳播算法的半監(jiān)督聚類[J];軟件學(xué)報;2008年11期
,本文編號:1698719
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1698719.html