基于向量空間的英文文本聚類方法研究
發(fā)布時間:2021-08-28 11:35
計算機技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展加劇了文本數(shù)據(jù)的膨脹,給網(wǎng)頁文本信息分類帶來了很大的挑戰(zhàn)。面對當(dāng)今網(wǎng)絡(luò)中海量文本數(shù)據(jù)的多樣性,如何挖掘數(shù)據(jù)的潛在價值、搜索可用數(shù)據(jù)信息具有重大意義。本文研究內(nèi)容是英文文本聚類,它與漢語文本有著很大的不同。前者,單詞之間被空格或標(biāo)點符號分割;后者,句子是由詞連續(xù)組成。英文文本處理的首要步驟是分詞、去停用詞和詞干提取等處理,保留有效特征詞。但是,預(yù)處理后的文本依然無法進行聚類分析,需要采用結(jié)構(gòu)化方法對非結(jié)構(gòu)化文本數(shù)據(jù)進行處理。本文選用基于代數(shù)論的向量空間模型(Vector Space Model,VSM),將預(yù)處理文本轉(zhuǎn)化為特征和權(quán)值集合的形式,通過特征權(quán)重計算方法,把文本特征集轉(zhuǎn)化為向量形式。該模型簡單靈活,并且能夠得到計算機處理的數(shù)據(jù)形式。但是,該模型存在不足之處:集合中每個文本由大量特征構(gòu)成,文本向量的稀疏性和維度過高,給文本相似度的計算帶來很大困難;詞之間的關(guān)系相互獨立,給文本聚類造成不利影響。針對上述問題,本文的主要研究內(nèi)容如下:(1)針對文本向量的高維性與稀疏性給相似度計算帶來的困擾,本文提出改進相似度計算方法。該方法可以準(zhǔn)確獲取文本之間的相似度值,...
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【圖文】:
圖2.?1文本聚類整體流程??
;=?[E1|^i-^|]P2.10示曼哈頓距離;p=2時表示的是歐式距離,并且二者要滿足以下性質(zhì):??2?0,值不為負(fù)數(shù);??Dis(d,,d;)?=?0,本身之間距離為0;??DZs(d,,d;)?=?Disked,);??式:+?滿足三角不等式。??比雪夫距離(Chebyshev?Distance)??為確界距離,是根據(jù)國際象棋里國王步數(shù)衍化而來。公式表示如下:??1??Dis{ditdj)?=?lim?(^J=1?\xf?-?y/|/!)"?=?max?\xf?-?yf\?(2.?11)??理解三種距離公式的計算方式,利用圖示方法演示,如圖2.2所示:??4?u??
二個情況是把每個文本對象看成一個族。然后,族與族之間在基于相似度計算的??情況下不斷迭代,將每個文本對象相似度高的劃分到對應(yīng)簇中,是一種自底而上??的凝聚式聚類。如圖2.4凝聚與分裂層次聚類方法簡單表示:??步?〇?步驟1?步輾2?步鉺3?步猓4??J?1?1?1?1_□??瞢?H??W?、S??#?#?/????X.????g暑?#??圓?^?^?^?I?|??步戰(zhàn)4?步碟3?步通2?步通1?步通0??圖2.?4凝聚與分裂層次聚類方法示意圖??Fig2.4?Schematic?diagram?of?cohesion?and?fragmentation?hierarchical?clustering??17??
【參考文獻】:
期刊論文
[1]Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines[J]. Lei Gong,Hitomi Sato,Toshiyuki Yamamoto,Tomio Miwa,Takayuki Morikawa. Journal of Modern Transportation. 2015(03)
[2]概念整合理論框架下的《靜夜思》意義建構(gòu)——基于ICTCLAS的分析方法[J]. 張晴,李玉影. 唐山師范學(xué)院學(xué)報. 2015(01)
本文編號:3368439
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【圖文】:
圖2.?1文本聚類整體流程??
;=?[E1|^i-^|]P2.10示曼哈頓距離;p=2時表示的是歐式距離,并且二者要滿足以下性質(zhì):??2?0,值不為負(fù)數(shù);??Dis(d,,d;)?=?0,本身之間距離為0;??DZs(d,,d;)?=?Disked,);??式:+?滿足三角不等式。??比雪夫距離(Chebyshev?Distance)??為確界距離,是根據(jù)國際象棋里國王步數(shù)衍化而來。公式表示如下:??1??Dis{ditdj)?=?lim?(^J=1?\xf?-?y/|/!)"?=?max?\xf?-?yf\?(2.?11)??理解三種距離公式的計算方式,利用圖示方法演示,如圖2.2所示:??4?u??
二個情況是把每個文本對象看成一個族。然后,族與族之間在基于相似度計算的??情況下不斷迭代,將每個文本對象相似度高的劃分到對應(yīng)簇中,是一種自底而上??的凝聚式聚類。如圖2.4凝聚與分裂層次聚類方法簡單表示:??步?〇?步驟1?步輾2?步鉺3?步猓4??J?1?1?1?1_□??瞢?H??W?、S??#?#?/????X.????g暑?#??圓?^?^?^?I?|??步戰(zhàn)4?步碟3?步通2?步通1?步通0??圖2.?4凝聚與分裂層次聚類方法示意圖??Fig2.4?Schematic?diagram?of?cohesion?and?fragmentation?hierarchical?clustering??17??
【參考文獻】:
期刊論文
[1]Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines[J]. Lei Gong,Hitomi Sato,Toshiyuki Yamamoto,Tomio Miwa,Takayuki Morikawa. Journal of Modern Transportation. 2015(03)
[2]概念整合理論框架下的《靜夜思》意義建構(gòu)——基于ICTCLAS的分析方法[J]. 張晴,李玉影. 唐山師范學(xué)院學(xué)報. 2015(01)
本文編號:3368439
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3368439.html
最近更新
教材專著