中文文本關(guān)鍵詞提取和文本聚類中聚類中心點(diǎn)選取算法研究
本文關(guān)鍵詞:中文文本關(guān)鍵詞提取和文本聚類中聚類中心點(diǎn)選取算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:現(xiàn)今文本處理領(lǐng)域研究的熱點(diǎn)是如何方便用戶快速準(zhǔn)確的搜索到所需要的文本信息。文本聚類可以提高信息搜索效率,是文本檢索的有效手段。關(guān)鍵詞提取和聚類中心點(diǎn)選取是文本聚類研究中的關(guān)鍵問題。常見的關(guān)鍵詞提取算法可分為三類,基于語義的算法、基于機(jī)器學(xué)習(xí)的算法和基于統(tǒng)計(jì)模型的算法。基于語義的算法提高了關(guān)鍵詞提取的準(zhǔn)確率,但是依賴于背景知識(shí)庫、詞典等,無法提取出不包含于知識(shí)庫的詞或詞組。基于機(jī)器學(xué)習(xí)的算法提高了關(guān)鍵詞提取的準(zhǔn)確率,但是訓(xùn)練樣本、構(gòu)建模型花費(fèi)時(shí)間長。基于統(tǒng)計(jì)模型的算法原理簡單,不需要訓(xùn)練樣本,也不依賴于知識(shí)庫。常見的聚類中心的選取方式有三種,隨機(jī)選取初始聚類中心點(diǎn)、人為指定聚類中心點(diǎn)和根據(jù)待聚類點(diǎn)之間的相似度選取聚類中心點(diǎn)。隨機(jī)選取的初始聚類中心點(diǎn)中可能包含“孤立點(diǎn)”,聚類結(jié)果局部最優(yōu)。人為指定聚類中心點(diǎn)會(huì)因?yàn)槊總(gè)人對(duì)文本集的了解程度不同而帶有主觀性,不適用于文本集數(shù)量很大的情況。根據(jù)待聚類點(diǎn)之間的相似度選取聚類中心點(diǎn),可以使得選取的聚類中心點(diǎn)分布于各個(gè)類中并且盡量接近類中心點(diǎn),但是計(jì)算聚類中心所需時(shí)間較長。針對(duì)上述問題,本文做了如下研究:(1)本文提出了基于詞或詞組長度和頻數(shù)的關(guān)鍵詞提取算法,算法首先提取出中文文本中出現(xiàn)頻數(shù)較大的詞或者詞組,然后根據(jù)提取出的詞或者詞組的長度和在文本中出現(xiàn)的頻數(shù)篩選出該文本的關(guān)鍵詞。與現(xiàn)有的算法相比,本文提出的算法不依賴于背景知識(shí)庫、詞典等,可以提取出文本中的音譯詞和網(wǎng)絡(luò)新詞,無需通過對(duì)訓(xùn)練樣本的訓(xùn)練獲得統(tǒng)計(jì)參數(shù),構(gòu)建模型。實(shí)驗(yàn)顯示本文提出的關(guān)鍵詞提取算法,關(guān)鍵詞提取的準(zhǔn)確率較高,提取出的關(guān)鍵詞可以反映出該文本的主題。(2)本文提出了基于文本之間相似度的聚類中心點(diǎn)選取算法,算法首先根據(jù)給定的文本集以及文本集中各個(gè)文本對(duì)應(yīng)的關(guān)鍵詞序列,構(gòu)建向量空間模型,接著計(jì)算各個(gè)文本與其他文本之間的相似度,最后依據(jù)各個(gè)文本與其他文本之間的相似度篩選出聚類中心點(diǎn)。與現(xiàn)有的算法相比,本文算法選取的聚類中心點(diǎn)與較多的文本之間存在相似性且相似度值較大,同時(shí)相互之間的相似度較小。實(shí)驗(yàn)顯示本文提出的聚類中心點(diǎn)選取算法選取的聚類中心點(diǎn)分布于各個(gè)類中并且與類中心點(diǎn)接近。
【關(guān)鍵詞】:中文文本處理 文本聚類 關(guān)鍵詞提取 音譯詞 網(wǎng)絡(luò)新詞 聚類中心點(diǎn) 向量空間模型
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.1.1 文本關(guān)鍵詞提取10-11
- 1.1.2 聚類中心點(diǎn)選取11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 文本關(guān)鍵詞提取12-13
- 1.2.2 聚類中心點(diǎn)選取13
- 1.3 本文研究的主要內(nèi)容13-14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第二章 相關(guān)研究工作16-24
- 2.1 文本關(guān)鍵詞提取16-19
- 2.1.1 基于統(tǒng)計(jì)模型的關(guān)鍵詞提取算法16-19
- 2.1.2 基于語義的關(guān)鍵詞提取算法19
- 2.1.3 基于機(jī)器學(xué)習(xí)的關(guān)鍵詞提取算法19
- 2.2 聚類中心點(diǎn)的選取19-23
- 2.2.1 文本聚類19-22
- 2.2.2 現(xiàn)有的聚類中心點(diǎn)選取算法22
- 2.2.3 聚類中心點(diǎn)選定算法的難點(diǎn)22-23
- 2.3 小結(jié)23-24
- 第三章 基于詞或詞組長度和頻數(shù)的關(guān)鍵詞提取算法24-38
- 3.1 問題的提出24-25
- 3.2 相關(guān)工作25-26
- 3.3 基于詞或詞組長度和頻數(shù)的關(guān)鍵詞提取算法26-34
- 3.3.1 算法的基本思想27-28
- 3.3.2 算法28-32
- 3.3.3 與相關(guān)工作的比較32-34
- 3.4 實(shí)驗(yàn)及分析34-37
- 3.4.1 實(shí)驗(yàn)34
- 3.4.2 實(shí)驗(yàn)結(jié)果及分析34-37
- 3.5 小結(jié)37-38
- 第四章 基于文本之間相似度的聚類中心點(diǎn)選取算法38-56
- 4.1 問題的提出38
- 4.2 相關(guān)工作38-41
- 4.3 基于文本之間相似度的聚類中心點(diǎn)選取算法41-50
- 4.3.1 算法的基本思想41-42
- 4.3.2 算法42-49
- 4.3.3 與相關(guān)工作的比較49-50
- 4.4 實(shí)驗(yàn)及分析50-54
- 4.4.1 實(shí)驗(yàn)50-51
- 4.4.2 實(shí)驗(yàn)結(jié)果及分析51-54
- 4.5 小結(jié)54-56
- 第五章 總結(jié)和展望56-58
- 5.1 工作總結(jié)56-57
- 5.2 研究展望57-58
- 參考文獻(xiàn)58-64
- 致謝64-66
- 碩士期間發(fā)表論文66
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 黃旭;呂強(qiáng);錢培德;;一種用于蛋白質(zhì)結(jié)構(gòu)聚類的聚類中心選擇算法[J];自動(dòng)化學(xué)報(bào);2011年06期
2 樊曉光;路釗;王久崇;李國棟;謝朝政;;基于密度和距離積的聚類中心選取方法[J];測(cè)控技術(shù);2013年10期
3 趙峰;張軍英;劉敬;;核最優(yōu)變換與聚類中心的算法[J];西安電子科技大學(xué)學(xué)報(bào);2009年01期
4 朱云賀;張春海;張博;;基于數(shù)據(jù)分段的K-means的優(yōu)化研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年11期
5 李春生;王耀南;;聚類中心初始化的新方法[J];控制理論與應(yīng)用;2010年10期
6 陳侃;李彬;田聯(lián)房;;基于局部閾值和聚類中心迭代的肺結(jié)節(jié)檢測(cè)算法[J];計(jì)算機(jī)科學(xué);2012年02期
7 關(guān)學(xué)忠,韓彩霞,韓振洲;神經(jīng)模糊系統(tǒng)中模糊規(guī)則的優(yōu)化[J];大慶石油學(xué)院學(xué)報(bào);2005年01期
8 劉舒野;林和平;楊晨;;基于歸并聚類中心思想的模糊聚類分析方法研究[J];航空計(jì)算技術(shù);2007年04期
9 寧永恒;楊小兵;王康健;;一種多聚類中心的劃分方法[J];中國計(jì)量學(xué)院學(xué)報(bào);2014年02期
10 高潮;田翠翠;郭永彩;;基于改進(jìn)聚類中心分析法的紅外行人分割[J];計(jì)算機(jī)工程;2011年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 吳繼兵;李心科;;基于K-最近鄰居圖劃分的聚類中心初始化算法[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 劉云;中文文本關(guān)鍵詞提取和文本聚類中聚類中心點(diǎn)選取算法研究[D];江蘇大學(xué);2016年
2 徐祥;多中心聚類算法的研究與改進(jìn)[D];安徽大學(xué);2015年
3 邱榮太;基于Hadoop平臺(tái)的Map-Reduce應(yīng)用研究[D];河南理工大學(xué);2009年
本文關(guān)鍵詞:中文文本關(guān)鍵詞提取和文本聚類中聚類中心點(diǎn)選取算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):390795
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/390795.html