基于向量空間模型與規(guī)則匹配相結(jié)合的文本層次分類系統(tǒng)的研究
發(fā)布時間:2020-05-29 00:18
【摘要】:隨著網(wǎng)絡(luò)的普及與發(fā)展,數(shù)字化電子類信息資源極大的豐富和流通。對Internet上海量信息的有效組織和處理是網(wǎng)絡(luò)時代所面臨的巨大挑戰(zhàn)。分門別類地對其進行自動分類,是當(dāng)前圖書情報及計算機界研究的熱點。在這一領(lǐng)域,人們已經(jīng)進行了大量的研究。但較為實用且可行的系統(tǒng)卻不多。為此本系統(tǒng)研究了對海量數(shù)字資源進行特征抽取、表示、分類的方法和相關(guān)技術(shù),為數(shù)字資源的自動化處理提供可參考的依據(jù)和可行的方案。 在該分類系統(tǒng)的構(gòu)建過程中,本系統(tǒng)著重從以下幾方面進行系統(tǒng)開發(fā):探索有效的特征抽取與選擇方法,找出其權(quán)值表示模式,尤其是關(guān)鍵詞詞表的構(gòu)造與維護。在統(tǒng)計與規(guī)則兩類不同分類方法中找到其切合點,探索如何將兩種方法進行結(jié)合,發(fā)揮其各自的優(yōu)點,提升分類器的效率和準確性。探索線性分類與層次分類的區(qū)別與聯(lián)系,找出采用層次分類的優(yōu)勢所在,實驗其可行性。探索自動分類技術(shù)在現(xiàn)實環(huán)境中的實用性,解決現(xiàn)實中存在的一些阻礙因素。在本文中我們分別給出了這些問題的解決方案和處理的算法和流程及相應(yīng)的數(shù)據(jù)結(jié)構(gòu)。針對研究過程中遇到的問題,本系統(tǒng)在應(yīng)用相關(guān)領(lǐng)域的研究成果基礎(chǔ)上,提出了多個新的算法和思路: ● 借鑒關(guān)鍵詞輪排原理,結(jié)合相關(guān)統(tǒng)計模型,從正反兩個方向?qū)υ汲樵~詞典進行壓縮和優(yōu)選,達到降維和準確表達主題的目的; ● 針對不同特征選擇及權(quán)值計算方法的特點,采用多方法結(jié)合以投票方式進行特征選擇和權(quán)值賦值,提高標引準確性; ● 針對分類體系的特點,研究提出逐級分類的算法,達到快速準確進行分類的目的; ● 驗證統(tǒng)計與決策規(guī)則兩種方法的切合點,即雙重分類的分界閾值; ● 探索在保持分類能力的前提下,影響分類速度的相關(guān)因素,,并提出改善方案。 基于以上幾個方面,本文對該自動分類系統(tǒng)進行了海量新聞文本和基于《中圖法》分類體系的VIP期刊論文分類的實驗研究,測試結(jié)果表明,該系統(tǒng)具有進行大規(guī)模文本自動分類的可行性和實用性,分類效果基本上可以達到普通文本分類實用要求。
【圖文】:
多層次分類過程流程示意圖
圖5一3分類過程示例圖
【學(xué)位授予單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2006
【分類號】:G254.1
本文編號:2686062
【圖文】:
多層次分類過程流程示意圖
圖5一3分類過程示例圖
【學(xué)位授予單位】:南京農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2006
【分類號】:G254.1
【引證文獻】
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 衡中青;侯漢清;;地方志引書挖掘及其引書分析研究[A];2007年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 安璐;基于自組織映射的期刊主題研究[D];武漢大學(xué);2009年
2 衡中青;地方志知識組織及內(nèi)容挖掘研究[D];南京農(nóng)業(yè)大學(xué);2007年
本文編號:2686062
本文鏈接:http://sikaile.net/tushudanganlunwen/2686062.html
最近更新
教材專著