基于神經(jīng)網(wǎng)絡(luò)的文本自動分類系統(tǒng)研究
發(fā)布時間:2020-05-26 06:13
【摘要】: 文本自動分類(Automatic Text Categorization, ATC)是指在給定的分類體系下,根據(jù)文本的內(nèi)容自動確定文本所屬類別的過程。文本自動分類使信息趨于有序化,便于信息的存儲、檢索、傳播、開發(fā)和利用,是組織和管理海量信息的有效手段,是幾乎所有基于內(nèi)容的文本管理研究的基石,因此文本自動分類的研究具有較強(qiáng)的現(xiàn)實意義和應(yīng)用價值。 神經(jīng)網(wǎng)絡(luò)分類法作為一種常用的文本自動分類方法,具有較強(qiáng)的自學(xué)習(xí)性和魯棒性,但同時也普遍存在訓(xùn)練時間長,可解釋性較差等缺點。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,簡稱RBFNN)具有網(wǎng)絡(luò)設(shè)計簡單、收斂速度快、泛化能力強(qiáng)、可解釋性較好等特點,本文對RBFNN分類算法在中文文本自動分類中的應(yīng)用進(jìn)行了深入研究。 本文設(shè)計實現(xiàn)的RBFNN文本自動分類系統(tǒng)分為文本向量表示和RBFNN分類器的構(gòu)建兩個主要過程:首先,選用中國科學(xué)院計算所開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS對訓(xùn)練語料進(jìn)行分詞、去停用詞處理,采用不同的特征選擇和權(quán)重計算方法選取出相應(yīng)的特征項構(gòu)建文本向量空間;其次,通過k-均值聚類法對輸入樣本聚類,得到隱含層的最佳節(jié)點個數(shù)、中心及寬度,然后利用最小平方誤差法訓(xùn)練得到輸出層連接權(quán)值,完成RBFNN文本分類器的訓(xùn)練,并進(jìn)行相關(guān)測試。實驗結(jié)果表明,RBFNN分類器在中文文本自動分類中具有較理想的性能,測試平均F1值在85%以上。 此外,本文在總結(jié)常用分類器評價指標(biāo)的基礎(chǔ)上,提出了基于層次分析法(AHP)的文本自動分類系統(tǒng)影響因素指標(biāo)體系,并根據(jù)專家調(diào)查問卷結(jié)果構(gòu)造判斷矩陣,利用AHP專用軟件Expert Choice計算得到各評價指標(biāo)的權(quán)重,即各指標(biāo)對文本自動分類系統(tǒng)的影響程度,對本文文本自動分類系統(tǒng)的設(shè)計實驗、性能測試起到指導(dǎo)作用。
【圖文】:
的組織方法 C32:類別的組織方法包括平面分類和層次分見,近年來對層次分類的研究日益增多,但是效果不如平次分類更符合實際情況,滿足用戶的實際需求。方法 C33:文本分類器主要有兩種測試方法——即開放測試測試是指用于訓(xùn)練和測試的數(shù)據(jù)集是一樣的,而開放測試驗中開放測試和封閉測試的結(jié)果往往相差較大,封閉性測會造成過學(xué)習(xí)問題,從而導(dǎo)致開放測試的效果較差。pert Choice 評價文本自動分類系統(tǒng)影響因素hoice 軟件是以 AHP 為理論基礎(chǔ)的決策分析工具軟件,它直觀,借著一對一的比較(Pair-Wise Comparison)和變的判斷,減少復(fù)雜的計算過程并綜合其結(jié)果。利用 Expe析可以分為以下三步:次結(jié)構(gòu)模型(Direct Model Building)。新建一個目標(biāo)為“分析”層次結(jié)構(gòu)模型,并依次添加層次模型的準(zhǔn)則層指標(biāo)
圖 5 幾種常見的徑向基函數(shù)如圖 5 所示,隨著與中心點距離的增大,Gaussian, Inverse Multiquadric, Ca呈單調(diào)遞減趨勢,Multiquadric 函數(shù)單調(diào)遞增。形如高斯函數(shù)這種呈單調(diào)特基函數(shù)具有良好的局部特征(只在中心點附近的某一范圍內(nèi)反應(yīng)顯著,隨著距離的增大,,其函數(shù)值逐漸趨于零),因此,這類徑向基函數(shù)在實際中應(yīng)用,其中高斯函數(shù)最為常用。.2 拓?fù)浣Y(jié)構(gòu)及映射關(guān)系標(biāo)準(zhǔn)的 RBFNN 是由輸入層、非線性隱含層(徑向基函數(shù)層)和線性輸出層層結(jié)構(gòu)的、多輸入多輸出的前饋型神經(jīng)網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖 6 所示。其中為輸入層,作用是輸入信息到隱含層;第二層為隱含層,由徑向基函數(shù)(R,以訓(xùn)練樣本的輸入向量與隱含層節(jié)點權(quán)重向量的歐氏距離作為凈輸入,作入向量進(jìn)行非線性變換;第三層為輸出層,作用是對隱含層的輸出作線性變換
【學(xué)位授予單位】:山東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2007
【分類號】:TP391.1;G254.1
本文編號:2681403
【圖文】:
的組織方法 C32:類別的組織方法包括平面分類和層次分見,近年來對層次分類的研究日益增多,但是效果不如平次分類更符合實際情況,滿足用戶的實際需求。方法 C33:文本分類器主要有兩種測試方法——即開放測試測試是指用于訓(xùn)練和測試的數(shù)據(jù)集是一樣的,而開放測試驗中開放測試和封閉測試的結(jié)果往往相差較大,封閉性測會造成過學(xué)習(xí)問題,從而導(dǎo)致開放測試的效果較差。pert Choice 評價文本自動分類系統(tǒng)影響因素hoice 軟件是以 AHP 為理論基礎(chǔ)的決策分析工具軟件,它直觀,借著一對一的比較(Pair-Wise Comparison)和變的判斷,減少復(fù)雜的計算過程并綜合其結(jié)果。利用 Expe析可以分為以下三步:次結(jié)構(gòu)模型(Direct Model Building)。新建一個目標(biāo)為“分析”層次結(jié)構(gòu)模型,并依次添加層次模型的準(zhǔn)則層指標(biāo)
圖 5 幾種常見的徑向基函數(shù)如圖 5 所示,隨著與中心點距離的增大,Gaussian, Inverse Multiquadric, Ca呈單調(diào)遞減趨勢,Multiquadric 函數(shù)單調(diào)遞增。形如高斯函數(shù)這種呈單調(diào)特基函數(shù)具有良好的局部特征(只在中心點附近的某一范圍內(nèi)反應(yīng)顯著,隨著距離的增大,,其函數(shù)值逐漸趨于零),因此,這類徑向基函數(shù)在實際中應(yīng)用,其中高斯函數(shù)最為常用。.2 拓?fù)浣Y(jié)構(gòu)及映射關(guān)系標(biāo)準(zhǔn)的 RBFNN 是由輸入層、非線性隱含層(徑向基函數(shù)層)和線性輸出層層結(jié)構(gòu)的、多輸入多輸出的前饋型神經(jīng)網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖 6 所示。其中為輸入層,作用是輸入信息到隱含層;第二層為隱含層,由徑向基函數(shù)(R,以訓(xùn)練樣本的輸入向量與隱含層節(jié)點權(quán)重向量的歐氏距離作為凈輸入,作入向量進(jìn)行非線性變換;第三層為輸出層,作用是對隱含層的輸出作線性變換
【學(xué)位授予單位】:山東理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2007
【分類號】:TP391.1;G254.1
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前5條
1 李淑鵬;基于神經(jīng)網(wǎng)絡(luò)的文本自動分類系統(tǒng)的研究[D];武漢理工大學(xué);2008年
2 孟凡紅;中醫(yī)藥圖書館核心競爭力評價研究[D];中國中醫(yī)科學(xué)院;2009年
3 龍浩;基于內(nèi)容過濾的局域網(wǎng)防泄密系統(tǒng)的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2009年
4 趙行;SVM分類器置信度的研究[D];北京郵電大學(xué);2010年
5 宋錫友;徑向基神經(jīng)網(wǎng)絡(luò)的研究及在粒度軟測量中的應(yīng)用[D];東北大學(xué);2009年
本文編號:2681403
本文鏈接:http://sikaile.net/tushudanganlunwen/2681403.html
最近更新
教材專著