基于統(tǒng)計的文本分類技術研究

發(fā)布時間：2020-08-16 21:49

【摘要】： 隨著互聯(lián)網(wǎng)的發(fā)展，公眾既感到信息資源十分豐富，同時又感覺想找到所需的信息相對較難。筆者認為原因之一是現(xiàn)有的信息系統(tǒng)還沒有能夠對信息資源進行有效的組織管理，解決此問題的途徑很多，內容管理是其中之一，而文本分類則是所有基于內容的文本信息管理的基礎，因此筆者在參與“中美百萬冊書數(shù)字圖書館”、“國家科學數(shù)字圖書館”等研究項目的同時，從理論、技術和實踐三個方面對文本分類進行了深入的探討，并采用文本分類技術來輔助解決了信息系統(tǒng)建設中資源服務、管理和采集方面的一些問題。在信息資源服務方面，本文首先從理論上分析了文本檢索和文本分類的關系。筆者認為“分類”與“檢索”是密不可分的信息獲取手段，它們之間能夠互相促進、互相補充。常規(guī)檢索方式中由于用戶所給的查詢條件很少，因此要檢索出用戶所需要的文檔確實是非常困難的一項工作。因此，如果能充分地將文本分類技術應用到檢索系統(tǒng)當中，能夠有效提高文本檢索的效果。本文在“中美百萬冊書的層次檢索系統(tǒng)”中將分類體系與文本檢索相結合，驗證了上面的設想；在“基于內容的信息推薦系統(tǒng)”中將文本分類技術應用到檢索中，在服務模式上為用戶提供了基于內容的服務，在技術上對算法進行了研究，并構建了原型系統(tǒng)，理論上可以支持對一百萬冊書檢索，并能夠達到秒級響應速度。在信息資源管理方面，由于海量信息資源的出現(xiàn)，采用人工方式進行管理越來越不切實際，采用計算機管理又達不到人工管理的精確程度。本文從理論方面指出了其中存在的核心問題，即常用的等級列舉式分類體系與文本分類算法之間存在的矛盾：由于兩者用來描述信息的數(shù)據(jù)結構不同，導致無法完美地相互結合，從而降低了分類算法的正確率，也不利于檢索系統(tǒng)的構建。在“中英文物理網(wǎng)站分類系統(tǒng)”案例中，本文通過對分類體系和訓練數(shù)據(jù)進行分析，取得了采用文本分類技術來進行信息資源管理的一些經(jīng)驗。在信息資源建設方面，本文用“冗余網(wǎng)頁過濾系統(tǒng)”來說明如何解決資源建設中的重復建設問題，在研究中主要針對算法的時間復雜度和空間復雜度進行了優(yōu)化，找到了表達一篇文檔的最優(yōu)特征項個數(shù)數(shù)值，在確保正確率的基礎上加快過濾速度。在“2002年TREC文本過濾比賽”案例中，對比了一般類目和組合類目在文本過濾中的不同之處，并通過此案例說明了如何將文本分類技術研究中的成果應用在實際文本過濾系統(tǒng)當中，并得到如下結論：只有將文本分類系統(tǒng)的各方面技術進行綜合考慮，才能夠最終取得更好的分類效果。另外，本文還探討了文本分類和文本檢索評價指標之間的關系。在文本分類領域，有時也采用查全率和查準率作為評價指標，但更常用的是分類正確率。筆者通過例子來說明文本檢索中僅僅采用查全率和查準率來評價檢索系統(tǒng)所可能存在的問題，然后從理論上探討了查全率、查準率和分類正確率之間的關系。要想提高基于內容的信息服務質量，需要在技術方面從根本上提高文本分類摘要算法的正確率，因此本文全面研究了基于統(tǒng)計的自動文本分類方法，包括特征項提取、賦權、分類器構建等問題。 l)特征提取方面主要研究了特征項降維和N元模型。為了對文檔進行充分表達，筆者對中文文本采用了多層次特征表示方法:系統(tǒng)通過從漢字、常用詞表和專業(yè)詞表三個層次上提取文檔的統(tǒng)計特征，從而能夠更好地反映文檔特征項的統(tǒng) 計分布規(guī)律，為提高分類正確率打下基礎。 2)在特征項賦權方面，本文考察了先前的實驗結果，對多種賦權方式進行了實驗，如文檔頻率、信息嫡、互信息和X2統(tǒng)計量。通過分析這些賦權方式之間的理論矛盾和實驗結果，筆者詳細探討了特征項與類別之間的關系，提出了綜合賦權方式，從多方面考慮特征項權重，并取得比單一賦權方式更好的實驗結果。 3)在分類器構建方面，主要考察了三種分類器，Rocchi。、KNN和SVM。其中 KNN和SVM是公認的較好的分類器。但筆者認為Rocchi。有其自己的特點，如能夠直觀地反映每個類的特征，且時間和空間復雜度都較低。在筆者的實驗當中，通過對其進行改進，并與特征選擇和賦權相結合，系統(tǒng)的封閉測試分類正確率可接近100%，開放測試正確率也明顯提高，接近KNN和SVM算法。本文的實驗環(huán)境采用的是中國大百科全書的原文和分類體系，標準的實驗數(shù) 據(jù)既減少了分類體系類目之間的交叉，又保證了文檔與分類體系的相關性，從根本上保證了實驗結果的可信度。
【學位授予單位】：中國科學院研究生院（文獻情報中心）
【學位級別】：博士
【學位授予年份】：2003
【分類號】：G203
【圖文】：

示意圖,檢索系統(tǒng),圖書

計算機類中包含330次，而在圖書館類中包含300次。如果用戶對計算機感興趣，再點擊計算機類，就會得到一個按照出現(xiàn)次數(shù)進行排序的圖書書目。圖2一1層次式檢索示意圖如果點擊開感興趣的圖書，也會看到圖書中各個章節(jié)中所包含查詢關鍵詞的次數(shù)。圈2一層次式檢索圖書示愈圖針對這個設想，筆者在“中美百萬冊書”環(huán)境下設計了一個演示系統(tǒng)，此系統(tǒng)的設計是用在全文檢索當中，讓用戶能夠看到上面兩個圖所示的檢索結果，但實際實現(xiàn)時僅僅將元數(shù)據(jù)檢索與分類系統(tǒng)進行了結合，并沒有結合到全文檢索系統(tǒng)當中，但其含義是一樣的189，90]。圖2一層次式檢索系統(tǒng)

降維,特征降維,實驗結果