文本分類算法在高校檔案管理中的應用研究.pdf
本文關鍵詞:文本分類算法在高校檔案管理中的應用研究,由筆耕文化傳播整理發(fā)布。
中文摘要 論文題目: 文本分類算法在高校檔案管理中的應用研究 專 業(yè): 計算機技術 碩士生: 王楊帆 簽名 指導教師: 韓家新 簽名 胡耀明 簽名 摘要 隨著我國高等教育的飛速發(fā)展,各高校檔案館所管理的檔案也越來越多,為此許多 高校都已經裝備了檔案管理軟件來對檔案進行計算機管理。然而目前主流的針對高校的 檔案管理軟件都沒有對檔案文件進行自動分類的功能,為減輕高校檔案館業(yè)務人員的工 作量,本文探索一種適合高校檔案的文本自動分類方法。 本文首先較為系統(tǒng)的綜述了中文文本分類算法的發(fā)展進程和當前文本分類算法的 發(fā)展動態(tài),詳細的介紹了文本表示、文本特征選擇、特征提取,特征加權,分類算法、 分類器的構建、分類器性能評估的研究現狀。作者根據高校所管理檔案的特點,對傳統(tǒng) 的中文文本分類算法中的一些步驟進行了改進,,根據高校檔案的周期性、重復性、知識 性等特點,同時借鑒檔案館業(yè)務人員在手工對檔案進行分類時只需通過觀察檔案正題名 和責任者信息即可確定其類別的分類方法。提出了依靠類別詞庫、停用詞庫和責任者詞 庫等基礎詞庫來支持以檔案正題名和責任者為主要分析對象的基于語義的短文本多因 素加權分類算法。在該算法中首先采用統(tǒng)計分析和人工經驗相結合的方法為十個檔案大 類的每個小類分別構造了類別詞及權值,再從己分類的檔案信息中提取責任者信息構造 了責任者詞庫,并通過人工經驗構造了停用詞庫。 在本算法中,首先通過責任者信息確定一份檔案所屬的大類,然后對檔案正題名進 行去停用詞操作并提取其中包含的類別詞和權值,之后通過加權求和比較大小確定該檔 案所屬的類別。實驗表明,在檔案文件的正題名和責任
本文關鍵詞:文本分類算法在高校檔案管理中的應用研究,由筆耕文化傳播整理發(fā)布。
本文編號:185524
本文鏈接:http://sikaile.net/tushudanganlunwen/185524.html