文本分類關鍵技術及應用研究
發(fā)布時間:2017-08-10 14:30
本文關鍵詞:文本分類關鍵技術及應用研究
更多相關文章: 文本分類 特征選擇 垃圾郵件分類 性別分類 查詢意圖識別 主動學習 用戶興趣
【摘要】:以互聯網技術的發(fā)展為基礎,電子文本信息的數量日益增加。如果僅憑人工方法組織和管理這些文本數據,不僅需要消耗大量的人力和時間,而且也很難實現,因此,文本分類作為處理文本數據的關鍵技術就顯得尤其重要,它是文本信息挖掘的基本功能,也成為了處理和組織文本數據的核心技術,得到了學者們的廣泛關注,也具有非常廣闊的應用前景。目前為止,文本分類技術被廣泛應用于信息過濾、郵件分類、搜索引擎、查詢意圖預測、主題跟蹤、文本語料庫構建等多個領域,可以方便用戶快速定位所需信息,解決雜亂數據的分類問題。文本分類技術與人們的工作、生活越來越密切相關,人們對文本處理系統的智能化和個性化要求也越來越高。如何在提高文本分類方法精度的同時,滿足更高的個性化需求,是文本分類方法所要面臨的新的挑戰(zhàn)。本文對文本分類的基礎理論知識和相關技術進行了研究,分析了目前文本分類研究中存在的熱點問題,從提高分類方法的快速性、準確性和個性化角度出發(fā),首先提出一種特征選擇方法,實現特征空間降維;然后利用分析和挖掘到的用戶興趣信息,針對文本分類的幾個有代表性的應用領域,分別提出了一種垃圾郵件分類方法、一種用戶性別分類方法和一種網絡用戶查詢意圖識別方法。本文的研究內容和創(chuàng)新工作主要包括以下四點:1.一種基于隨機游走和蜂群算法的特征選擇方法本文提出了一種基于隨機游走的特征選擇方法,能夠在不犧牲分類器性能的前提下,有效減少特征空間的維度。由于傳統的特征選擇方法總是包含一些冗余信息,而分類器卻難以處理較大的特征維度,因此需要將噪聲、不相關的和冗余的信息從原始特征空間中過濾掉。該方法首先利用一種最優(yōu)的特征選擇方法(OPFS)從訓練集中選擇特征。其次,結合隨機游走算法和預先定義好的閾值,將冗余的特征過濾掉。在尋找最優(yōu)閾值的過程中,為了優(yōu)化參數,采用了改進的人工蜂群算法(IMABC)。最后,在四個經典的文本分類數據集上進行了實驗,分別是:mini news group,20-Newsgroups,Reuters-21578和Web KB。實驗結果表明,與六種經典的特征選擇方法相比,本文方法取得了較好的效果。通過計算F1值,可以看出本文方法在保證了分類精度的同時,可以很大程度上減少向量空間的維度。2.一種基于主動學習和增量學習的垃圾郵件分類方法為了更好地滿足用戶的個性化需求,以文本分類中一種典型的二元分類問題—垃圾郵件分類為研究對象,引入了基于詞頻的用戶興趣集的概念,可以在不犧牲垃圾郵件識別精度的情況下,達到有效提高垃圾郵件識別速度,且保證垃圾郵件過濾時的個性化需求的目的。首先,通過聯合使用基于詞頻的用戶興趣集和樸素貝葉斯分類器處理垃圾郵件分類問題;其次,提出了一種基于邊界密度的垃圾郵件分類確定性評價方法,將最不確定的郵件選擇出來,并推薦給用戶進行標注,該方法應用了主動學習的基本原理;最后,基于增量學習理論,將被用戶標注過的郵件以及具有最大可能性被正確分類的郵件,用于分類器的再訓練。在垃圾郵件分類領域的兩個通用數據集Trec 2007和Enron-spam上進行了對比實驗,實驗結果表明,與六種經典的基于主動學習和增量學習的方法相比,本文方法在保證了分類系統準確性的情況下,減少了垃圾郵件分類的時間開銷;此外,由于采用的主動學習方法與傳統主動學習方法相比,需要用戶進行標注的樣本更少,因而降低了用戶標注的負擔。3.一種基于聚類的文本作者性別分類方法為了解決文本分類領域中有標記的訓練樣本獲取困難,人工標注負擔較大的問題,提出了一種基于聚類的文本作者性別分類方法。首先,采用聚類技術對未標注樣本集進行聚類,并結合不同聚類半徑信息,提出聚類確定性判定因子,選擇邊界區(qū)域特定樣本實施專家標注以構建訓練樣本集并改善樣本集質量;其次,結合使用了文檔結構特征、文檔內容特征和男女作者興趣特征進行樣本表示;最后,使用序列最小優(yōu)化算法從訓練樣本中學習到分類器,以實現新樣本的分類。多種對比實驗表明,一方面,使用聚類方法構建訓練集,減少了人工標注負擔,而聚類確定性判定因子的使用解決了邊界樣本類別不確定的問題;另一方面,算法結合了文檔結構特征、文檔內容特征和男女興趣特征作為特征,對于提升算法分類精度有著一定的意義。4.一種基于用戶興趣的查詢意圖識別方法網絡用戶查詢意圖識別問題是Web文本分類的一個重要應用。我們在研究了文本分類問題基礎理論和應用領域的基礎上,將文本分類技術應用于Web文本分類領域中,本文提出了一種基于用戶興趣的查詢意圖分類方法,通過挖掘出用戶的興趣習慣,可以更好的識別用戶的查詢意圖,實現個性化、智能化的檢索。首先,結合ODP開放目錄定義了初始主題類別集合,用作預先確定的用戶興趣類別集;其次,通過對用戶瀏覽日志中的網頁分類,計算用戶在興趣類別上的興趣度,以構建用戶興趣模型;與此同時,對于給定的查詢,通過聚類方法獲得該查詢的全部子意圖;最后,利用獲得的用戶興趣模型和查詢的子意圖,識別出最符合用戶需求的查詢意圖。實驗結果表明,用戶興趣模型可以較好的識別用戶感興趣的領域,并能區(qū)分出用戶針對不同興趣類別的喜好程度;而結合了用戶興趣的查詢意圖識別算法識別精度較高,且更具有個性化。
【關鍵詞】:文本分類 特征選擇 垃圾郵件分類 性別分類 查詢意圖識別 主動學習 用戶興趣
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 提要4-5
- 摘要5-8
- Abstract8-15
- 第1章 緒論15-29
- 1.1 研究背景及意義15-18
- 1.1.1 研究背景15-16
- 1.1.2 研究意義16-18
- 1.2 國內外研究現狀18-25
- 1.2.1 文本分類歷史18-19
- 1.2.2 文本分類研究現狀19-25
- 1.3 本文的主要工作25-27
- 1.4 本文的組織結構27-29
- 第2章 文本分類概述29-50
- 2.1 問題描述29-30
- 2.2 文本分類框架30-31
- 2.3 預處理31-32
- 2.4 文本表示32-35
- 2.4.1 文本特征的定義32-33
- 2.4.2 文本表示模型33-35
- 2.5 特征降維35-37
- 2.5.1 特征提取35-36
- 2.5.2 特征選擇36-37
- 2.6 特征權重計算37-39
- 2.7 文本分類器設計39-46
- 2.8 文本分類性能評測46-50
- 2.8.1 評價方法46-47
- 2.8.2 評價標準47-50
- 第3章 基于隨機游走和蜂群算法的特征選擇方法50-69
- 3.1 引言50-51
- 3.2 相關原理51-55
- 3.3 基于隨機游走和蜂群算法的特征選擇方法55-60
- 3.3.1 算法描述55-57
- 3.3.2 閾值 Δ 的選擇57-60
- 3.4 實驗結果與分析60-67
- 3.5 本章小結67-69
- 第4章 基于主動學習和增量學習的垃圾郵件分類方法69-87
- 4.1 引言69-70
- 4.2 相關理論70-72
- 4.3 基于主動學習和增量學習的垃圾郵件分類方法72-80
- 4.3.1 特征選擇和樣本訓練73
- 4.3.2 樣本分類73-74
- 4.3.3 分類確定性評價74-76
- 4.3.4 樣本標注76-77
- 4.3.5 更新基于詞頻的正負興趣集及訓練樣本集77-78
- 4.3.6 樣本分類的時間復雜性分析78-80
- 4.4 實驗結果與分析80-86
- 4.4.1 閾值"康難≡,
本文編號:651220
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/651220.html