基于自然語言處理的文本分類分析與研究
本文關鍵詞:基于自然語言處理的文本分類分析與研究,由筆耕文化傳播整理發(fā)布。
基于自然語言處理的文本分類分析與研究
1項目的立項依據
1.1 課題研究的背景
隨著信息技術尤其是Internet相關技術的發(fā)展與成熟,Internet、企業(yè)內部網和電子圖書館中可獲得的信息越來越多并且還在不斷增長。面對海量信息,人們已經不能簡單地靠人工來處理所有的信息,需要輔助工具來幫助人們更好地發(fā)現、過濾和管理這些信息資源。信息是什么,如何多快好省的存儲信息,處理信息,傳輸信息和利用信息;圍繞信息有一系列需要研究的科學和工程問題。而且,研究的成果直接與人們的工作生活息息相關。這個課題的背景就是如何利用信息方面。
信息的利用包括眾多方面,比如圖像處理技術幫助醫(yī)務人員從醫(yī)學影像中獲得更多有價值的知識幫助診斷,數據挖掘在金融領域幫助從業(yè)人員從已有的股票數據中獲得某種模式,分析影響走勢的因素,模式分別在航空航天以及信息安全中的應用,都是利用計算機技術幫助信息在各個應用領域能夠被充分的分析,充足的應用,從而分析的發(fā)掘信息的價值。計算機處理過的信息必須經過篩選,挖掘和分析,才能被充分利用,產生效益。這個課題的應用背景之一便是在網絡世界中,從動態(tài)變化,海量大小的網頁中獲取信息,按用戶的需求盡量準確的呈現給用戶。這和當下搜索引擎的目標是一致的。搜索引擎拓展了傳統的信息檢索(IR , Information Retrieval),因為傳統的檢索是在相對靜止的文檔庫中進行,文檔庫的組織形式規(guī)范(很少存在文檔間的鏈接),并且容量不太大,而且信息的形式主要是文本,不涉及圖像、聲音等多媒體信息;ヂ摼W上的搜索引擎還要考慮在大量用戶的時變檢索需求下,能夠以用戶可以接受的時間,將符合用戶檢索需求的網頁返回給檢索用戶,同時希望這個返回的網頁列表盡量滿足用戶的信息需求?傊,就是在海量的,不斷變化的網頁信息庫中,在盡量短的時間里返回盡量準確的網頁列表給用戶。
1.2 課題研究的目的和意義
隨著Internet的飛速發(fā)展,網上電子文檔和電子郵件的信息量成爆炸趨勢,大規(guī)模的文本處理已經成為一個挑戰(zhàn),而文本自動分類是將文本劃分到預定義的類中,幫助人們檢索、查詢、過濾和利用信息的有效手段。這里主要討論文本分類的一般過程,在自然語言處理技術的基礎上,使得用戶能夠迅速找到自己所需要的信息資源。隨著信息技術的發(fā)展,互聯網數據及資源呈現海量特征。為了有效地管理和利用這些分布的海量信息,基于內容的信息檢索和數據挖掘逐漸成為備受關注的領域。其中,文本分類(text categorization,簡稱 TC)技術是信息檢索和文本挖掘的重要基礎,其主要任務是在預先給定的類別標記(label)集合下,根據文本內容判定它的類別。文本分類在自然語言處理與理解、信息組織與管理、內容信息過濾等領域都有著廣泛的應用。20 世紀 90 年代逐漸成熟的基于機器學習的文本分類方法,更注重分類器的模型自動挖掘和生成及動態(tài)優(yōu)化能力,分類效果和靈活性上都比之前基于知識工程和專家系統的文本分類模式有所突破,成為相關領域研究和應用的經典范例。
.
1.3 文本分類研究現狀
隨著信息技術的進步和網絡的不斷擴大,信息資源在全球范圍得到了共享。為了更有效地利用資源,我們必須對這些資源進行分類以便用戶查詢。文本分類是基于文本內容將待定文本劃分到一個或多個預先定義的類中的方法, 最初的文本分類是依靠專家手工進行的,它對領域知識要求較高且花費巨大,不能滿足大規(guī)模文檔處理的要求。文本自動分類能較好地解決大量文檔信息歸類的問題并可以應用到很多情況下,包括基于受控詞典的文檔自動索引、文檔過濾、元數據的自動生成、詞義辨別、類似于Yohoo!的 Web資源層次分類等,它是很多信息管理任務的重要組成部分[1]。
在人們看來,分類是對信息的一種最基本的認知形式。傳統的文獻分類研究有著豐富的研究成果和相當的實用水平。但隨著文本信息的快速增長,特別是Internet上在線文本信息的激增,文本自動分類已經成為處理和組織大量文檔數據的關鍵技術,F在,文本分類正在各個領域得到廣泛的應用。但是,隨著信息量日趨豐富,人們對于內容搜索的準確率、查全率等方面的要求會越來越高,因而對文本分類技術需求大為增加,所以一個有效地文本分類系統是很重要的。
自動分類研究始于50年代末,H. p. Luhn在這一領域進行了開創(chuàng)性的研究。1961年,Maron發(fā)表了有關自動分類的第一篇論文[2],隨后許多著名的情報學家如Sparck、Salton等[3~6]都在這一領域進行了卓有成效的研究。到八十年代末之前,有效的建立自動分類系統的方法大多是知識工程的方法,即利用專家規(guī)則來進行分類;到了九十年代以后,統計方法和機器學習的方法被引入到文本自動分類中,取得了豐碩的成果并逐漸取代了知識工程方法;機器學習方法較少考慮文本的語義信息,因此將語義分析和概念網絡等方法與機器學習方法相結合會取得更好的分類效果。Web文檔中包含了鏈接、文檔結構等更豐富的信息,利用這些信息進行Web文檔的挖掘和分類[7]是目前研究的熱點之一。
2基于自然語言處理的文本分類的基本概念和實現過程
2.1 自然語言處理(Natural Language Processing,NLP)
自然語言處理技術被用來對自然語言進行處理,目的是讓計算機“理解”自然語言的內容(NLP的基本處理模式如圖1所示)。
圖1 NLP的基本處理模式
分析器對輸入字符串的詞匯、句法特征作出描述,并用結構表達式給以記錄,同時將語義賦給這些結構式。分析器本身可由不同的子分析器組成,或自頂向下,或自低向上,分別對詞匯、句法、語義進行逐層分析。
詞典是一個詞匯的集合。一般由詞根和詞綴組成,按一定規(guī)則與輸入的詞匯匹配,并將其攜帶的句法、語義或語用信息賦給輸入詞,這些信息在確定詞匯在句中的句法和語義功能方面起著重要作用。
分析器是 NLP的核心。根據不同的分析方式,把NLP的分析技術分為四類,即模式匹配分析技術、句法-語義分析技術、基于知識的分析技術和基于語料庫的分析技術。
自然語言處理包括自然語言處理技術和自然語言處理資源。信息檢索中常常使用到的自然語言處理技術包括去除停止詞、取詞根、詞性標注、詞義消歧、句法分析、 命名實體識別、 指代消解等, 自然語言處理資源包括的則是WordNet和HowNet這樣的詞典。
自然語言處理技術最大的難點在于自然語言中有各種級別的歧義難以消除,包括詞匯級別、句法級別和語義級別。歧義的存在使計算機在“理解”自然語言時發(fā)生了困難,并很可能出現了錯誤。所以圖1中分析器是自然語言處理的核心,只有這個過程處理的效率高對于文本分類才有很大的幫助。也就是說自然語言處理技術的發(fā)展可以促進文本分類的發(fā)展。
2.2文本分類
文本自動分類是分析待定文本的特征,并與已知類別中文文本所具有的共同體征進行比較,然后將待定文本劃歸為特征最接近的一類并賦予相應的分類號。
也就是將大量文本文檔劃分為若干組,每組一個類別,使得各個類別代表不同的概念主題。這種分類通常是一個有指導的學習過程。它根據一個已經被標注的訓練文檔集合,找到文檔體征和文檔類別之間的關系模型,然后利用這種學習得到的關系模型對新的文檔進行類別判斷。
2.2.1 文本分類的定義
定義:是文本自動分類(ATC, Automated Text Classification)的簡稱,是指用計算機程序自動確定指定文檔和預先指定類別的隸屬關系[8]。比如指定一篇文本屬于體育類別,或者屬于音樂類別,政治類別等預先設定好的一個或者多個類別。
完成文本分類主要有三大思路。一種最直觀的方式是簡單的匹配,比如某文本中類別詞出現多就認為屬于這個類別,這種方法比較粗糙,因為往往類別詞是“元數據”性質的,因此并不一定會多次出現在屬于這個類別的文本中。比如政治類別的文章可能很少出現“政治”這個詞。因此,,第二種方法發(fā)展了第一種方法,統計類別元素下專家認為可能出現的詞,認為如果這些詞出現的次數多,則相應文本屬于這個類別。可以認為這是一種基于規(guī)則的知識工程的方法,規(guī)則由專家制定,制定過程繁復并且容易出錯,成本也很高。因此現在廣泛采用的方法是統計學習的方法。這里也是采用這種機器學習的方法,同時,結合自然語言處理的技術來完成文本分類。
文本分類所針對的文本在使用的語言上有單一語種或者交叉語種的情況,在這里研究的是在單一語種情況。而且不同語種的文本分類在預處理階段的工作略有不同,會涉及到采用不同的自然語言處理技術。本文工作是針對漢語文本進行,因此需要先對文本進行分詞。
2.2.2 文本分類的一般過程和框架
文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特征抽取等步驟。本分類系統的總體框架如圖2所示,其主要功能模塊為:
(1)預處理:將原始語料格式化為同一格式,便于后續(xù)的統一處理;
(2)索引:將文檔分解為基本處理單元,同時降低后續(xù)處理的開銷;
(3)統計:詞頻統計,項(單詞、概念)與分類的相關概率;
(4)特征抽取:從文檔中抽取出反映文檔主題的特征;
(5)分類器:分類器的訓練;
(6)評價:分類器的測試結果分析。
圖2 文本分類系統的總體框架
3基于自然語言處理的文本分類關鍵技術
3.1 文本預處理技術
在這個過程中就要應用到自然語言處理,對文本進行預處理,文本預處理即去掉一些文本標記,在英文中包括去除禁用詞,詞根還原等,在中文中包括詞性標注,一般選擇名詞作為特征項,因為名詞包含豐富的信息量。主要任務包括:文本建模、特征選擇和抽取。
3.2 文本分類的主要算法
(1)原型法文本分類算法,構造每個類的原型向量,分類時分別計算待分類文本與每個類原型向量的相似度,相似度最大的類即為文本對應的類該方法訓練于分類時間較短,效果一般,是一種比較簡單的分類方法。
(2)SVM分類方法
Vapnik等人在多年研究統計學習理論基礎上對線性分類器提出了另一種設計最佳準則。其原理也從線性可分說起,然后擴展到線性不可分的情況。甚至擴展到 使用非線性函數中去,這種分類器被稱為支持向量機(Support Vector Machine,簡稱SVM)。支持向量機的提出有很深的理論背景。支持向量機方法是在近年來提出的一種新方法。
原創(chuàng)學術論文網Tag:
本文關鍵詞:基于自然語言處理的文本分類分析與研究,由筆耕文化傳播整理發(fā)布。
本文編號:144324
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/144324.html