中文問答系統(tǒng)中問題分類相關(guān)技術(shù)的研究
發(fā)布時間:2017-06-11 19:12
本文關(guān)鍵詞:中文問答系統(tǒng)中問題分類相關(guān)技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:問答系統(tǒng)是比傳統(tǒng)搜索引擎更智能的形式,它不要求用戶輸入需要檢索的關(guān)鍵字,而可以是一個用自然語言提出的簡單的句子,返回的也是精確的答案而不是與答案相關(guān)的文檔或網(wǎng)頁。問答系統(tǒng)主要包括三個模塊:問題理解、信息檢索和答案抽取。當(dāng)用戶輸入一個問題,首先要通過問題分類來了解用戶的提問目的,確定答案需要滿足的條件,然后從大規(guī)模的網(wǎng)絡(luò)中搜索出相關(guān)的信息,最后答案抽取模塊根據(jù)問題類別的約束條件整理出精確的答案。問題分類是問答系統(tǒng)的重要部分,它不僅能夠控制候選答案空間,而且能夠決定答案的抽取策略,從而提高系統(tǒng)返回答案的準確率。問題分類的一般內(nèi)容包括:分詞、詞干提取、去除停用詞、特征提取和多類別分類。本文重點對問題分類的方法和技術(shù)進行研究,最終通過機器學(xué)習(xí)的方法實現(xiàn)自動問題分類。由于數(shù)據(jù)具有海量、高相關(guān)性和非線性的特點,所以如何選擇原始數(shù)據(jù)的本質(zhì)特征,是關(guān)系到能否有效提高問題分類器推廣能力的關(guān)鍵問題。本文改進了目前根據(jù)所有特征以及基于詞袋和詞序列袋的特征選擇方法,提出采用隨機森林和支持向量機(SVM)相結(jié)合的方法來進行特征選擇。改進了基于一對多分割二叉樹支持向量機中的SMO分解算法。實驗證明,這些方法能夠有效的選擇分類特征,分類準確率能達到87.18%。本文重點研究成果如下:1)整理數(shù)據(jù)集(娛樂方面),通過實驗比較不同問題分類方法的分類精度。2)問題分類特征選擇,提出三種不同深度的特征選擇方法,實驗結(jié)果顯示采用隨機森林和支持向量機相結(jié)合的方法最有效。3)采用一對多分割二叉樹支持向量機的方法對問題進行分類,結(jié)合本文提出的特征選擇策略,針對娛樂方面的問題實現(xiàn)自動問題分類。
【關(guān)鍵詞】:機器學(xué)習(xí) 特征選擇 隨機森林 支持向量機 二叉樹
【學(xué)位授予單位】:遼寧科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 中文摘要5-6
- ABSTRACT6-9
- 1. 緒論9-15
- 1.1 課題研究背景和意義9-10
- 1.2 問答系統(tǒng)綜述10-13
- 1.2.1 問答系統(tǒng)體系結(jié)構(gòu)10-11
- 1.2.2 問答系統(tǒng)國內(nèi)外研究現(xiàn)狀11-13
- 1.3 本文研究主要內(nèi)容13-14
- 1.4 論文組織結(jié)構(gòu)14-15
- 2. 問答系統(tǒng)相關(guān)技術(shù)及算法的比較與分析15-29
- 2.1 問題理解階段15-18
- 2.1.1 問句預(yù)處理15-16
- 2.1.2 問題分類16-18
- 2.2 信息檢索階段18
- 2.3 答案抽取階段18-19
- 2.4 基于支持向量機的問題分類19-28
- 2.4.1 支持向量機基礎(chǔ)19-20
- 2.4.2 二分類問題20-23
- 2.4.3 模型及參數(shù)選擇23
- 2.4.4 分類模型準確率的估計方法23-24
- 2.4.5 多分類模型24-28
- 2.5 本章小結(jié)28-29
- 3. 特征選擇策略研究29-39
- 3.1 特征選擇的重要性29
- 3.2 特征選擇基礎(chǔ)知識29-31
- 3.2.1 信息增益(Information Gain)29-30
- 3.2.2 互信息(Mutual Information)30
- 3.2.3 x~2 統(tǒng)計30-31
- 3.3 基本特征選擇31-33
- 3.3.1 基于bag-of-words和N-gram選擇特征31
- 3.3.2 基于詞性和詞意選擇特征31-32
- 3.3.3 基于依存關(guān)系選擇特征32
- 3.3.4 基于組合選擇特征32-33
- 3.4 本文提出的方法33-38
- 3.4.1 根據(jù)分數(shù)選擇特征(F+SVM)34-36
- 3.4.2 根據(jù)分數(shù)和隨機森林選擇特征(F+RF+SVM)36-37
- 3.4.3 根據(jù)隨機森林和SVM相結(jié)合選擇特征(RF+RM-SVM)37-38
- 3.5 本章小結(jié)38-39
- 4. 基于一對多分割二叉樹支持向量機的問題分類39-51
- 4.1 決策樹基礎(chǔ)知識39-43
- 4.1.1 有向無環(huán)圖支持向量機39-40
- 4.1.2 自適應(yīng)有向無環(huán)圖40-41
- 4.1.3 中心二叉樹支持向量機41-43
- 4.2 算法的主要思想43-44
- 4.3 劃分函數(shù)44
- 4.4 SMO算法及其改進44-48
- 4.4.1 SMO算法44-46
- 4.4.2 改進的SMO算法46-48
- 4.5 算法的主要過程48
- 4.6 分類算法復(fù)雜度分析48-50
- 4.6.1 基于SVM多分類算法復(fù)雜度比較48-49
- 4.6.2 基于SVM和高階支持向量機(SHTM)多分類算法的時間復(fù)雜度比較49-50
- 4.7 本章小結(jié)50-51
- 5. 中文問題分類系統(tǒng)51-61
- 5.1 系統(tǒng)結(jié)構(gòu)設(shè)計51-52
- 5.2 功能模塊實現(xiàn)52-55
- 5.3 典型問題分類算法實驗結(jié)果比較55-56
- 5.4 本文提出的特征選擇策略實驗結(jié)果分析56-59
- 5.4.1 BER值比較56-57
- 5.4.2 分數(shù)臨界值分析57-59
- 5.4.3 問題分類精度比較59
- 5.5 本章小結(jié)59-61
- 6. 總結(jié)與展望61-63
- 6.1 總結(jié)61
- 6.2 展望61-63
- 參考文獻63-66
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況66-67
- 致謝67-68
- 作者簡介68-69
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 槰起;;不一定,
本文編號:442295
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/442295.html
最近更新
教材專著