天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向自動(dòng)問(wèn)答的短問(wèn)題分類研究

發(fā)布時(shí)間:2017-08-02 09:38

  本文關(guān)鍵詞:面向自動(dòng)問(wèn)答的短問(wèn)題分類研究


  更多相關(guān)文章: 問(wèn)題分類 自動(dòng)問(wèn)答 深度學(xué)習(xí) 語(yǔ)義知識(shí)庫(kù) 特征選擇 語(yǔ)義擴(kuò)展


【摘要】:隨著科技的飛速前進(jìn),互聯(lián)網(wǎng)的不斷發(fā)展,信息不斷的增長(zhǎng),如何從海量信息中快速準(zhǔn)確地獲取有用信息逐漸演變成一個(gè)愈發(fā)重要的課題。自動(dòng)問(wèn)答系統(tǒng)作為一種特殊的搜索引擎,重新回到了學(xué)者們研究的視線,它有別于傳統(tǒng)的搜索引擎,能夠理解用戶以口語(yǔ)化表達(dá)的問(wèn)題,并從后臺(tái)知識(shí)庫(kù)中直接返回正確答案。自動(dòng)問(wèn)答系統(tǒng)主要分為問(wèn)題分類、問(wèn)題理解、答案的抽取和消岐等步驟,其中問(wèn)題分類占據(jù)著關(guān)鍵步驟中的首要位置,它可以為問(wèn)題理解、答案的選取等后續(xù)步驟提供語(yǔ)義限制和約束。從信息論角度來(lái)說(shuō),數(shù)據(jù)所包含的信息是可以被量化的,如果信息的增多使得該事件不確定性減少,則增加的信息是與該事件相關(guān)的;反之,信息的增多沒(méi)有使得該事件的不確定性減少,則增加的信息與該事件是不相關(guān)的。問(wèn)題分類一般都是借助文本分類的思想,但與一個(gè)文本相比,一個(gè)問(wèn)句(短文本)所包含的信息相對(duì)較少,需要對(duì)問(wèn)句中僅有的信息進(jìn)行分析從而確定其類別,因此,對(duì)于問(wèn)題分類來(lái)說(shuō),存在著諸多挑戰(zhàn),主要有:用于問(wèn)題所構(gòu)建的特征向量空間模型維數(shù)過(guò)大,且特征向量相關(guān)性較;問(wèn)題相對(duì)短小,形成的特征向量空間也過(guò)于稀疏。為了克服上述兩個(gè)難題,本文著眼于詞語(yǔ)的語(yǔ)義,構(gòu)造了具有語(yǔ)義支持能力的知識(shí)庫(kù),并將深度學(xué)習(xí)運(yùn)用到向量的特征學(xué)習(xí)中,實(shí)現(xiàn)了一種基于語(yǔ)義信息的特征學(xué)習(xí)和基于語(yǔ)義信息的問(wèn)題分類方法。具體研究如下:(1)利用百度百科信息和互信息理論計(jì)算詞語(yǔ)語(yǔ)義相關(guān)度。該方法將百度百科詞條與其詞條標(biāo)簽作為圖中節(jié)點(diǎn),根據(jù)它們之間存在的鏈接關(guān)系對(duì)其進(jìn)行詞條聚合,然后利用互信息計(jì)算百科詞條語(yǔ)義相關(guān)度,再選擇相關(guān)度值較大的作為與其相關(guān)的詞條。(2)分析了常用的文本特征選擇方法,并實(shí)現(xiàn)了獲取特定文本語(yǔ)料中語(yǔ)義類別知識(shí)庫(kù)的方法,然后利用構(gòu)建好的語(yǔ)義相關(guān)度知識(shí)庫(kù)對(duì)問(wèn)句中的詞語(yǔ)進(jìn)行語(yǔ)義擴(kuò)展;以及利用語(yǔ)義類別知識(shí)庫(kù)對(duì)問(wèn)句中的詞語(yǔ)進(jìn)行語(yǔ)義泛化,為后續(xù)的分類做好準(zhǔn)備。(3)利用深度學(xué)習(xí)對(duì)短問(wèn)句進(jìn)行特征學(xué)習(xí)。由于以詞語(yǔ)作為特征維數(shù)高,因此首先需要對(duì)其進(jìn)行語(yǔ)義擴(kuò)展初步減少特征向量空間的維度,再進(jìn)行語(yǔ)義泛化再次降低維度,使得詞語(yǔ)的維度小于5000,接著利用深度學(xué)習(xí)對(duì)其特征進(jìn)行學(xué)習(xí)和分類。(4)實(shí)現(xiàn)了基于語(yǔ)義信息的問(wèn)題分類方法,分別對(duì)不同特征選擇方法、語(yǔ)義擴(kuò)展、語(yǔ)義泛化的結(jié)果利用不同的分類算法進(jìn)行實(shí)驗(yàn)對(duì)比。最終找到適合本實(shí)驗(yàn)數(shù)據(jù)的分類方法與流程。為了驗(yàn)證本文方法的有效性,以數(shù)據(jù)堂手機(jī)語(yǔ)音助手實(shí)網(wǎng)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。實(shí)驗(yàn)表明,本文構(gòu)建的語(yǔ)義知識(shí)庫(kù)能提供語(yǔ)義支持,且基于語(yǔ)義信息的問(wèn)題分類方法解決了特征向量空間維數(shù)高、相關(guān)性小、數(shù)據(jù)稀疏等問(wèn)題,本文的特征學(xué)習(xí)方法和利用softmax函數(shù)進(jìn)行分類的方法也是可行的,能得到好的效果。
【關(guān)鍵詞】:問(wèn)題分類 自動(dòng)問(wèn)答 深度學(xué)習(xí) 語(yǔ)義知識(shí)庫(kù) 特征選擇 語(yǔ)義擴(kuò)展
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要6-8
  • Abstract8-13
  • 第1章 緒論13-18
  • 1.1 研究背景13-14
  • 1.2 研究現(xiàn)狀14-16
  • 1.3 研究?jī)?nèi)容16
  • 1.4 研究方案16-17
  • 1.5 論文章節(jié)安排17-18
  • 第2章 基于互信息的網(wǎng)絡(luò)百科詞條相關(guān)度計(jì)算18-30
  • 2.1 詞條相關(guān)度計(jì)算方法概述18-19
  • 2.2 相關(guān)工作19-21
  • 2.2.1 通過(guò)語(yǔ)義知識(shí)庫(kù)的詞條相關(guān)度計(jì)算方法19-20
  • 2.2.2 基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)信息計(jì)算詞條相關(guān)度的方法20
  • 2.2.3 基于網(wǎng)絡(luò)百科的詞條相關(guān)度計(jì)算方法20-21
  • 2.3 算法介紹21-26
  • 2.3.1 百度百科網(wǎng)頁(yè)結(jié)構(gòu)21-22
  • 2.3.2 算法流程22-23
  • 2.3.3 互信息(MI)算法的理論基礎(chǔ)23
  • 2.3.4 互信息算法的實(shí)現(xiàn)23-26
  • 2.4 實(shí)驗(yàn)結(jié)果26-29
  • 2.4.1 實(shí)驗(yàn)數(shù)據(jù)26
  • 2.4.2 實(shí)驗(yàn)結(jié)果26-29
  • 2.5 本章小結(jié)29-30
  • 第3章 特征選取與降維30-43
  • 3.1 相關(guān)工作30-31
  • 3.2 文本預(yù)處理31-34
  • 3.2.1 分詞處理31-34
  • 3.2.2 去除停用詞34
  • 3.3 如何選取特征34-37
  • 3.3.1 bag-of-words特征35
  • 3.3.2 N-gram特征35
  • 3.3.3 詞性特征35-36
  • 3.3.4 詞意特征36
  • 3.3.5 特征選擇算法36-37
  • 3.4 語(yǔ)義擴(kuò)展和語(yǔ)義泛化37-42
  • 3.4.1 語(yǔ)義擴(kuò)展37-39
  • 3.4.2 語(yǔ)義泛化39-42
  • 3.5 本章小結(jié)42-43
  • 第4章 基于DBN的特征學(xué)習(xí)43-49
  • 4.1 研究背景43
  • 4.2 相關(guān)工作43-44
  • 4.3 深度置信網(wǎng)絡(luò)44-45
  • 4.4 限制玻爾茲曼機(jī)RBM45-46
  • 4.5 對(duì)比散度(CONTRASTIVE DIVERGENCE)46-47
  • 4.6 SOFTMAX函數(shù)回歸47-48
  • 4.7 本章小結(jié)48-49
  • 第5章 手機(jī)語(yǔ)音助手實(shí)網(wǎng)數(shù)據(jù)問(wèn)題分類49-59
  • 5.1 手機(jī)助手語(yǔ)音數(shù)據(jù)分類的特點(diǎn)49
  • 5.2 分類的整體框架49-50
  • 5.3 實(shí)驗(yàn)設(shè)置50-58
  • 5.3.1 實(shí)驗(yàn)數(shù)據(jù)50-51
  • 5.3.2 評(píng)價(jià)指標(biāo)51
  • 5.3.3 基本特征的選取51-54
  • 5.3.4 訓(xùn)練數(shù)據(jù)的選取54
  • 5.3.5 語(yǔ)義泛化54-55
  • 5.3.6 分類算法55-56
  • 5.3.7 語(yǔ)義擴(kuò)展56-57
  • 5.3.8 深度學(xué)習(xí)57-58
  • 5.4 本章小結(jié)58-59
  • 第6章 原型系統(tǒng)的構(gòu)建59-66
  • 6.1 整體框架59-60
  • 6.2 詞條相關(guān)度計(jì)算模塊60
  • 6.3 文本預(yù)處理60-61
  • 6.4 特征選擇61-62
  • 6.5 語(yǔ)義擴(kuò)展62
  • 6.6 語(yǔ)義泛化62-63
  • 6.7 分類算法63-65
  • 6.8 深度學(xué)習(xí)65-66
  • 結(jié)論66-68
  • 致謝68-69
  • 參考文獻(xiàn)69-73
  • 攻讀碩士學(xué)位期間發(fā)表的論文及科研成果73

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 陳翠平;;基于深度信念網(wǎng)絡(luò)的文本分類算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2015年02期

2 翟繼友;;基于深度置信網(wǎng)絡(luò)的語(yǔ)義相關(guān)度計(jì)算模型[J];科學(xué)技術(shù)與工程;2014年32期

3 尹坤;尹紅風(fēng);楊燕;賈真;;基于SimRank的百度百科詞條語(yǔ)義相似度計(jì)算[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2014年03期

4 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期

5 張巍;陳俊杰;;信息熵方法及在中文問(wèn)題分類中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2013年10期

6 延霞;范士喜;;面向問(wèn)答社區(qū)的粗粒度問(wèn)句分類算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年01期

7 邱錫鵬;繆有棟;黃萱菁;;基于主動(dòng)學(xué)習(xí)的中文問(wèn)題分類數(shù)據(jù)集構(gòu)建[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2012年05期

8 劉小明;樊孝忠;李方方;;一種結(jié)合本體和焦點(diǎn)的問(wèn)題分類方法[J];北京理工大學(xué)學(xué)報(bào);2012年05期

9 曾淑琴;吳揚(yáng)揚(yáng);;基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型[J];微型機(jī)與應(yīng)用;2012年08期

10 鄭艷紅;張東站;;基于同義詞詞林的文本特征選擇方法[J];廈門大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年02期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 王紅玲;呂強(qiáng);徐瑞;;一種基于知網(wǎng)的中文語(yǔ)義相關(guān)度計(jì)算模型[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 陳宇;基于深度置信網(wǎng)絡(luò)的中文信息抽取方法[D];哈爾濱工業(yè)大學(xué);2014年

,

本文編號(hào):608671

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/608671.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9ec98***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com