面向特定域智能問答系統(tǒng)的研究與應(yīng)用
發(fā)布時間:2021-10-26 21:26
在互聯(lián)網(wǎng)時代,搜索引擎成為人們獲取信息的主要方式。人們只需要輸入想查閱的關(guān)鍵詞,搜索引擎即可返回相關(guān)的網(wǎng)頁。然而,搜索引擎也有一些不足,比如關(guān)聯(lián)頁面多、內(nèi)容繁瑣等。因此,需要一種更為簡單高效的獲取信息的方式,故問答系統(tǒng)應(yīng)運(yùn)而生。面對網(wǎng)絡(luò)的海量信息,特定域問答系統(tǒng)因其可行性高和用途廣泛而備受關(guān)注。本文致力于面向特定域智能問答系統(tǒng)的研究,主要研究內(nèi)容分為以下三個部分。(1)針對特定域的知識庫自動構(gòu)建方法。首先提出一種基于SVM及文本密度的網(wǎng)頁信息提取方法,通過該方法可以有效定位網(wǎng)頁正文信息并自動爬取;其次提出了一種文本主題劃分及TextRank中心句提取的方法,該方法會自動對文本主題的中心句進(jìn)行提取,并將中心句作為問答信息存儲到知識庫中;本文提出的知識庫自動構(gòu)建方法在實驗和實際應(yīng)用中都取得了良好的效果。(2)基于特定域的知識庫檢索的智能問答。采用布爾倒排序索引法從知識庫過濾出候選回復(fù)集,然后使用相似度算法對候選回復(fù)集進(jìn)行精確篩選得到最佳回復(fù)并返還給用戶;本文提出了一種基于詞向量及位置編碼的Jaccard的相似度算法,實驗結(jié)果表明,該方法不僅有較高的準(zhǔn)確率,而且對詞序有較好的辨識能力。(3)...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文結(jié)構(gòu)框架
青島科技大學(xué)研究生學(xué)位論文13(1)先對網(wǎng)頁進(jìn)行預(yù)處理并生成DOM樹。(2)遍歷DOM樹獲得文本塊并加入到隊列中。(3)利用特征提取器對每個文本塊進(jìn)行密度特征提齲(4)將文本塊密度特征輸入到SVM數(shù)據(jù)模型中,返回相應(yīng)結(jié)果R。(5)保存R>0的文本塊(R為結(jié)果值,R<0:噪音塊,R>0:正文塊)。根據(jù)上述方法,得到正文塊的具體步驟如圖2-1所示:圖2-1正文塊分類模型流程圖Figure2-1Flowchartoftextblockclassificationmodel2.1.3正文塊內(nèi)降噪經(jīng)過上述步驟處理之后,就可以獲得正文塊。但正文塊中仍有一些需要去除的噪聲信息。研究分析發(fā)現(xiàn)塊內(nèi)噪音一般存在以下特點:(1)噪音信息不會太長,通常只有幾個詞,而且不包含標(biāo)點符號信息。(2)它通常存在于正文塊的頭部或尾部,并且不會出現(xiàn)在混淆文本內(nèi)容的段落。
青島科技大學(xué)研究生學(xué)位論文15圖2-2正文段落分類模型流程圖Figure2-2Flowchartofbodyparagraphclassificationmodel根據(jù)上述步驟處理后得到的正文段落的純度比較高,可以很大程度上滿足特定域知識庫對數(shù)據(jù)純度的要求,并為開展下一步工作提供了很大的幫助。2.2文本中心句抽取方法根據(jù)用戶調(diào)查發(fā)現(xiàn),用戶更加容易接受簡短明了的信息,長篇的敘述會影響用戶的體驗度。爬取后的文本內(nèi)容因涉及主題多,信息內(nèi)容繁雜,因此無法直接作為答案返給用戶。因此本章提出一種文本主題劃分與TextRank中心句抽取的方法,先將文本段落劃分主題,然后對不同主題進(jìn)行提取中心句,中心句是當(dāng)前主題的精華所在,一定程度上代表主題思想,這樣可以精簡文章內(nèi)容,從而達(dá)到簡化答案,提高問答系統(tǒng)回復(fù)質(zhì)量的效果。2.2.1詞向量模型Mikolo等人[67]在2013年提出CBOW和Skip-gram兩種模型。同時也成為
【參考文獻(xiàn)】:
期刊論文
[1]一種基于SVM及文本密度特征的網(wǎng)頁信息提取方法[J]. 周艷平,李金鵬,宋群豹. 計算機(jī)應(yīng)用與軟件. 2019(10)
[2]基于同義詞詞林的句子語義相似度方法及其在問答系統(tǒng)中的應(yīng)用[J]. 周艷平,李金鵬,蔡素. 計算機(jī)應(yīng)用與軟件. 2019(08)
[3]基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J]. 陳晨,朱晴晴,嚴(yán)睿,柳軍飛. 計算機(jī)學(xué)報. 2019(07)
[4]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平. 計算機(jī)科學(xué). 2018(07)
[5]基于結(jié)構(gòu)相似網(wǎng)頁聚類的正文提取算法研究[J]. 王海涌,馮兆旭,楊海波,張津棟. 計算機(jī)工程與應(yīng)用. 2018(11)
[6]基于知識圖譜的智能客服系統(tǒng)研究[J]. 饒竹一,張云翔. 電力信息與通信技術(shù). 2017(07)
[7]基于Web的問答系統(tǒng)綜述[J]. 李舟軍,李水華. 計算機(jī)科學(xué). 2017(06)
[8]中文短文本語法語義相似度算法[J]. 廖志芳,周國恩,李俊鋒,劉飛,蔡飛. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2016(02)
[9]基于語義關(guān)聯(lián)的文本分類研究[J]. 張浩,謝飛. 合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版). 2011(10)
[10]多主題文本摘要抽取的研究與實現(xiàn)[J]. 廖濤,劉宗田,王利. 計算機(jī)工程. 2011(06)
碩士論文
[1]限定域問答系統(tǒng)自動建庫及檢索研究與系統(tǒng)設(shè)計實現(xiàn)[D]. 李倩倩.哈爾濱工業(yè)大學(xué) 2017
本文編號:3460220
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文結(jié)構(gòu)框架
青島科技大學(xué)研究生學(xué)位論文13(1)先對網(wǎng)頁進(jìn)行預(yù)處理并生成DOM樹。(2)遍歷DOM樹獲得文本塊并加入到隊列中。(3)利用特征提取器對每個文本塊進(jìn)行密度特征提齲(4)將文本塊密度特征輸入到SVM數(shù)據(jù)模型中,返回相應(yīng)結(jié)果R。(5)保存R>0的文本塊(R為結(jié)果值,R<0:噪音塊,R>0:正文塊)。根據(jù)上述方法,得到正文塊的具體步驟如圖2-1所示:圖2-1正文塊分類模型流程圖Figure2-1Flowchartoftextblockclassificationmodel2.1.3正文塊內(nèi)降噪經(jīng)過上述步驟處理之后,就可以獲得正文塊。但正文塊中仍有一些需要去除的噪聲信息。研究分析發(fā)現(xiàn)塊內(nèi)噪音一般存在以下特點:(1)噪音信息不會太長,通常只有幾個詞,而且不包含標(biāo)點符號信息。(2)它通常存在于正文塊的頭部或尾部,并且不會出現(xiàn)在混淆文本內(nèi)容的段落。
青島科技大學(xué)研究生學(xué)位論文15圖2-2正文段落分類模型流程圖Figure2-2Flowchartofbodyparagraphclassificationmodel根據(jù)上述步驟處理后得到的正文段落的純度比較高,可以很大程度上滿足特定域知識庫對數(shù)據(jù)純度的要求,并為開展下一步工作提供了很大的幫助。2.2文本中心句抽取方法根據(jù)用戶調(diào)查發(fā)現(xiàn),用戶更加容易接受簡短明了的信息,長篇的敘述會影響用戶的體驗度。爬取后的文本內(nèi)容因涉及主題多,信息內(nèi)容繁雜,因此無法直接作為答案返給用戶。因此本章提出一種文本主題劃分與TextRank中心句抽取的方法,先將文本段落劃分主題,然后對不同主題進(jìn)行提取中心句,中心句是當(dāng)前主題的精華所在,一定程度上代表主題思想,這樣可以精簡文章內(nèi)容,從而達(dá)到簡化答案,提高問答系統(tǒng)回復(fù)質(zhì)量的效果。2.2.1詞向量模型Mikolo等人[67]在2013年提出CBOW和Skip-gram兩種模型。同時也成為
【參考文獻(xiàn)】:
期刊論文
[1]一種基于SVM及文本密度特征的網(wǎng)頁信息提取方法[J]. 周艷平,李金鵬,宋群豹. 計算機(jī)應(yīng)用與軟件. 2019(10)
[2]基于同義詞詞林的句子語義相似度方法及其在問答系統(tǒng)中的應(yīng)用[J]. 周艷平,李金鵬,蔡素. 計算機(jī)應(yīng)用與軟件. 2019(08)
[3]基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J]. 陳晨,朱晴晴,嚴(yán)睿,柳軍飛. 計算機(jī)學(xué)報. 2019(07)
[4]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平. 計算機(jī)科學(xué). 2018(07)
[5]基于結(jié)構(gòu)相似網(wǎng)頁聚類的正文提取算法研究[J]. 王海涌,馮兆旭,楊海波,張津棟. 計算機(jī)工程與應(yīng)用. 2018(11)
[6]基于知識圖譜的智能客服系統(tǒng)研究[J]. 饒竹一,張云翔. 電力信息與通信技術(shù). 2017(07)
[7]基于Web的問答系統(tǒng)綜述[J]. 李舟軍,李水華. 計算機(jī)科學(xué). 2017(06)
[8]中文短文本語法語義相似度算法[J]. 廖志芳,周國恩,李俊鋒,劉飛,蔡飛. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2016(02)
[9]基于語義關(guān)聯(lián)的文本分類研究[J]. 張浩,謝飛. 合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版). 2011(10)
[10]多主題文本摘要抽取的研究與實現(xiàn)[J]. 廖濤,劉宗田,王利. 計算機(jī)工程. 2011(06)
碩士論文
[1]限定域問答系統(tǒng)自動建庫及檢索研究與系統(tǒng)設(shè)計實現(xiàn)[D]. 李倩倩.哈爾濱工業(yè)大學(xué) 2017
本文編號:3460220
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3460220.html
最近更新
教材專著