基于蘊(yùn)含的文本搜索的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-08 19:10
本文關(guān)鍵詞:基于蘊(yùn)含的文本搜索的研究與實(shí)現(xiàn)
更多相關(guān)文章: 文本蘊(yùn)含 搜索引擎 詞向量 蘊(yùn)含關(guān)系
【摘要】:隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)變得越來(lái)越多。在海量的數(shù)據(jù)中查找信息變得越來(lái)越困難。標(biāo)準(zhǔn)的搜索引擎能夠根據(jù)輸入的查詢?cè)~輸出一系列的結(jié)果文檔,但是不能根據(jù)語(yǔ)義對(duì)這些結(jié)果進(jìn)行二次檢索。因此,對(duì)檢索結(jié)果進(jìn)行有效篩選越來(lái)越重要。 文本蘊(yùn)含是語(yǔ)義范疇的一種指向關(guān)系,具體是指文本T和假設(shè)H在語(yǔ)義上具有如下關(guān)系:若H的含義能夠從文本T中推理出來(lái),則稱T蘊(yùn)含H,否則T不蘊(yùn)含H。在問(wèn)答系統(tǒng)、信息檢索、信息抽取以及多文檔摘要等需要進(jìn)行語(yǔ)義推理的自然語(yǔ)言處理領(lǐng)域應(yīng)用中,文本蘊(yùn)含已經(jīng)發(fā)展成為一項(xiàng)通用的任務(wù)。因此研究基于蘊(yùn)含的文本搜索具有重要意義和實(shí)用價(jià)值。 本文對(duì)文本蘊(yùn)含識(shí)別進(jìn)行深入研究,挖掘出文本中的蘊(yùn)含關(guān)系。在此基礎(chǔ)上實(shí)現(xiàn)了基于蘊(yùn)含的文本搜索,用戶可以根據(jù)蘊(yùn)含關(guān)系對(duì)搜索結(jié)果進(jìn)行篩選,從而實(shí)現(xiàn)查詢?cè)~的遷移和主題的跳轉(zhuǎn)。 本文的主要貢獻(xiàn)具體描述如下: 1.提出了基于詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)方法。使用詞向量表示謂語(yǔ),通過(guò)計(jì)算詞向量之間的語(yǔ)義相似度,學(xué)習(xí)蘊(yùn)含關(guān)系。實(shí)驗(yàn)結(jié)果表明該方法能有效地學(xué)習(xí)蘊(yùn)含關(guān)系,學(xué)習(xí)的平均準(zhǔn)確率均值(MAP)達(dá)到60.74%,比之前的BInc方法提升了近5個(gè)百分點(diǎn)。 2.提出了基于詞、詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)。將基于詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)與之前的基于詞的蘊(yùn)含關(guān)系方法相結(jié)合,混合多種特征對(duì)蘊(yùn)含關(guān)系進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明該方法與之前的BInc方法相比,F值從30.67%提升到34.49%。 3.通過(guò)對(duì)新聞文本語(yǔ)料進(jìn)行處理,將文本蘊(yùn)含與文本搜索相融合,實(shí)現(xiàn)了基于蘊(yùn)含的文本搜索系統(tǒng),是對(duì)傳統(tǒng)分面搜索功能上的一種擴(kuò)充,方便用戶根據(jù)蘊(yùn)含關(guān)系對(duì)搜索結(jié)果進(jìn)一步檢索,體現(xiàn)了文本蘊(yùn)含研究的實(shí)用性,同時(shí)提高了搜索系統(tǒng)的易用性。
【關(guān)鍵詞】:文本蘊(yùn)含 搜索引擎 詞向量 蘊(yùn)含關(guān)系
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 目錄7-9
- 第一章 緒論9-15
- 1.1 背景和意義9-10
- 1.2 研究現(xiàn)狀10-12
- 1.3 本文工作12-14
- 1.4 論文結(jié)構(gòu)14-15
- 第二章 相關(guān)工作15-33
- 2.1 搜索引擎15-21
- 2.1.1 系統(tǒng)架構(gòu)15-17
- 2.1.2 檢索模型17-19
- 2.1.3 發(fā)展趨勢(shì)19-20
- 2.1.4 搜索引擎Solr20-21
- 2.2 文本蘊(yùn)含21-29
- 2.2.1 概念21-23
- 2.2.2 命題模板23
- 2.2.3 蘊(yùn)含關(guān)系學(xué)習(xí)23-28
- 2.2.4 蘊(yùn)含圖28-29
- 2.3 詞向量模型29-32
- 2.3.1 詞向量概念29
- 2.3.2 詞向量構(gòu)建方法29-31
- 2.3.3 word2vec31-32
- 2.4 本章小結(jié)32-33
- 第三章 蘊(yùn)含關(guān)系學(xué)習(xí)33-42
- 3.1 基于詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)33-38
- 3.1.1 預(yù)處理34-38
- 3.1.2 詞向量構(gòu)建38
- 3.1.3 蘊(yùn)含關(guān)系學(xué)習(xí)38
- 3.2 基于詞、詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)38-40
- 3.3 蘊(yùn)含圖的構(gòu)建40-41
- 3.4 本章小結(jié)41-42
- 第四章 實(shí)驗(yàn)42-55
- 4.1 實(shí)驗(yàn)數(shù)據(jù)42
- 4.2 評(píng)價(jià)指標(biāo)42-44
- 4.3 實(shí)驗(yàn)結(jié)果與分析44-54
- 4.3.1 基于詞向量蘊(yùn)含關(guān)系學(xué)習(xí)44-47
- 4.3.2 基于詞、詞向量的蘊(yùn)含關(guān)系學(xué)習(xí)47-50
- 4.3.3 實(shí)驗(yàn)結(jié)果錯(cuò)誤分析50-51
- 4.3.4 蘊(yùn)含圖生成結(jié)果51-54
- 4.4 本章小結(jié)54-55
- 第五章 基于蘊(yùn)含的文本搜索系統(tǒng)55-65
- 5.1 系統(tǒng)架構(gòu)56-57
- 5.2 開發(fā)環(huán)境57-58
- 5.3 數(shù)據(jù)源58-59
- 5.4 索引建立59
- 5.5 檢索排序59-60
- 5.6 搜索展現(xiàn)60-64
- 5.7 抗壓性評(píng)估64
- 5.8 本章小結(jié)64-65
- 第六章 總結(jié)與展望65-67
- 6.1 工作總結(jié)65
- 6.2 工作展望65-67
- 參考文獻(xiàn)67-71
- 致謝71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 郭力潔;李新葉;宋金澮;;分面搜索研究綜述[J];電子科技;2012年09期
2 王瓊;搜索引擎的四大發(fā)展趨勢(shì)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
3 司胲銳;;石安石論語(yǔ)義蘊(yùn)含[J];科技信息(學(xué)術(shù)研究);2008年26期
4 張鵬;李國(guó)臣;李茹;劉海靜;石向榮;Collin Baker;;基于FrameNet框架關(guān)系的文本蘊(yùn)含識(shí)別[J];中文信息學(xué)報(bào);2012年02期
5 吳思竹;錢慶;胡鐵軍;李丹亞;李軍蓮;洪娜;;詞形還原方法及實(shí)現(xiàn)工具比較分析[J];現(xiàn)代圖書情報(bào)技術(shù);2012年03期
,本文編號(hào):995738
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/995738.html
最近更新
教材專著