社區(qū)問答系統(tǒng)中問句檢索技術(shù)的研究
發(fā)布時(shí)間:2017-05-15 11:28
本文關(guān)鍵詞:社區(qū)問答系統(tǒng)中問句檢索技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)技術(shù)的發(fā)展給人們?nèi)粘I顜肀憷耐瑫r(shí),也使人們淹沒在信息的海洋中,很難找到自己所關(guān)心和需要的信息。隨著web2.0的飛速發(fā)展,面對傳統(tǒng)搜索引擎暴露出來的諸如不能對于專業(yè)的問題進(jìn)行有效的檢索、無法給用戶帶來交互式的體驗(yàn)等問題,近年來出現(xiàn)的社區(qū)問答(CQA)系統(tǒng)在一定程度上彌補(bǔ)了這些缺陷,正在給用戶帶來全新的搜索體驗(yàn)。在社區(qū)問答系中,人們可以自由地提出自己的問題,并由其他用戶回答。由于任何人都可以在上面提問和回答,Yahoo! Answers等社區(qū)問答系統(tǒng)建立幾年來已經(jīng)積累了大量的歷史問答對,如何有效的利用這些問答對成為眾多學(xué)者研究的焦點(diǎn)。問句檢索的研究就是為了能夠有效地利用這些歷史的問答對信息,快速找到與用戶所關(guān)心的問題相同或相近的原有問題,縮短用戶得到想要的答案的等待時(shí)間。但是,由于自然語言中存在大量的同義詞、語義特性和豐富的句法特征,所以從社區(qū)問答系統(tǒng)中找到相似的問句并不是一項(xiàng)輕松的任務(wù)。 本文主要是對問句檢索進(jìn)行研究,主要是解決了問句檢索過程中的存在的三個(gè)問題,首先是解決了問句檢索過程中缺少語義信息造成的問句歧義性問題,由于自然語言中存在大量的同義詞、語義特性和豐富的句法特征,所以單純的僅依靠詞本身的特征很難解決問句檢索的問題。針對這個(gè)問題,本文提出一種基于特征融合的社區(qū)問答問句相似度計(jì)算方法,它主要是利用問句本身的統(tǒng)計(jì)特征、詞序特征、語義特征和問句對應(yīng)的答案特征相結(jié)合來解決問句檢索問題。 其次是解決了問句檢索過程中效率問題,在解決檢索效率問題中,本文提出一種融合問句類別信息和問句對應(yīng)答案類別信息的問句檢索模型,該模型主要是考慮了問句的類別信息和問句所對應(yīng)答案的類別信息,利用類別信息來過濾掉不相關(guān)的問句,從而提高問句檢索的效率和性能。 最后解決的問題是由于誤分類對檢索結(jié)果造成影響的問題,針對這個(gè)問題,本文提出一種融合問句主題信息和問句對應(yīng)問句答案主題信息的問句檢索模型,該模型主要考慮了問句本身的主題信息和問句所對應(yīng)的答案主題信息,利用主題信息對相似的問句類別進(jìn)行合并,從而減輕誤分類對檢索結(jié)果的影響。最終將這三種模型分別在Yahoo!Answers網(wǎng)站上抽取的真實(shí)標(biāo)注數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并通過多角度的對比實(shí)驗(yàn)表明,針對各自要解決的問題,本文提出的模型取得了良好的性能。
【關(guān)鍵詞】:社區(qū)問答 搜索引擎 問句檢索 問句相似度
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 本文主要工作12
- 1.4 本文組織結(jié)構(gòu)12-14
- 2 問句檢索相關(guān)技術(shù)及實(shí)現(xiàn)方法14-18
- 2.1 向量空間模型14-15
- 2.2 BM25模型15
- 2.3 語言模型15-16
- 2.3.1 一元語言模型15
- 2.3.2 翻譯模型15-16
- 2.3.3 基于翻譯的語言模型16
- 2.4 本章小結(jié)16-18
- 3 基于特征融合的問句相似度計(jì)算方法18-29
- 3.1 引言18-19
- 3.2 檢索模型概述19-24
- 3.2.1 算法思想19
- 3.2.2 詞序相似度19-20
- 3.2.3 改進(jìn)的統(tǒng)計(jì)模型20-21
- 3.2.4 問題的主題和焦點(diǎn)確定21-22
- 3.2.5 語義模型22
- 3.2.6 基于答案信息模型22-24
- 3.3 實(shí)驗(yàn)設(shè)計(jì)24-28
- 3.3.1 實(shí)驗(yàn)數(shù)據(jù)24-25
- 3.3.2 評價(jià)指標(biāo)25
- 3.3.3 實(shí)驗(yàn)結(jié)果與分析25-28
- 3.4 本章小結(jié)28-29
- 4 融合問句類別信息和答案類別信息的檢索模型29-38
- 4.1 引言29-30
- 4.2 檢索模型概述30-34
- 4.2.1 算法思想30
- 4.2.2 語言模型30-31
- 4.2.3 基于問句類別信息平滑的語言模型31-33
- 4.2.4 基于答案類別信息平滑的語言模型33-34
- 4.2.5 融合問句類別信息和答案類別信息平滑的語言模型34
- 4.3 實(shí)驗(yàn)設(shè)計(jì)34-37
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)34-35
- 4.3.2 參數(shù)選擇35
- 4.3.3 實(shí)驗(yàn)結(jié)果與分析35-37
- 4.4 本章小結(jié)37-38
- 5 融合問句主題信息和答案主題信息的檢索模型38-49
- 5.1 引言38
- 5.2 檢索模型概述38-45
- 5.2.1 算法思想38-39
- 5.2.2 LDA(Latent Dirichlet Allocation)主題模型39-41
- 5.2.3 語言模型41
- 5.2.4 基于問句主題信息平滑的語言模型41-44
- 5.2.5 基于答案主題信息平滑的語言模型44-45
- 5.2.6 融合問句類別信息和答案類別信息平滑的語言模型45
- 5.3 實(shí)驗(yàn)設(shè)計(jì)45-48
- 5.3.1 實(shí)驗(yàn)數(shù)據(jù)45-46
- 5.3.2 參數(shù)選擇46
- 5.3.3 實(shí)驗(yàn)結(jié)果與分析46-48
- 5.4 本章小結(jié)48-49
- 結(jié)論49-51
- 參考文獻(xiàn)51-55
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況55-56
- 致謝56-57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報(bào);2003年06期
2 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學(xué)報(bào);2010年06期
3 熊大平;王健;林鴻飛;;一種基于LDA的社區(qū)問答問句相似度計(jì)算方法[J];中文信息學(xué)報(bào);2012年05期
本文關(guān)鍵詞:社區(qū)問答系統(tǒng)中問句檢索技術(shù)的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:367662
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/367662.html
最近更新
教材專著