基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn)
發(fā)布時間:2017-09-20 22:37
本文關(guān)鍵詞:基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn)
更多相關(guān)文章: 問答系統(tǒng) 網(wǎng)頁信息抽取 答案抽取 中文問句相似度
【摘要】:隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)上的知識資源也在不斷的膨脹。然而,網(wǎng)頁如此繁雜以至于人們無法快速獲取自己想要的信息。搜索引擎的出現(xiàn),雖然在很大程度上緩解了這個問題,但是效果卻不能令人滿意。人們對于快速獲取信息的強烈需求,使得越來越多的人投入到自動問答系統(tǒng)的研究中。自動問答系統(tǒng)企圖不借助任何人力,利用自然語言理解、信息檢索、信息抽取等技術(shù),以自動化的方式回答用戶的問題?紤]到當今問答系統(tǒng)在網(wǎng)絡(luò)上的新發(fā)展,同時也考慮到構(gòu)建一個開放領(lǐng)域問答系統(tǒng)的復(fù)雜性與系統(tǒng)性,本文將主要研究網(wǎng)頁信息抽取、中文問句相似度等。本文試圖通過這些方面的研究,為受限領(lǐng)域問答系統(tǒng)做支持,從而實現(xiàn)從網(wǎng)絡(luò)抽取答案的目標。本研究基于通常的網(wǎng)頁抽取方法基礎(chǔ)上,提出了一種基于“DOM模板與頁面特征信息綜合抽取”的方法,具體是從百度知道等網(wǎng)站抽取出用戶提問的候選問題及其對應(yīng)答案集,這相當于將FAQ庫從本地擴展到了Internet,增加了知識的廣度與范圍,使受限領(lǐng)域問答系統(tǒng)不再局限于特定領(lǐng)域知識的問答。然后,利用中文問句相似度計算等思想找到最相似的問句對應(yīng)的答案返回給用戶,從而實現(xiàn)受限領(lǐng)域的自動回答。本文從基于Internet的問答系統(tǒng)研究的相關(guān)背景入手,首先闡述了研究的基礎(chǔ)平臺,接著詳細的分析了網(wǎng)頁信息抽取與中文文件相似度的計算,最后重點的對答案抽取系統(tǒng)做了相關(guān)實現(xiàn)。
【關(guān)鍵詞】:問答系統(tǒng) 網(wǎng)頁信息抽取 答案抽取 中文問句相似度
【學位授予單位】:浙江工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
,
本文編號:890837
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/890837.html
最近更新
教材專著