基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn)
發(fā)布時間:2017-09-20 22:37
本文關鍵詞:基于Internet的問答系統(tǒng)答案抽取方法研究與實現(xiàn)
更多相關文章: 問答系統(tǒng) 網(wǎng)頁信息抽取 答案抽取 中文問句相似度
【摘要】:隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)上的知識資源也在不斷的膨脹。然而,網(wǎng)頁如此繁雜以至于人們無法快速獲取自己想要的信息。搜索引擎的出現(xiàn),雖然在很大程度上緩解了這個問題,但是效果卻不能令人滿意。人們對于快速獲取信息的強烈需求,使得越來越多的人投入到自動問答系統(tǒng)的研究中。自動問答系統(tǒng)企圖不借助任何人力,利用自然語言理解、信息檢索、信息抽取等技術,以自動化的方式回答用戶的問題?紤]到當今問答系統(tǒng)在網(wǎng)絡上的新發(fā)展,同時也考慮到構建一個開放領域問答系統(tǒng)的復雜性與系統(tǒng)性,本文將主要研究網(wǎng)頁信息抽取、中文問句相似度等。本文試圖通過這些方面的研究,為受限領域問答系統(tǒng)做支持,從而實現(xiàn)從網(wǎng)絡抽取答案的目標。本研究基于通常的網(wǎng)頁抽取方法基礎上,提出了一種基于“DOM模板與頁面特征信息綜合抽取”的方法,具體是從百度知道等網(wǎng)站抽取出用戶提問的候選問題及其對應答案集,這相當于將FAQ庫從本地擴展到了Internet,增加了知識的廣度與范圍,使受限領域問答系統(tǒng)不再局限于特定領域知識的問答。然后,利用中文問句相似度計算等思想找到最相似的問句對應的答案返回給用戶,從而實現(xiàn)受限領域的自動回答。本文從基于Internet的問答系統(tǒng)研究的相關背景入手,首先闡述了研究的基礎平臺,接著詳細的分析了網(wǎng)頁信息抽取與中文文件相似度的計算,最后重點的對答案抽取系統(tǒng)做了相關實現(xiàn)。
【關鍵詞】:問答系統(tǒng) 網(wǎng)頁信息抽取 答案抽取 中文問句相似度
【學位授予單位】:浙江工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
,
本文編號:890837
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/890837.html
最近更新
教材專著