Python知識自動問答系統(tǒng)的研究與實現
發(fā)布時間:2024-04-26 23:55
自動問答系統(tǒng)(Question Answering System,QAS)作為新一代的信息檢索系統(tǒng),是自然語言處理與人工智能相結合的產物,它允許用戶使用自然語言問句提問,并將準確、簡潔的檢索答案返還給用戶。將自動問答系統(tǒng)與教育領域的深度融合,是“互聯網+教育”領域炙手可熱的研究方向之一。論文選擇“Python程序知識”為特定領域,以自動問答系統(tǒng)的問句預處理、信息檢索、答案抽取三個核心部分為研究切入點,并通過網絡爬蟲技術與人工整理相結合構建了領域知識庫,設計并實現了一套能自動回答“Python程序知識”的教育領域問答系統(tǒng)。本文的主要工作內容如下:(1)分析領域數據組成,實現面向多數據源構建領域知識庫。根據程序設計語言領域數據特點,采用網絡爬蟲技術分別從百度百科與百度知道抓取領域數據,并結合各大高校領域知識信息文本人工組建Python程序設計領域常見問題知識庫(FAQ)。(2)研究基于Word2Vec的關鍵技術。首先針對傳統(tǒng)TextRank算法提取文本特征詞忽略詞匯之間連接關系的問題,采用一種使用Word2Vec將知識庫中問題語料文本訓練成候選特征詞詞向量集,并根據候選特征詞匯節(jié)點之間相似...
【文章頁數】:85 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3965052
【文章頁數】:85 頁
【學位級別】:碩士
【部分圖文】:
圖2-5句法分析結構圖和語義依存樹結構圖
圖2-5句法分析結構圖和語義依存樹結構圖ig.2-5Thediagramofsyntacticanalysisstructureandsemanticdependencytreestruc使用語句依存關系進行相似度計算的過程中,語句元素之間的有效配對
圖3-1詞條標題與簡介圖
圖3-1詞條標題與簡介圖Fig.3-1Thediagramofentrytitleandintroduction(2)分析網頁源碼。解析百度百科詞條網頁源碼dom樹,并得到相關簽,并依據廣度優(yōu)先爬取策略規(guī)則,確定網頁中相關領域知識URL列
圖3-2詞條標題與簡介源碼圖
24圖3-2詞條標題與簡介源碼圖Fig.3-2ThediagramofEntrytitleandintroductionsourcecode
圖3-3領域詞條源碼圖
圖3-3領域詞條源碼圖Fig.3-3Thediagramofdomainentrysourcemap綜上所述,爬取百科領域數據過程中使用的標簽如表3-1所示。表3-1所需數據定位標簽
本文編號:3965052
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3965052.html