自動(dòng)問(wèn)答系統(tǒng)(Question Answering System,QAS)作為新一代的信息檢索系統(tǒng),是自然語(yǔ)言處理與人工智能相結(jié)合的產(chǎn)物,它允許用戶使用自然語(yǔ)言問(wèn)句提問(wèn),并將準(zhǔn)確、簡(jiǎn)潔的檢索答案返還給用戶。將自動(dòng)問(wèn)答系統(tǒng)與教育領(lǐng)域的深度融合,是“互聯(lián)網(wǎng)+教育”領(lǐng)域炙手可熱的研究方向之一。論文選擇“Python程序知識(shí)”為特定領(lǐng)域,以自動(dòng)問(wèn)答系統(tǒng)的問(wèn)句預(yù)處理、信息檢索、答案抽取三個(gè)核心部分為研究切入點(diǎn),并通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)與人工整理相結(jié)合構(gòu)建了領(lǐng)域知識(shí)庫(kù),設(shè)計(jì)并實(shí)現(xiàn)了一套能自動(dòng)回答“Python程序知識(shí)”的教育領(lǐng)域問(wèn)答系統(tǒng)。本文的主要工作內(nèi)容如下:(1)分析領(lǐng)域數(shù)據(jù)組成,實(shí)現(xiàn)面向多數(shù)據(jù)源構(gòu)建領(lǐng)域知識(shí)庫(kù)。根據(jù)程序設(shè)計(jì)語(yǔ)言領(lǐng)域數(shù)據(jù)特點(diǎn),采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)分別從百度百科與百度知道抓取領(lǐng)域數(shù)據(jù),并結(jié)合各大高校領(lǐng)域知識(shí)信息文本人工組建Python程序設(shè)計(jì)領(lǐng)域常見(jiàn)問(wèn)題知識(shí)庫(kù)(FAQ)。(2)研究基于Word2Vec的關(guān)鍵技術(shù)。首先針對(duì)傳統(tǒng)TextRank算法提取文本特征詞忽略詞匯之間連接關(guān)系的問(wèn)題,采用一種使用Word2Vec將知識(shí)庫(kù)中問(wèn)題語(yǔ)料文本訓(xùn)練成候選特征詞詞向量集,并根據(jù)候選特征詞匯節(jié)點(diǎn)之間相似...
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:

圖2-5句法分析結(jié)構(gòu)圖和語(yǔ)義依存樹(shù)結(jié)構(gòu)圖
圖2-5句法分析結(jié)構(gòu)圖和語(yǔ)義依存樹(shù)結(jié)構(gòu)圖ig.2-5Thediagramofsyntacticanalysisstructureandsemanticdependencytreestruc使用語(yǔ)句依存關(guān)系進(jìn)行相似度計(jì)算的過(guò)程中,語(yǔ)句元素之間的有效配對(duì)

圖3-1詞條標(biāo)題與簡(jiǎn)介圖
圖3-1詞條標(biāo)題與簡(jiǎn)介圖Fig.3-1Thediagramofentrytitleandintroduction(2)分析網(wǎng)頁(yè)源碼。解析百度百科詞條網(wǎng)頁(yè)源碼dom樹(shù),并得到相關(guān)簽,并依據(jù)廣度優(yōu)先爬取策略規(guī)則,確定網(wǎng)頁(yè)中相關(guān)領(lǐng)域知識(shí)URL列

圖3-2詞條標(biāo)題與簡(jiǎn)介源碼圖
24圖3-2詞條標(biāo)題與簡(jiǎn)介源碼圖Fig.3-2ThediagramofEntrytitleandintroductionsourcecode

圖3-3領(lǐng)域詞條源碼圖
圖3-3領(lǐng)域詞條源碼圖Fig.3-3Thediagramofdomainentrysourcemap綜上所述,爬取百科領(lǐng)域數(shù)據(jù)過(guò)程中使用的標(biāo)簽如表3-1所示。表3-1所需數(shù)據(jù)定位標(biāo)簽
本文編號(hào):
3965052
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3965052.html