MOOC環(huán)境下課程智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.1
【圖文】:
成為各段落,所有的段落中都分布著很多個(gè)詞,而這些詞還可進(jìn)一步細(xì)分形逡逑成諸多行。最后所形成的詞語(yǔ),即都為具有相關(guān)性或者相似性的語(yǔ)義。從頂逡逑至底,樹形結(jié)構(gòu)完美地詮釋了整個(gè)詞典分類。結(jié)構(gòu)圖如圖2-2所示。逡逑圖2-2《同義詞詞林》5層結(jié)構(gòu)圖逡逑Fig.邋2-2邋Five邋layer邋structure邋of邋the邋Tongyici邋Cilin逡逑以樹的頂層為起始點(diǎn)逐層劃分,越下層的詞語(yǔ)也就越詳細(xì),最終詞類,逡逑即最底層,該層必須至少有一個(gè)詞語(yǔ),同時(shí)由于最終詞類所在的層不可再進(jìn)逡逑行劃分,因而一般稱其為節(jié)點(diǎn)、原子詞群。就問答系統(tǒng)而言,其所需要運(yùn)用逡逑的詞應(yīng)為第四層、第五層的詞,也就是該系統(tǒng)的最后兩層[25]。逡逑擴(kuò)展版的編碼一共可分為5級(jí),其中第1級(jí)和第4級(jí)用A?Z的英文大寫逡逑字母順序編碼;第2級(jí)以英文a?z的小寫字母進(jìn)行排列、編碼;第3級(jí)和第逡逑5級(jí)都是從01開始用二位十進(jìn)制整數(shù)表示。例如:“Ael6B01=譯者翻譯譯逡逑員通譯”,“Ael6B01邋=邋”是編碼,“譯者翻譯譯員通譯”是該類的詞語(yǔ)。逡逑表2-1《哈工大同義詞詞林?jǐn)U展版〉〉編碼規(guī)則表逡逑Table邋2-1邋HIT邋Tongyici邋Cilin邋(Extended)邋code邋rules逡逑編碼位邐符號(hào)舉例邐符
提出的網(wǎng)頁(yè)正文內(nèi)容提取方法快速下載搜索引擎檢索到的前5個(gè)頁(yè)面,在此逡逑基礎(chǔ)上可結(jié)合搜索引擎排序?qū)崿F(xiàn)存儲(chǔ),該存儲(chǔ)的信息是后一個(gè)模塊也就是答逡逑案提取模塊的依據(jù)。如圖3-5所示,即為該流程工作示意圖。逡逑問灥索邐vj逡逑丨邐>邋搜索引擎邐I第1個(gè)網(wǎng)頁(yè)爬。义辖馕鏊阉黜(yè)面|, ̄\邋f邋n個(gè)頁(yè)面A邋!邐!邐f相關(guān)文檔逡逑提。眨遥踢姡保ㄥ澹眨遥踢姡冢閭(gè)網(wǎng)頁(yè)爬取1邋k集合U逡逑%!…一.逡逑圖3-5爬取網(wǎng)頁(yè)獲取多個(gè)文檔流程圖逡逑Fig.邋3-5邋Flow邋chart邋of邋crawling邋web邋pages邋to邋get邋multiple邋documents逡逑對(duì)于爬取到的多個(gè)文檔采用TextRank算法進(jìn)行答案摘要的生成。逡逑TextRank算法的思想是擬定一個(gè)通用的評(píng)分標(biāo)準(zhǔn),給文本中的每一個(gè)句子打逡逑分,所得分?jǐn)?shù)就是該句子的權(quán)重,最后得到權(quán)重排名靠前的幾個(gè)句子,構(gòu)成逡逑最終的文本摘要。TextRank的文本中包含PageRank算法思想,其圖結(jié)構(gòu)的逡逑文字單元為特定的粒度及其共現(xiàn)關(guān)系,同時(shí)基于圖的迭代計(jì)算出重要性排序逡逑[40]。如果基本粒度為詞語(yǔ),即可用于抽取關(guān)鍵詞;同樣的如果基本粒度為句逡逑子,則適用于文本摘要。相較于TF-IDF其總體應(yīng)用效果較佳,且實(shí)現(xiàn)簡(jiǎn)單逡逑所以應(yīng)用較為廣泛。逡逑具體處理文檔
逡逑圖3-6中,節(jié)點(diǎn)集K代表的是文檔中句子的集合,代表文檔中的每一逡逑個(gè)句子,邊集五是由句子的鄰接關(guān)系而構(gòu)成的形成候選關(guān)鍵句子圖勾。逡逑對(duì)于給定的以上圖G,邋TextRank算法的具體公式如下:逡逑jy逡逑WS^V^^-d^dx邋X邋W邋噸)邐(3-5)逡逑K*eOw(匕.)逡逑其中,抓(K)稱為Pi?值,它是節(jié)點(diǎn)F/的權(quán)重值,阻尼系數(shù)用d表示,逡逑其值一般設(shè)置為0.邋85[4|]。指向K的所有節(jié)點(diǎn)集合用/?(0代表,而F/所指逡逑向的所有節(jié)點(diǎn)集合用0wz(7,邋)表示。公式(3-5)的右側(cè)求和代表本節(jié)點(diǎn)的各逡逑個(gè)相鄰節(jié)點(diǎn)的貢獻(xiàn)度,公式的左邊可用于說明節(jié)點(diǎn)K,?的權(quán)重。兩個(gè)節(jié)點(diǎn)逡逑和&間的相似程度用%7表示,分母通常為加權(quán)和,上一次迭代后節(jié)點(diǎn)^的逡逑權(quán)重值用呢(匕)代表。逡逑圖3-6Textrank算法的圖結(jié)構(gòu)逡逑Fig.邋3-6邋Graph邋structure邋of邋textrank邋algorithm逡逑由于%需要計(jì)算兩個(gè)句子的相似程度
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 劉亮亮;王石;王東升;汪平仄;曹存根;;領(lǐng)域問答系統(tǒng)中的文本錯(cuò)誤自動(dòng)發(fā)現(xiàn)方法[J];中文信息學(xué)報(bào);2013年03期
2 鄭文曦;包西林;郭辰;姚倩;吳敏;;自動(dòng)拼寫校對(duì)的算法設(shè)計(jì)和系統(tǒng)實(shí)現(xiàn)[J];科技和產(chǎn)業(yè);2013年02期
3 田久樂;趙蔚;;基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
相關(guān)碩士學(xué)位論文 前10條
1 趙潔;基于搜索引擎的中文自動(dòng)問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2016年
2 陳新光;基于社區(qū)問答技術(shù)的課程知識(shí)問答系統(tǒng)的研究與實(shí)現(xiàn)[D];重慶大學(xué);2016年
3 張占江;基于短語(yǔ)主題模型和多文檔自動(dòng)摘要技術(shù)的文獻(xiàn)綜述內(nèi)容推薦[D];浙江大學(xué);2016年
4 李家南;IT領(lǐng)域問答系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2016年
5 石敏;中文文本自動(dòng)校對(duì)系統(tǒng)[D];江蘇科技大學(xué);2015年
6 吳博;MOOC課程推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
7 劉增健;基于網(wǎng)絡(luò)搜索的問答系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2013年
8 強(qiáng)繼朋;FAQ問答系統(tǒng)中的問句相似度研究[D];合肥工業(yè)大學(xué);2013年
9 孔令鵬;中文詞法錯(cuò)誤自動(dòng)檢測(cè)關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
10 吳全娥;漢語(yǔ)句子相似度計(jì)算及其在自動(dòng)問答系統(tǒng)中的應(yīng)用[D];西南大學(xué);2011年
本文編號(hào):2803171
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2803171.html