天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 漢語言論文 >

網(wǎng)絡(luò)聊天機器人在少數(shù)民族漢語教學中的關(guān)鍵技術(shù)研究

發(fā)布時間:2019-09-20 09:00
【摘要】:網(wǎng)絡(luò)聊天機器人作為一款供人類生活學習的工具近年來備受關(guān)注,其技術(shù)也隨著信息處理水平的提高而日漸成熟。目前活躍在網(wǎng)上的“小i”機器人,可以隨時查詢一些諸如天氣情況之類的便于人們?nèi)粘I畹闹R,可以陪用戶聊天、學習語言,供用戶娛樂休閑。介于網(wǎng)絡(luò)聊天機器人的聊天、學習的功能,本文設(shè)計并研究其在少數(shù)民族地區(qū)漢語教學上的應用系統(tǒng),并圍繞著網(wǎng)絡(luò)聊天機器人的關(guān)鍵技術(shù)——自然語言理解進行深入研究。 本文對網(wǎng)絡(luò)聊天機器人的技術(shù)研究是從漢語分詞開始的。由于漢語本身的語言特點,詞與詞之間不能用空格之類的顯性標志分開,所以漢語分詞就成了漢語自然語言處理的“瓶頸”。解決好中文分詞決定著網(wǎng)絡(luò)聊天機器人系統(tǒng)的性能好壞。所以本文研究的主要內(nèi)容、關(guān)鍵技術(shù)及創(chuàng)新點主要有以下幾點: 一、本文采用統(tǒng)計自然語言處理方法,收集了少數(shù)民族漢語初中教材第五、六冊30篇課文,建立了一個小規(guī)模的漢語語料庫。語料庫的工作包括斷詞斷句處理、詞性標注及統(tǒng)計分析等。詞性標注均嚴格按照《漢語詞典》里的詞做標注。這項工作是一項長期而繁重的工作,需要大量的手工勞動去完成。所建的語料庫為后續(xù)的工作做了數(shù)據(jù)上的支持。 二、漢語存在歧義和未登錄詞等問題,所以歧義消解和未登錄詞識別是漢語分詞關(guān)鍵問題。本文從最短路徑算法解決歧義和未登錄詞具有快速、高效的特點,但不能很好的處理多條最短路徑的問題,提出了對最短路徑算法的改進方法——次短路徑算法,這種方法避免了存在多條最短路徑時不能判斷最優(yōu)解的問題,同時又延續(xù)了最短路徑算法的特性。實驗證明,次短路徑算法對漢語分詞的歧義效果和未登錄詞的識別有很大的改善作用。這是本文的貢獻之一。 三、本文分析了如何在中文分詞中建立隱馬爾可夫模型(HMM)的結(jié)構(gòu)和參數(shù)訓練等問題,并用實句網(wǎng)格圖詳細的說明了HMM模型中的第二個解碼問題的算法一維特比算法的過程,這樣做的一個優(yōu)勢在于能夠清楚地看到待切分的句子按維特比思想尋找最佳的階段切分詞,然后遞歸回溯找到最佳的詞性序列,完成分詞過程。目前這一問題的理論思想成熟,但現(xiàn)有的文獻對其分詞的實踐細節(jié)描述的很匱乏,使得本文的這項工作可作為新進入的研究人員作為參考學習。這是本文的貢獻之二。 四、結(jié)合次短路徑搜索出來的路徑,在已訓練好的HMM模型下,通過仿真實驗驗證維特比分詞算法,找到有效的分詞結(jié)果。文中給出了與一般隱馬爾可夫模型的分詞比較。實驗結(jié)果表明,結(jié)合次短路徑算法的隱馬爾可夫分詞算法在一定條件下提高了隱馬爾可夫算法的效率,同時也提高了分詞的召回率和準確率。這是本文的貢獻之三。 五、本文的工作都是結(jié)合編程實踐展開的。編程思想借助本文作者發(fā)表的一篇論文。該論文詳細論述了一種避免設(shè)計復雜程序的新方法。這種方法的思想是基于算法的邏輯結(jié)構(gòu)獨立于存儲結(jié)構(gòu),在不改變算法邏輯結(jié)構(gòu)的前提下,只改變算法的存儲結(jié)構(gòu),如利用數(shù)組存儲復雜的圖結(jié)構(gòu)來設(shè)計并實現(xiàn)圖的深度優(yōu)先算法。在這之前查到的文獻都是基于圖結(jié)構(gòu)的存儲方式,如鄰接表等。這一方法使得很多程序都變得簡單了本文源于這一思想,將其應用于維特比算法上,只改變算法的輸入輸出接口,而不改變維特比算法的邏輯結(jié)構(gòu),就可以找到合適的詞性序列。這一方法在程序設(shè)計課程上可以應用于許多優(yōu)秀的經(jīng)典算法。這是本文的貢獻之四。
【學位授予單位】:中央民族大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:H193;TP242

【參考文獻】

相關(guān)期刊論文 前10條

1 盛錦華,張巧;人工智能研究的進展與發(fā)展趨勢[J];安徽大學學報(自然科學版);1996年01期

2 龔漢明,周長勝;漢語分詞技術(shù)綜述[J];北京機械工業(yè)學院學報;2004年03期

3 樊孝忠,李宏喬,李良富,葉江;銀行領(lǐng)域漢語自動問答系統(tǒng)BAQS的研究與實現(xiàn)[J];北京理工大學學報;2004年06期

4 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期

5 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開發(fā)與應用;2010年03期

6 余戰(zhàn)秋;中文分詞技術(shù)及其應用初探[J];電腦知識與技術(shù);2004年32期

7 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學報;2005年02期

8 林立宇;;MSN查號機器人的研究與應用[J];廣東通信技術(shù);2007年09期

9 王樹西,劉群,白碩;一個人物關(guān)系問答的專家系統(tǒng)[J];廣西師范大學學報(自然科學版);2003年01期

10 秦兵;劉挺;王洋;鄭實福;李生;;基于常問問題集的中文問答系統(tǒng)研究[J];哈爾濱工業(yè)大學學報;2003年10期

相關(guān)碩士學位論文 前1條

1 黃際洲;聊天機器人知識庫自動抽取算法的研究與實現(xiàn)[D];重慶大學;2006年

,

本文編號:2538729

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/2538729.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶42358***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com