天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于分布式表示的答案質(zhì)量自動評價

發(fā)布時間:2020-03-01 04:56
【摘要】:高考答題機器人是人工智能問答技術(shù)在實際場景中的應(yīng)用,答案自動評價也是與之相關(guān)的一個重要課題,本課題面向高考歷史簡答題進行答案質(zhì)量自動評價。早期的簡答題答案自動評價系統(tǒng)依賴結(jié)構(gòu)化的數(shù)據(jù),使用規(guī)則進行學(xué)生答案和參考答案的匹配計算。后來,研究者們基于字符串、詞匯、淺層語義特征計算學(xué)生答案和參考答案的匹配度。然而依據(jù)規(guī)則進行答案評價通用性不強,而淺層語義特征無法準(zhǔn)確表達文本真實語義;谏疃葘W(xué)習(xí)的分布式表示方法將文本映射到語義空間中,近年來被應(yīng)用于多種自然語言處理任務(wù)中并取得成功。本課題主要研究基于分布式表示進行歷史簡答題學(xué)生答案自動評價的方法,并與傳統(tǒng)的基于特征工程的評價方法進行比較。本文主要包括以下三個部分:第一,使用傳統(tǒng)機器學(xué)習(xí)方法融合多種特征組合,計算學(xué)生答案和參考答案的相似度作為答案評價依據(jù),為基于分布式表示的答案質(zhì)量評價方法提供一個較強的基線。分析字詞共現(xiàn)特征、基于信息檢索模型的相關(guān)性特征以及基于深度學(xué)習(xí)的語義特征對于計算學(xué)生答案和參考答案相關(guān)性的作用,使用排序支持向量機(Ranking SVM)線性融合三類特征并進行特征選擇。由于學(xué)生答案與參考答案長度不一致,需要進行參考答案的擴展,對模型評價性能也有所提高。第二,將基于分布式表示的文本對匹配度計算、基于pair-wise的有監(jiān)督排序?qū)W習(xí)模型融合到一個框架,根據(jù)學(xué)生答案與參考答案的匹配度進行排序?qū)W習(xí)。使用現(xiàn)有的基于深度神經(jīng)網(wǎng)絡(luò)的文本向量表示方法,訓(xùn)練得到參考答案和學(xué)生答案的段落分布式表示。并使用余弦相似度、相似度矩陣模型、張量模型計算學(xué)生答案和參考答案的匹配度,根據(jù)其匹配度進行學(xué)生答案評價。由于實驗數(shù)據(jù)有限,本文構(gòu)造偽數(shù)據(jù)進行訓(xùn)練,得到的模型在歷史簡答題答案評價任務(wù)上的表現(xiàn)與特征工程方法相當(dāng)。第三,在小規(guī)模數(shù)據(jù)上訓(xùn)練一個基于深度神經(jīng)網(wǎng)絡(luò)的答案質(zhì)量評估模型,分別使用雙向LSTM和CNN-LSTM對學(xué)生答案和題目進行建模得到其分布式表示,計算兩個向量的余弦相似度進行答案質(zhì)量估計。在現(xiàn)有的真實小規(guī)模數(shù)據(jù)上進行模型訓(xùn)練和測試,通過調(diào)整訓(xùn)練數(shù)據(jù)規(guī)模,從而探究實驗數(shù)據(jù)規(guī)模對模型訓(xùn)練的影響。
【圖文】:

框架圖,框架,向量表示,答案


表示技術(shù)表示是將字、詞、短語、一個句子、一個段落等不同粒續(xù)、稠密的語義空間中,用特定維度的向量表示文本片度可用向量之間的距離表示。本章根據(jù)參考答案進行學(xué)轉(zhuǎn)換成學(xué)生答案和參考答案的匹配度計算。先訓(xùn)練得到分布式表示,并基于其分布式向量表示計算學(xué)生答案和ph Vector 是一個無監(jiān)督學(xué)習(xí)框架,可以用來學(xué)習(xí)任意長表示。該模型是由 Word2vec 模型發(fā)展而來,能夠?qū)崿F(xiàn)等任意長度文本的向量表示。ec 模型根據(jù)上下文學(xué)習(xí)預(yù)測一個詞的向量表示,,并使用的詞。Word2vec 模型框架如圖 3-1 所示,上下文(the 的向量表示。

模型圖,模型,似然,哈夫曼樹


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文給定訓(xùn)練數(shù)據(jù)為一個詞序列Tw ,w,w,...,w123,詞向量模型的學(xué)習(xí)目標(biāo)是最大化平均對數(shù)似然 £ ( ) 。使用多分類分類器如 softmax 根據(jù)公式 3-1 進行詞的預(yù)測。¤( ) = (3-1)其中, 是沒有歸一化的詞 i 的對數(shù)似然,計算方法如公式 3-2 所示。 = U ( W) (3-2)其中 U 和 W 是 softmax 的參數(shù),h 通常是由上下文詞向量的拼接或者取平均值得到。根據(jù)詞表中詞在語料中出現(xiàn)頻率構(gòu)建哈夫曼樹,使用多次二分類預(yù)測當(dāng)前詞,能夠加速模型訓(xùn)練過程。Word2vec 模型有兩種:CBOW 模型和 Skip-gram 模型,模型結(jié)構(gòu)如圖 3-2 和 3-3 所示。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 ;北京日報招聘夜班編輯試題參考答案[J];新聞與寫作;1985年06期

2 ;有獎自測問答(3)參考答案[J];音響技術(shù);1999年06期

3 ;1985年攻讀碩士學(xué)位研究生入學(xué)試題參考答案[J];電信科學(xué);1985年10期

4 ;上期《百錯文》參考答案[J];編輯之友;1999年06期

5 周慶林;《盡快了解研究性學(xué)習(xí)的練習(xí)》參考答案[J];網(wǎng)絡(luò)科技時代;2005年03期

6 黃柳柳;黃河燕;史樹敏;;面向代碼相似度檢測的指紋選取方法[J];計算機工程與應(yīng)用;2010年27期

7 鄭煒冬;;試卷相似度自動評估技術(shù)的研究[J];智能計算機與應(yīng)用;2011年06期

8 趙濤;肖建;;二型模糊相似度及其應(yīng)用[J];計算機工程與應(yīng)用;2013年08期

9 徐志明;李棟;劉挺;李生;王剛;袁樹侖;;微博用戶的相似性度量及其應(yīng)用[J];計算機學(xué)報;2014年01期

10 李桂林,陳曉云;關(guān)于聚類分析中相似度的討論[J];計算機工程與應(yīng)用;2004年31期

相關(guān)會議論文 前10條

1 劉海波;鄭德權(quán);趙鐵軍;;基于相似度線性加權(quán)方法的檢索結(jié)果聚類研究[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

2 陸勁挺;路強;劉曉平;;對比相似度計算方法及其在功能樹擴展中的應(yīng)用[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年

3 董刊生;方金云;;基于向量距離的詞序相似度算法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

4 劉曉平;陸勁挺;;任意功能樹的物元相似度求解方法[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

5 王茜;張衛(wèi)星;;基于分類樹相似度加權(quán)的協(xié)同過濾算法[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年

6 洪文學(xué);王金甲;常鳳香;宋佳霖;劉文遠;王立強;;基于圖形特征增強的相似度分類器的研究[A];中國生物醫(yī)學(xué)工程進展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會論文集(上冊)[C];2007年

7 雷慶;吳揚揚;;一種基于語義信息計算XML文檔相似度的新方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年

8 葉正;林鴻飛;楊志豪;;基于問句相似度的中文FAQ問答系統(tǒng)研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

9 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯一[C];2010年

10 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國控制與決策學(xué)術(shù)年會論文集[C];1996年

相關(guān)重要報紙文章 前10條

1 郭振清;值得稱道的“參考答案異議制”[N];工人日報;2004年

2 三門峽市實驗中學(xué) 楊麗;怎樣培養(yǎng)學(xué)生的想象力[N];河南日報;2011年

3 吳學(xué)安;“考試改變命運”折射社會病態(tài)[N];人民日報海外版;2012年

4 曾憲一;老師對待考試的四種境界[N];中國教育資訊報;2002年

5 任定保;“水”能生出火嗎?[N];中國教育資訊報;2002年

6 美國明尼蘇達大學(xué)社會學(xué)博士 密西西比州立大學(xué)國家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國教師報;2014年

7 盧業(yè)忠;腦控電腦 驚世駭俗[N];計算機世界;2001年

8 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國紡織報;2003年

9 馬效軍;我省高考順利結(jié)束[N];甘肅日報;2004年

10 中國科技大學(xué)計算機系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計算機世界;2003年

相關(guān)博士學(xué)位論文 前10條

1 操震洲;矢量數(shù)據(jù)動態(tài)多尺度網(wǎng)絡(luò)傳輸研究[D];南京大學(xué);2015年

2 程亮;基于本體的疾病數(shù)據(jù)整合與挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2014年

3 劉振宇;基于區(qū)域相似度和特征降維的極化SAR影像分類[D];武漢大學(xué);2013年

4 曹

本文編號:2583937


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2583937.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ef69a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com