基于多源知識(shí)的地理選擇題答題方法研究
第1章 緒 論
相較于其他語(yǔ)言而言,基于中文自然語(yǔ)言的問答系統(tǒng)在研究和發(fā)展水平上處于相對(duì)落后的狀態(tài)。其主要難點(diǎn)在中文在自然語(yǔ)言處理方面的特殊性使得基于其他語(yǔ)言的相關(guān)方法無(wú)法直接應(yīng)用于中文處理的過(guò)程中。此外,中文知識(shí)、數(shù)據(jù)庫(kù)等相關(guān)資源相較于英語(yǔ)這類世界通用語(yǔ)種的匱乏,相關(guān)評(píng)測(cè)及會(huì)議的數(shù)目較少,投入資源的不足,也是中文問答系統(tǒng)發(fā)展緩慢的主要原因[18]。即便如此,國(guó)內(nèi)依然有包括中國(guó)科學(xué)院計(jì)算研究所、哈爾濱工業(yè)大學(xué)、香港科技大學(xué)在內(nèi)的一批科研機(jī)構(gòu)及新興互聯(lián)網(wǎng)企業(yè)在進(jìn)行著中文問答系統(tǒng)的相關(guān)研究。在技術(shù)方面,哈爾濱工業(yè)大學(xué)智能計(jì)算實(shí)驗(yàn)室提出的基于情感及段落劃分的答案識(shí)別方法[19],以及面向真實(shí)環(huán)境問句分析方法[20]等均對(duì)中文問答系統(tǒng)技術(shù)進(jìn)行了深入、有效的探索。在產(chǎn)品方面,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的 HKI 知識(shí)問答系統(tǒng),哈爾濱工業(yè)大學(xué)智能計(jì)算實(shí)驗(yàn)室研發(fā)的金融機(jī)器人比特等,微軟中國(guó)研究院研發(fā)的機(jī)問答機(jī)器人小冰,均對(duì)問答系統(tǒng)的實(shí)用化進(jìn)行了有益的實(shí)踐。
.....
第2章 地理多源知識(shí)庫(kù)的構(gòu)建
2.1 引言
本課題的研究目標(biāo)是讓計(jì)算機(jī)求解中文環(huán)境下的中學(xué)地理試題。因此,盡可能地搜集地理試題資源,是課題研究的第一步。本課題搜集并人工標(biāo)注了主要包括全國(guó)各地 10 年來(lái)的 124 套高考地理試題,同時(shí)搜集的還有來(lái)源于學(xué)科網(wǎng)、天星教育等網(wǎng)絡(luò)資源站的 6511 套地理模擬試題。同時(shí),一個(gè)強(qiáng)大的地理知識(shí)庫(kù),是一個(gè)地理試題作答系統(tǒng)的必要支撐,本課題對(duì)目前網(wǎng)絡(luò)上主流、可見的及實(shí)際教學(xué)中使用的地理知識(shí)資源進(jìn)行了收集整理。本章還將對(duì)搜集資料過(guò)程中搭建的標(biāo)注網(wǎng)站進(jìn)行簡(jiǎn)要的介紹。
2.2 地理試題分析
高考試題考察的是答題者的學(xué)習(xí)目標(biāo)的完成情況,以地理為例,根據(jù)我國(guó)地理新課標(biāo)的規(guī)定,高中地理學(xué)習(xí)目標(biāo)的衡量維度被分為知識(shí)與技能、過(guò)程與方法、情感態(tài)度與價(jià)值觀三類。當(dāng)代教育學(xué)家大衛(wèi)•奧蘇泊爾(David P Ausubel)提出,學(xué)習(xí)按學(xué)習(xí)的內(nèi)容這一維度,可被分為機(jī)械學(xué)習(xí)和有意義學(xué)習(xí)兩類。其中,機(jī)械學(xué)習(xí)指的是不加理解、反復(fù)背誦的學(xué)習(xí)內(nèi)容,即對(duì)學(xué)習(xí)材料的機(jī)械記憶。而有意義學(xué)習(xí),指的是學(xué)習(xí)者學(xué)習(xí)中使學(xué)習(xí)到的符號(hào)所代表的新知識(shí)與認(rèn)知結(jié)構(gòu)中已有的適當(dāng)概念建立非人為的和實(shí)質(zhì)性的聯(lián)系[30]。在學(xué)習(xí)的結(jié)果方面,教育學(xué)家加涅(RobertMGagne)指出,學(xué)生的學(xué)習(xí)結(jié)果分為智慧技能、認(rèn)知策略、言語(yǔ)信息、動(dòng)作技能、態(tài)度五個(gè)方面,其中,言語(yǔ)信息是指的是學(xué)習(xí)者根據(jù)學(xué)習(xí)材料的陳述進(jìn)行陳述或基本判定,認(rèn)知策略指的是學(xué)習(xí)者在學(xué)習(xí)后能控制自己的認(rèn)知行為,智慧技能指的是知識(shí)的一系列判別、運(yùn)用能力的組合[31]。在現(xiàn)代教育心理學(xué)中,則把知識(shí)分類為陳述性知識(shí)、程序性知識(shí)以及策略性知識(shí)三類[32],其對(duì)應(yīng)的高考考察點(diǎn),分別是知識(shí)、技能、過(guò)程及方法,同時(shí),這也是構(gòu)建答題系統(tǒng)的解答策略時(shí)的出發(fā)點(diǎn)。第 3 章 基于多源知識(shí)的實(shí)體關(guān)系構(gòu)建.......16
3.1 引言............163.2 實(shí)體知識(shí)的抽取 ............16
3.3 實(shí)體關(guān)系的計(jì)算 .......18
3.4 本章小結(jié) ..............23
第 4 章 基于實(shí)體知識(shí)網(wǎng)絡(luò)的地理試題作答............24
4.1 引言 ...............24
4.2 基于實(shí)體知識(shí)網(wǎng)絡(luò)的檢索作答.....24
4.3 基于機(jī)器學(xué)習(xí)的地理試題作答.............30
4.4 本章小結(jié) ..................36
第 5 章 系統(tǒng)搭建及實(shí)驗(yàn)分析..........................37
5.1 引言 .................37
5.2 在線問答系統(tǒng)的構(gòu)建 ..............37
5.3 實(shí)驗(yàn)結(jié)果與分析 .................40
5.4 本章小結(jié)..................43
結(jié) 論..................44
第5章 系統(tǒng)搭建及實(shí)驗(yàn)分析
5.1 引言
在本章中,首先將介紹地理在線答題系統(tǒng)的系統(tǒng)框架及作答過(guò)程。此外,本章將就基于實(shí)體知識(shí)網(wǎng)絡(luò)的作答方法和其他不同解題方法在課題標(biāo)注的 122 道高考地理選擇題中進(jìn)行答題效果的測(cè)試,同時(shí)分析測(cè)試結(jié)果數(shù)據(jù)的優(yōu)劣與原因。5.2 在線問答系統(tǒng)的構(gòu)建
后臺(tái)系統(tǒng)負(fù)責(zé)接收中間件傳入的問題文本、解析問題文本、解答問題并將系統(tǒng)對(duì)問題的回答傳回中間件,根據(jù)負(fù)責(zé)的功能不同,后臺(tái)系統(tǒng)被分為了題目分析擴(kuò)展模塊、檢索引擎、特征計(jì)算與評(píng)分模塊、答案排序模塊四大模塊。其中,題目分析與擴(kuò)展模塊首先對(duì)傳入的封裝文本進(jìn)行解壓還原,之后使用 jieba 分詞系統(tǒng)和停用詞表對(duì)題目文本進(jìn)行分詞、詞性標(biāo)注及去停用詞處理。在得到分詞結(jié)果后,按照候選選項(xiàng)與題干的組合,使用上文中提出的實(shí)體擴(kuò)展方法分別為每個(gè)候選項(xiàng)構(gòu)造檢索句列表。系統(tǒng)將得到的檢索句列表輸入檢索系統(tǒng)中。在本課題中,重寫了Lucene引擎中的文檔排序模塊,并且基于Lucene搭建了地理知識(shí)的檢索引擎,使其檢索的文檔列表結(jié)果更符合地理作答的需求。在得到檢索模塊給出的知識(shí)文檔后,特征計(jì)算與評(píng)分模塊根據(jù)檢索句與知識(shí)文檔同及實(shí)體知識(shí)網(wǎng)絡(luò)中的實(shí)體信息,使用第四章中的置信度計(jì)算方法對(duì)候選項(xiàng)的文檔相關(guān)性、句子相似性等特征進(jìn)行進(jìn)一步計(jì)算,得到每個(gè)答案對(duì)應(yīng)的各個(gè)特征的分值,并將該該分評(píng)分列表送入答案排序模塊。最后,答案排序模塊中對(duì)各特征評(píng)分進(jìn)行加權(quán),選出最終得分最高的選項(xiàng)作為答案,將答案進(jìn)行 json 封裝后,通過(guò)套接字接口返回給中間件,再由中間件將答案?jìng)鹘o前臺(tái)的等待線程。.....
結(jié) 論
在地理選擇題的作答過(guò)程中,如何在字面信息之外,獲取更多與之相關(guān)的信息,是地理選擇題作答過(guò)程中,亦是本文研究過(guò)程中的重點(diǎn)和難點(diǎn)。本文通過(guò)對(duì)地理知識(shí)文檔的分析,抽取了其中地理相關(guān)的實(shí)體列表,,并對(duì)其進(jìn)行了去重及實(shí)體屬性信息的填充。之后,本文基于百科文檔中地理實(shí)體的共現(xiàn)特征,提出了基于文檔的實(shí)體轉(zhuǎn)移距離和實(shí)體間距的自動(dòng)計(jì)算方法。在完成實(shí)體對(duì)間距的計(jì)算后,本文利用改進(jìn)后的 Floyd 算法,對(duì)實(shí)體關(guān)系和距離進(jìn)行了拓展和更新,得到了一個(gè)包含實(shí)體間距離信息關(guān)系的實(shí)體關(guān)系網(wǎng)絡(luò)�;趯�(shí)體關(guān)系網(wǎng)絡(luò),本文提出了對(duì)應(yīng)的問題實(shí)體擴(kuò)展方法,同時(shí),針對(duì)高考地理選擇題的題目特征,本文提出了基于文檔相關(guān)度和句子相關(guān)度的候選項(xiàng)置信度計(jì)算公式對(duì)候選項(xiàng)的置信度進(jìn)行評(píng)估。在之后的對(duì)比實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)果表明,實(shí)體關(guān)系網(wǎng)絡(luò)和本文所提出的置信度計(jì)算方法的使用,使系統(tǒng)的答題效果得到了顯著的提高(31.1%至 40.2%)。此外,本文利用檢索過(guò)程中得到的樣本特征,構(gòu)造了地理選擇題的樣本特征對(duì),并使用支持向量機(jī)和邏輯斯蒂回歸這兩個(gè)經(jīng)典方法對(duì)機(jī)器學(xué)習(xí)在答案排序中的應(yīng)用進(jìn)行了探索。
.......
參考文獻(xiàn)(略)
本文編號(hào):47307
本文鏈接:http://sikaile.net/wenshubaike/lwfw/47307.html