基于Web檢索的小型學(xué)習(xí)資源語料庫的建設(shè)
本文關(guān)鍵詞:基于Web檢索的小型學(xué)習(xí)資源語料庫的建設(shè),由筆耕文化傳播整理發(fā)布。
【摘要】:經(jīng)過幾十年的建設(shè)和發(fā)展,語料庫已經(jīng)成為語言學(xué)和信息技術(shù)研究的重要領(lǐng)域。語料庫與學(xué)習(xí)資源有著相輔相成的關(guān)系,語料庫是用統(tǒng)計語言模型方法處理自然語言的基礎(chǔ)資源,而利用教育技術(shù)學(xué)的學(xué)科優(yōu)勢和特點,發(fā)揮語料庫在建設(shè)學(xué)習(xí)資源的方面優(yōu)勢作用,對資源的共享必將有很多的幫助。 本文在分析了語料庫的背景及發(fā)展現(xiàn)狀,學(xué)習(xí)資源建設(shè)理論基礎(chǔ)和主要內(nèi)容后,提出了一種基于Web檢索的小型學(xué)習(xí)資源語料庫系統(tǒng)模型。開發(fā)了基于Java的專用型學(xué)習(xí)資源語料庫系統(tǒng),實現(xiàn)了數(shù)據(jù)收集、多種文檔處理、最終能夠?qū)崿F(xiàn)了語料檢索和語料提取。 首先,介紹了計算機語料庫的理論基礎(chǔ)和發(fā)展現(xiàn)狀,詳細論述了學(xué)習(xí)資源的定義、內(nèi)容等,接著分析了語料庫在學(xué)習(xí)資源庫建設(shè)中的可借鑒之處,,簡單描述了搜索引擎的發(fā)展現(xiàn)狀和工作原理。其次,介紹了自然語言處理的理論基礎(chǔ)以及現(xiàn)階段應(yīng)用比較廣泛的中文分詞器,分析了網(wǎng)頁消重和網(wǎng)頁凈化的相關(guān)技術(shù)現(xiàn)狀。最后,提出了基于Lucene/Heritrix的小型學(xué)習(xí)資源語料庫的系統(tǒng)模型。使用Heritix實現(xiàn)了網(wǎng)頁抓取、分析以及利用Lucene對學(xué)習(xí)資源語料庫的檢索。
【關(guān)鍵詞】:語料庫 學(xué)習(xí)資源 Heritrix Lucene
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1;G434
【目錄】:
- 摘要3-4
- Abstract4-7
- 第一章 緒論7-11
- 1.1 課題的背景及意義7-8
- 1.2 國內(nèi)外研究現(xiàn)狀8-9
- 1.3 本文的主要研究工作9-11
- 第二章 語料庫在學(xué)習(xí)資源建設(shè)中的應(yīng)用11-21
- 2.1 語料庫理論基礎(chǔ)11-13
- 2.1.1 語料庫的定義11
- 2.1.2 語料庫的分類11-12
- 2.1.3 語料庫的類型12-13
- 2.2 學(xué)習(xí)資源理論基礎(chǔ)13-16
- 2.2.1 學(xué)習(xí)資源理論概述13-14
- 2.2.2 學(xué)習(xí)資源的組成14-15
- 2.2.3 學(xué)習(xí)資源建設(shè)的內(nèi)容15
- 2.2.4 語料庫在學(xué)習(xí)資源建設(shè)中的啟示15-16
- 2.3 搜索引擎理論基礎(chǔ)16-19
- 2.3.1 搜索引擎發(fā)展概述16-17
- 2.3.2 搜索引擎原理17-19
- 2.3.3 網(wǎng)頁權(quán)限與更新周期19
- 2.4 本章小結(jié)19-21
- 第三章 自然語言處理21-31
- 3.1 自然語言處理過程21-24
- 3.1.1 自然語言處理概述21
- 3.1.2 中文文本的分類21-23
- 3.1.3 中文分詞器23-24
- 3.2 網(wǎng)頁消重24-27
- 3.2.1 文本表示模型24
- 3.2.2 文本特征的抽取24-25
- 3.2.3 相似距離25-26
- 3.2.4 網(wǎng)頁消重的算法26-27
- 3.3 網(wǎng)頁凈化27-29
- 3.3.1 單一頁面的網(wǎng)頁凈化27-28
- 3.3.2 基于視覺特征的凈化方法28
- 3.3.3 同一模板網(wǎng)頁凈化28-29
- 3.4 本章小結(jié)29-31
- 第四章 小型學(xué)習(xí)資源語料庫的系統(tǒng)設(shè)計31-43
- 4.1 小型學(xué)習(xí)資源語料庫系統(tǒng)模型31-33
- 4.1.1 資源語料庫需求分析31
- 4.1.2 小型學(xué)習(xí)資源語料庫的流程31-32
- 4.1.3 資源語料庫功能模塊32-33
- 4.2 功能模塊實現(xiàn)的技術(shù)原理33-39
- 4.2.1 平臺軟硬件環(huán)境33-34
- 4.2.2 主題網(wǎng)頁抓取34
- 4.2.3 Heritrix 架構(gòu)簡述34-37
- 4.2.4 Lucene 功能原理簡述37-39
- 4.3 多線程優(yōu)化 Heritrix 爬蟲性能39-41
- 4.4 本章小結(jié)41-43
- 第五章 資源語料庫核心模塊實現(xiàn)43-55
- 5.1 主題網(wǎng)頁的抓取43-46
- 5.1.1 利用 Heritrix 實現(xiàn)主題網(wǎng)頁抓取43-45
- 5.1.2 實際抓取效果圖45-46
- 5.2 網(wǎng)頁消重算法實現(xiàn)46-47
- 5.2.1 算法實現(xiàn)46-47
- 5.2.2 性能測試47
- 5.3 文檔預(yù)處理47-49
- 5.3.1 Lucene 對文檔的處理過程47-49
- 5.3.2 運行效果49
- 5.4 語料檢索的實現(xiàn)49-53
- 5.4.1 建立索引49-50
- 5.4.2 檢索目標文檔50-51
- 5.4.3 高亮處理51-53
- 5.4.4 運行效果53
- 5.5 本章小結(jié)53-55
- 第六章 總結(jié)與展望55-57
- 致謝57-59
- 參考文獻59-63
- 攻讀學(xué)位期間的主要成果63-64
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 邢富坤;;語料庫:值得教育技術(shù)學(xué)關(guān)注的新型學(xué)習(xí)資源[J];解放軍外國語學(xué)院學(xué)報;2006年02期
2 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計算機工程與應(yīng)用;2009年12期
3 張文進;文本信息檢索中的概率模型[J];情報雜志;2005年03期
4 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
5 胡燕;吳韋;;IUC算法及其在Web編碼中的應(yīng)用研究[J];武漢理工大學(xué)學(xué)報;2009年03期
6 李文中;語料庫、學(xué)習(xí)者語料庫與外語教學(xué)[J];外語界;1999年01期
7 謝華;劉衛(wèi)國;;基于局部語義的網(wǎng)頁凈化算法[J];計算機系統(tǒng)應(yīng)用;2007年05期
8 沈書生;;資源是媒體的延伸[J];中國電化教育;2000年07期
9 曹梅;張增榮;;學(xué)習(xí)資源的內(nèi)涵及其深化[J];中國電化教育;2002年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 李亞洲;文本分類語料庫自動構(gòu)建系統(tǒng)的研究與改進[D];武漢理工大學(xué);2011年
2 朱欽雋;計算機漢語理解的初步實踐[D];電子科技大學(xué);2001年
3 郭鵬;漢語語法語料庫系統(tǒng)的基礎(chǔ)設(shè)計[D];天津師范大學(xué);2006年
4 馮斌;基于Lucene小型搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2008年
5 毛許光;網(wǎng)頁查重算法研究[D];武漢理工大學(xué);2009年
6 李亮;基于Lucene和Heritrix的職位垂直搜索引擎的設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
本文關(guān)鍵詞:基于Web檢索的小型學(xué)習(xí)資源語料庫的建設(shè),由筆耕文化傳播整理發(fā)布。
本文編號:299340
本文鏈接:http://sikaile.net/jiaoyulunwen/wangluojiaoyulunwen/299340.html