基于聯(lián)通主義的自適應(yīng)Web信息抽取研究
發(fā)布時(shí)間:2021-05-26 18:11
隨著大數(shù)據(jù)時(shí)代的到來,人們可以通過網(wǎng)絡(luò)獲得不斷更新的學(xué)習(xí)資源,通過整合并結(jié)構(gòu)化存儲(chǔ)這些學(xué)習(xí)資源,可以實(shí)現(xiàn)對(duì)學(xué)習(xí)資源的鏈接,并且便于對(duì)學(xué)習(xí)資源的加工重用。這一過程與聯(lián)通主義所支持的“學(xué)習(xí)即在節(jié)點(diǎn)間建立鏈接”、“知識(shí)不斷更新”的思想相呼應(yīng)。為實(shí)現(xiàn)這一過程,需要對(duì)自適應(yīng)的Web信息抽取技術(shù)進(jìn)行研究,將半結(jié)構(gòu)化或非結(jié)構(gòu)化的網(wǎng)頁內(nèi)容抽取出結(jié)構(gòu)化的信息。本文將匯聚了名校精品課程的MOOC平臺(tái)作為研究對(duì)象。在MOOC平臺(tái)中,知識(shí)以課程為單位存儲(chǔ)在網(wǎng)頁中。本文通過借鑒主流的信息抽取技術(shù),結(jié)合聯(lián)通主義的知識(shí)觀與學(xué)習(xí)觀,進(jìn)行了自適應(yīng)Web信息抽取研究。研究經(jīng)歷了從課程屬性到課程關(guān)系的抽取過程。首先,本文提出了基于模板與特征相結(jié)合的課程屬性抽取方法。該方法通過計(jì)算文本節(jié)點(diǎn)信息熵的方式,挖掘出網(wǎng)站中的公共部分、標(biāo)識(shí)出可選部分,從而生成抽取模板,之后采樣目標(biāo)抽取信息,結(jié)合與文本內(nèi)容無關(guān)的四類局部文本特征,最終生成針對(duì)課程不同屬性的特征向量,通過特征向量對(duì)模板抽取結(jié)果進(jìn)行篩選;其次,本文提出跨網(wǎng)頁的課程關(guān)系抽取方法。在研究中預(yù)設(shè)了課程的三種關(guān)系,針對(duì)不同關(guān)系選用不同的課程屬性作為比對(duì)數(shù)據(jù)源,并為不同文本類型(描述...
【文章來源】:東北石油大學(xué)黑龍江省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
創(chuàng)新點(diǎn)摘要
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究方法
1.4 研究?jī)?nèi)容
1.5 本文組織結(jié)構(gòu)
第二章 背景技術(shù)與理論
2.1 Web信息抽取概述
2.1.1 Web信息抽取發(fā)展現(xiàn)狀
2.1.2 Web信息抽取的主要方法
2.1.3 Web信息抽取評(píng)價(jià)標(biāo)準(zhǔn)
2.2 聯(lián)通主義學(xué)習(xí)理論
2.2.1 聯(lián)通主義學(xué)習(xí)理論發(fā)展現(xiàn)狀
2.2.2 聯(lián)通主義學(xué)習(xí)理論支撐
2.3 本章小結(jié)
第三章 基于模板與特征相結(jié)合的Web屬性抽取
3.1 引言
3.2 網(wǎng)頁的組成
3.3 自適應(yīng)信息抽取算法模型
3.4 信息抽取準(zhǔn)備工作
3.4.1 URL匹配
3.4.2 全網(wǎng)站網(wǎng)頁抽取
3.5 基于文本節(jié)點(diǎn)信息熵計(jì)算的模板生成
3.5.1 模板節(jié)點(diǎn)與可選節(jié)點(diǎn)識(shí)別
3.5.2 基于序列比對(duì)的模板生成方法
3.5.3 自下而上的模板抽取
3.5.4 抽取結(jié)果
3.6 基于特征提取的課程屬性值識(shí)別
3.6.1 課程屬性局部特征模型
3.6.2 特征訓(xùn)練方法
3.6.3 特征的使用
3.6.4 抽取結(jié)果
3.7 本章小結(jié)
第四章 基于MOOC平臺(tái)的課程關(guān)系抽取
4.1 引言
4.2 課程實(shí)體關(guān)系設(shè)計(jì)
4.3 語料獲取
4.3.1 課程名抽取
4.3.2 知識(shí)點(diǎn)抽取
4.4 跨網(wǎng)頁關(guān)系抽取
4.4.1 基于實(shí)體類屬性文本的課程鏈接
4.4.2 基于描述類屬性文本的課程連接
4.5 課程邏輯關(guān)系抽取
4.6 實(shí)驗(yàn)分析
4.7 本章小結(jié)
第五章 基于MOOC的高等計(jì)算機(jī)課程知識(shí)圖譜設(shè)計(jì)與實(shí)現(xiàn)
5.1 引言
5.2 數(shù)據(jù)獲取
5.3 課程信息架構(gòu)設(shè)計(jì)
5.4 關(guān)系知識(shí)組織
5.5 課程關(guān)系抽取
5.6 關(guān)系知識(shí)的存儲(chǔ)
5.7 知識(shí)內(nèi)容的更新
5.8 知識(shí)圖譜的可視化
5.9 本章小結(jié)
結(jié)論
參考文獻(xiàn)
附錄 1 樣本局部特征圖
發(fā)表文章目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種融合語義角色和依存句法的實(shí)體關(guān)系抽取算法[J]. 秦曉慧,侯霞,趙雪. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[2]基于關(guān)聯(lián)主義的成人學(xué)習(xí)者學(xué)習(xí)資源設(shè)計(jì)策略[J]. 王麗川,崔亮,王志國(guó). 成人教育. 2017(09)
[3]面向機(jī)構(gòu)知識(shí)庫的課程信息元數(shù)據(jù)抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳雅迪,張雪蕾,李娟. 情報(bào)探索. 2017(07)
[4]微博中的開放域事件抽取[J]. 陳簫簫,劉波. 計(jì)算機(jī)應(yīng)用與軟件. 2016(08)
[5]“互聯(lián)網(wǎng)+”教育環(huán)境下基于聯(lián)通主義理論的移動(dòng)學(xué)習(xí)資源設(shè)計(jì)研究[J]. 趙書靜,白敏. 教育教學(xué)論壇. 2016(28)
[6]基于關(guān)聯(lián)主義的高校開放課程資源平臺(tái)設(shè)計(jì)[J]. 曹茜,郝超平,徐世東. 中國(guó)教育信息化. 2015(09)
[7]聯(lián)通主義學(xué)習(xí)理論及其最新進(jìn)展[J]. 王志軍,陳麗. 開放教育研究. 2014(05)
[8]面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J]. 賈真,楊宇飛,何大可,劉勝久,尹紅風(fēng). 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)
[9]面向非結(jié)構(gòu)化文本的開放式實(shí)體屬性抽取[J]. 曾道建,來斯惟,張?jiān)?劉康,趙軍. 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(03)
[10]網(wǎng)頁中商品“屬性—值”關(guān)系的自動(dòng)抽取方法研究[J]. 唐偉,洪宇,馮艷卉,姚建民,朱巧明. 中文信息學(xué)報(bào). 2013(01)
博士論文
[1]精確Web信息抽取關(guān)鍵技術(shù)與系統(tǒng)研究[D]. 施生生.南京大學(xué) 2017
[2]面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取[D]. 郭喜躍.華中師范大學(xué) 2016
[3]關(guān)聯(lián)主義學(xué)習(xí)理論及其視角下的教與學(xué)組織研究[D]. 劉菊.東北師范大學(xué) 2011
[4]信息抽取中實(shí)體關(guān)系識(shí)別研究[D]. 張奇.中國(guó)科學(xué)技術(shù)大學(xué) 2010
[5]信息抽取中關(guān)鍵技術(shù)的研究[D]. 張素香.北京郵電大學(xué) 2007
碩士論文
[1]MOOC環(huán)境下課程智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曲強(qiáng).延邊大學(xué) 2018
[2]基于MOOC的高等教育知識(shí)圖譜的構(gòu)建[D]. 侯俊萌.北京郵電大學(xué) 2017
[3]自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究[D]. 陳曉雷.遼寧大學(xué) 2016
[4]聯(lián)通主義學(xué)習(xí)理論視角下大學(xué)生自主學(xué)習(xí)能力培養(yǎng)研究[D]. 寧通.鄭州大學(xué) 2015
[5]基于信息熵的Web信息抽取技術(shù)研究[D]. 張奇.廣東工業(yè)大學(xué) 2013
[6]基于語義角色標(biāo)注的微博人物關(guān)系抽取[D]. 廉營(yíng).哈爾濱工業(yè)大學(xué) 2013
[7]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學(xué) 2011
[8]基于最大熵方法的評(píng)論信息抽取研究[D]. 趙麗芳.上海交通大學(xué) 2009
[9]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學(xué) 2008
[10]Web教學(xué)資源抽取技術(shù)及其應(yīng)用研究[D]. 劉洋.東北師范大學(xué) 2007
本文編號(hào):3206827
【文章來源】:東北石油大學(xué)黑龍江省
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
創(chuàng)新點(diǎn)摘要
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究方法
1.4 研究?jī)?nèi)容
1.5 本文組織結(jié)構(gòu)
第二章 背景技術(shù)與理論
2.1 Web信息抽取概述
2.1.1 Web信息抽取發(fā)展現(xiàn)狀
2.1.2 Web信息抽取的主要方法
2.1.3 Web信息抽取評(píng)價(jià)標(biāo)準(zhǔn)
2.2 聯(lián)通主義學(xué)習(xí)理論
2.2.1 聯(lián)通主義學(xué)習(xí)理論發(fā)展現(xiàn)狀
2.2.2 聯(lián)通主義學(xué)習(xí)理論支撐
2.3 本章小結(jié)
第三章 基于模板與特征相結(jié)合的Web屬性抽取
3.1 引言
3.2 網(wǎng)頁的組成
3.3 自適應(yīng)信息抽取算法模型
3.4 信息抽取準(zhǔn)備工作
3.4.1 URL匹配
3.4.2 全網(wǎng)站網(wǎng)頁抽取
3.5 基于文本節(jié)點(diǎn)信息熵計(jì)算的模板生成
3.5.1 模板節(jié)點(diǎn)與可選節(jié)點(diǎn)識(shí)別
3.5.2 基于序列比對(duì)的模板生成方法
3.5.3 自下而上的模板抽取
3.5.4 抽取結(jié)果
3.6 基于特征提取的課程屬性值識(shí)別
3.6.1 課程屬性局部特征模型
3.6.2 特征訓(xùn)練方法
3.6.3 特征的使用
3.6.4 抽取結(jié)果
3.7 本章小結(jié)
第四章 基于MOOC平臺(tái)的課程關(guān)系抽取
4.1 引言
4.2 課程實(shí)體關(guān)系設(shè)計(jì)
4.3 語料獲取
4.3.1 課程名抽取
4.3.2 知識(shí)點(diǎn)抽取
4.4 跨網(wǎng)頁關(guān)系抽取
4.4.1 基于實(shí)體類屬性文本的課程鏈接
4.4.2 基于描述類屬性文本的課程連接
4.5 課程邏輯關(guān)系抽取
4.6 實(shí)驗(yàn)分析
4.7 本章小結(jié)
第五章 基于MOOC的高等計(jì)算機(jī)課程知識(shí)圖譜設(shè)計(jì)與實(shí)現(xiàn)
5.1 引言
5.2 數(shù)據(jù)獲取
5.3 課程信息架構(gòu)設(shè)計(jì)
5.4 關(guān)系知識(shí)組織
5.5 課程關(guān)系抽取
5.6 關(guān)系知識(shí)的存儲(chǔ)
5.7 知識(shí)內(nèi)容的更新
5.8 知識(shí)圖譜的可視化
5.9 本章小結(jié)
結(jié)論
參考文獻(xiàn)
附錄 1 樣本局部特征圖
發(fā)表文章目錄
致謝
【參考文獻(xiàn)】:
期刊論文
[1]一種融合語義角色和依存句法的實(shí)體關(guān)系抽取算法[J]. 秦曉慧,侯霞,趙雪. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[2]基于關(guān)聯(lián)主義的成人學(xué)習(xí)者學(xué)習(xí)資源設(shè)計(jì)策略[J]. 王麗川,崔亮,王志國(guó). 成人教育. 2017(09)
[3]面向機(jī)構(gòu)知識(shí)庫的課程信息元數(shù)據(jù)抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳雅迪,張雪蕾,李娟. 情報(bào)探索. 2017(07)
[4]微博中的開放域事件抽取[J]. 陳簫簫,劉波. 計(jì)算機(jī)應(yīng)用與軟件. 2016(08)
[5]“互聯(lián)網(wǎng)+”教育環(huán)境下基于聯(lián)通主義理論的移動(dòng)學(xué)習(xí)資源設(shè)計(jì)研究[J]. 趙書靜,白敏. 教育教學(xué)論壇. 2016(28)
[6]基于關(guān)聯(lián)主義的高校開放課程資源平臺(tái)設(shè)計(jì)[J]. 曹茜,郝超平,徐世東. 中國(guó)教育信息化. 2015(09)
[7]聯(lián)通主義學(xué)習(xí)理論及其最新進(jìn)展[J]. 王志軍,陳麗. 開放教育研究. 2014(05)
[8]面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J]. 賈真,楊宇飛,何大可,劉勝久,尹紅風(fēng). 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(01)
[9]面向非結(jié)構(gòu)化文本的開放式實(shí)體屬性抽取[J]. 曾道建,來斯惟,張?jiān)?劉康,趙軍. 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(03)
[10]網(wǎng)頁中商品“屬性—值”關(guān)系的自動(dòng)抽取方法研究[J]. 唐偉,洪宇,馮艷卉,姚建民,朱巧明. 中文信息學(xué)報(bào). 2013(01)
博士論文
[1]精確Web信息抽取關(guān)鍵技術(shù)與系統(tǒng)研究[D]. 施生生.南京大學(xué) 2017
[2]面向開放領(lǐng)域文本的實(shí)體關(guān)系抽取[D]. 郭喜躍.華中師范大學(xué) 2016
[3]關(guān)聯(lián)主義學(xué)習(xí)理論及其視角下的教與學(xué)組織研究[D]. 劉菊.東北師范大學(xué) 2011
[4]信息抽取中實(shí)體關(guān)系識(shí)別研究[D]. 張奇.中國(guó)科學(xué)技術(shù)大學(xué) 2010
[5]信息抽取中關(guān)鍵技術(shù)的研究[D]. 張素香.北京郵電大學(xué) 2007
碩士論文
[1]MOOC環(huán)境下課程智能問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曲強(qiáng).延邊大學(xué) 2018
[2]基于MOOC的高等教育知識(shí)圖譜的構(gòu)建[D]. 侯俊萌.北京郵電大學(xué) 2017
[3]自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究[D]. 陳曉雷.遼寧大學(xué) 2016
[4]聯(lián)通主義學(xué)習(xí)理論視角下大學(xué)生自主學(xué)習(xí)能力培養(yǎng)研究[D]. 寧通.鄭州大學(xué) 2015
[5]基于信息熵的Web信息抽取技術(shù)研究[D]. 張奇.廣東工業(yè)大學(xué) 2013
[6]基于語義角色標(biāo)注的微博人物關(guān)系抽取[D]. 廉營(yíng).哈爾濱工業(yè)大學(xué) 2013
[7]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學(xué) 2011
[8]基于最大熵方法的評(píng)論信息抽取研究[D]. 趙麗芳.上海交通大學(xué) 2009
[9]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學(xué) 2008
[10]Web教學(xué)資源抽取技術(shù)及其應(yīng)用研究[D]. 劉洋.東北師范大學(xué) 2007
本文編號(hào):3206827
本文鏈接:http://sikaile.net/jiaoyulunwen/ktjx/3206827.html
最近更新
教材專著