面向互聯(lián)網(wǎng)網(wǎng)站標(biāo)注的標(biāo)簽庫(kù)的研究
發(fā)布時(shí)間:2021-08-06 03:15
隨著Internet的飛速發(fā)展,互聯(lián)網(wǎng)上的信息量呈爆炸式發(fā)展,Web網(wǎng)頁(yè)中存放著涵蓋各個(gè)領(lǐng)域的大量有價(jià)值的信息,F(xiàn)階段對(duì)網(wǎng)站分類需要處理大量的數(shù)據(jù),正確率卻不高,類目的設(shè)置也是一個(gè)問題。網(wǎng)站信息抽取主要針對(duì)單一網(wǎng)站進(jìn)行處理,即使獲得模板也無(wú)法適應(yīng)大規(guī)模web信息抽取的需要。web2.0時(shí)代的到來(lái),使標(biāo)簽在博客系統(tǒng)、論壇、視頻網(wǎng)站等方面得到了廣泛的應(yīng)用,成為一種全新的信息分類組織形式。本文選取對(duì)網(wǎng)站進(jìn)行標(biāo)簽標(biāo)注,并設(shè)計(jì)標(biāo)簽庫(kù)實(shí)現(xiàn)信息的結(jié)構(gòu)化保存和組織作為研究對(duì)象。本論文的主要工作分為標(biāo)簽庫(kù)的研究、設(shè)計(jì)和對(duì)網(wǎng)站的標(biāo)簽提取兩部分:對(duì)第一部分,分別對(duì)文獻(xiàn)分類法和標(biāo)簽分類法進(jìn)行了研究,在對(duì)分類目錄和標(biāo)簽云進(jìn)行分析對(duì)比后,提出了標(biāo)簽庫(kù)的多面復(fù)合式等級(jí)結(jié)構(gòu),從主體性質(zhì)、形式、行業(yè)、主題、地區(qū)、語(yǔ)言六個(gè)方面對(duì)網(wǎng)站進(jìn)行信息標(biāo)注。第二部分,在對(duì)網(wǎng)站進(jìn)行結(jié)構(gòu)分析后,與設(shè)計(jì)的標(biāo)簽庫(kù)相結(jié)合,提出用網(wǎng)頁(yè)分類、網(wǎng)頁(yè)自動(dòng)標(biāo)引相結(jié)合的方法對(duì)網(wǎng)站進(jìn)行標(biāo)注,提取標(biāo)簽。通過分析網(wǎng)站拓?fù)浣Y(jié)構(gòu)建立網(wǎng)站結(jié)構(gòu)樹,來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)的自動(dòng)分類,然后對(duì)內(nèi)容網(wǎng)頁(yè)進(jìn)行自動(dòng)標(biāo)引提取標(biāo)簽。最后設(shè)計(jì)實(shí)驗(yàn)、分析結(jié)果,證明該方法取得了很好的效果。網(wǎng)站作為網(wǎng)絡(luò)...
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究的背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的主要工作
1.4 論文組織結(jié)構(gòu)
第二章 標(biāo)注目錄與網(wǎng)站標(biāo)注相關(guān)技術(shù)的研究
2.1 文獻(xiàn)分類目錄與元數(shù)據(jù)
2.1.1 文獻(xiàn)分類法組織網(wǎng)絡(luò)信息
2.1.2 元數(shù)據(jù)
2.2 標(biāo)簽與標(biāo)簽云
2.2.1 標(biāo)簽
2.2.2 標(biāo)簽云與標(biāo)簽的層次結(jié)構(gòu)
2.3 兩種分類方式的對(duì)比
2.4 網(wǎng)站的信息標(biāo)注
2.4.1 網(wǎng)頁(yè)自動(dòng)分類
2.4.2 網(wǎng)頁(yè)自動(dòng)標(biāo)引
第三章 面向網(wǎng)站標(biāo)注的標(biāo)簽庫(kù)的結(jié)構(gòu)
3.1 網(wǎng)站相關(guān)屬性分析
3.1.1 網(wǎng)頁(yè)與網(wǎng)站結(jié)構(gòu)
3.1.2 URL及其關(guān)鍵字意義的研究
3.2 自定義網(wǎng)站元數(shù)據(jù)元素
3.2.1 網(wǎng)頁(yè)元素的表示
3.2.2 網(wǎng)站元素表示
3.3 標(biāo)簽庫(kù)
3.3.1 標(biāo)簽庫(kù)的結(jié)構(gòu)
3.3.2 主題子庫(kù)的結(jié)構(gòu)設(shè)計(jì)
第四章 網(wǎng)站標(biāo)注方法的研究
4.1 標(biāo)注系統(tǒng)設(shè)計(jì)
4.2 基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的網(wǎng)頁(yè)的自動(dòng)分類
4.2.1 網(wǎng)站拓?fù)鋱D的建立
4.2.2 網(wǎng)站結(jié)構(gòu)樹的建立
4.2.3 網(wǎng)頁(yè)分類
4.3 基于SVM的多特征的網(wǎng)頁(yè)自動(dòng)標(biāo)引
4.3.1 SVM自動(dòng)分類方法
4.3.2 基于SVM的多特征的網(wǎng)頁(yè)自動(dòng)標(biāo)引
第五章 網(wǎng)站標(biāo)注的設(shè)計(jì)實(shí)驗(yàn)與結(jié)果分析
5.1 數(shù)據(jù)集的獲取與描述
5.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)
5.3 基于網(wǎng)站拓?fù)浣Y(jié)構(gòu)的網(wǎng)頁(yè)分類實(shí)驗(yàn)
5.3.1 實(shí)驗(yàn)設(shè)計(jì)
5.3.2 實(shí)驗(yàn)結(jié)果分析
5.4 基于SVM的多特征網(wǎng)頁(yè)自動(dòng)標(biāo)引實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)設(shè)計(jì)
5.4.2 實(shí)驗(yàn)結(jié)果分析
第六章 結(jié)束語(yǔ)
6.1 論文工作總結(jié)
6.2 進(jìn)一步的研究工作
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻(xiàn)】:
期刊論文
[1]一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 索紅光,劉玉樹,曹淑英. 中文信息學(xué)報(bào). 2006(06)
[2]近5年網(wǎng)絡(luò)信息分類組織研究述略[J]. 劉延章. 圖書情報(bào)工作. 2004(01)
[3]網(wǎng)絡(luò)信息檢索工具的分類體系——網(wǎng)絡(luò)信息檢索工具發(fā)展的方向與提高競(jìng)爭(zhēng)力的途徑(連載三)[J]. 張琪玉. 江蘇圖書館學(xué)報(bào). 2002(04)
[4]網(wǎng)絡(luò)信息分類與網(wǎng)站分類目錄初探[J]. 高薇薇,楊麗. 圖書館建設(shè). 2002(03)
[5]網(wǎng)絡(luò)信息分類體系[J]. 史學(xué)斌. 圖書館. 2002(02)
[6]網(wǎng)絡(luò)信息分類系統(tǒng)的發(fā)展趨向研究[J]. 蘇廣利. 圖書館雜志. 2002(04)
[7]中文搜索引擎分類體系研究[J]. 譚宇紅,胡德華,柳曉春. 情報(bào)科學(xué). 2001(06)
[8]中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J]. 韓客松,王永成. 情報(bào)學(xué)報(bào). 2001(02)
[9]網(wǎng)絡(luò)信息分類與傳統(tǒng)分類法的優(yōu)劣分析──兼談構(gòu)建《中國(guó)網(wǎng)絡(luò)信息分類法》[J]. 石曉華,王春芳. 圖書館理論與實(shí)踐. 2001(01)
[10]計(jì)算機(jī)輔助分類主題標(biāo)引系統(tǒng)設(shè)計(jì)——《中國(guó)分類主題詞表》電子化[J]. 林彬,孟欣欣. 情報(bào)理論與實(shí)踐. 1999(05)
本文編號(hào):3324960
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究的背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文的主要工作
1.4 論文組織結(jié)構(gòu)
第二章 標(biāo)注目錄與網(wǎng)站標(biāo)注相關(guān)技術(shù)的研究
2.1 文獻(xiàn)分類目錄與元數(shù)據(jù)
2.1.1 文獻(xiàn)分類法組織網(wǎng)絡(luò)信息
2.1.2 元數(shù)據(jù)
2.2 標(biāo)簽與標(biāo)簽云
2.2.1 標(biāo)簽
2.2.2 標(biāo)簽云與標(biāo)簽的層次結(jié)構(gòu)
2.3 兩種分類方式的對(duì)比
2.4 網(wǎng)站的信息標(biāo)注
2.4.1 網(wǎng)頁(yè)自動(dòng)分類
2.4.2 網(wǎng)頁(yè)自動(dòng)標(biāo)引
第三章 面向網(wǎng)站標(biāo)注的標(biāo)簽庫(kù)的結(jié)構(gòu)
3.1 網(wǎng)站相關(guān)屬性分析
3.1.1 網(wǎng)頁(yè)與網(wǎng)站結(jié)構(gòu)
3.1.2 URL及其關(guān)鍵字意義的研究
3.2 自定義網(wǎng)站元數(shù)據(jù)元素
3.2.1 網(wǎng)頁(yè)元素的表示
3.2.2 網(wǎng)站元素表示
3.3 標(biāo)簽庫(kù)
3.3.1 標(biāo)簽庫(kù)的結(jié)構(gòu)
3.3.2 主題子庫(kù)的結(jié)構(gòu)設(shè)計(jì)
第四章 網(wǎng)站標(biāo)注方法的研究
4.1 標(biāo)注系統(tǒng)設(shè)計(jì)
4.2 基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的網(wǎng)頁(yè)的自動(dòng)分類
4.2.1 網(wǎng)站拓?fù)鋱D的建立
4.2.2 網(wǎng)站結(jié)構(gòu)樹的建立
4.2.3 網(wǎng)頁(yè)分類
4.3 基于SVM的多特征的網(wǎng)頁(yè)自動(dòng)標(biāo)引
4.3.1 SVM自動(dòng)分類方法
4.3.2 基于SVM的多特征的網(wǎng)頁(yè)自動(dòng)標(biāo)引
第五章 網(wǎng)站標(biāo)注的設(shè)計(jì)實(shí)驗(yàn)與結(jié)果分析
5.1 數(shù)據(jù)集的獲取與描述
5.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)
5.3 基于網(wǎng)站拓?fù)浣Y(jié)構(gòu)的網(wǎng)頁(yè)分類實(shí)驗(yàn)
5.3.1 實(shí)驗(yàn)設(shè)計(jì)
5.3.2 實(shí)驗(yàn)結(jié)果分析
5.4 基于SVM的多特征網(wǎng)頁(yè)自動(dòng)標(biāo)引實(shí)驗(yàn)
5.4.1 實(shí)驗(yàn)設(shè)計(jì)
5.4.2 實(shí)驗(yàn)結(jié)果分析
第六章 結(jié)束語(yǔ)
6.1 論文工作總結(jié)
6.2 進(jìn)一步的研究工作
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻(xiàn)】:
期刊論文
[1]一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 索紅光,劉玉樹,曹淑英. 中文信息學(xué)報(bào). 2006(06)
[2]近5年網(wǎng)絡(luò)信息分類組織研究述略[J]. 劉延章. 圖書情報(bào)工作. 2004(01)
[3]網(wǎng)絡(luò)信息檢索工具的分類體系——網(wǎng)絡(luò)信息檢索工具發(fā)展的方向與提高競(jìng)爭(zhēng)力的途徑(連載三)[J]. 張琪玉. 江蘇圖書館學(xué)報(bào). 2002(04)
[4]網(wǎng)絡(luò)信息分類與網(wǎng)站分類目錄初探[J]. 高薇薇,楊麗. 圖書館建設(shè). 2002(03)
[5]網(wǎng)絡(luò)信息分類體系[J]. 史學(xué)斌. 圖書館. 2002(02)
[6]網(wǎng)絡(luò)信息分類系統(tǒng)的發(fā)展趨向研究[J]. 蘇廣利. 圖書館雜志. 2002(04)
[7]中文搜索引擎分類體系研究[J]. 譚宇紅,胡德華,柳曉春. 情報(bào)科學(xué). 2001(06)
[8]中文全文標(biāo)引的主題詞標(biāo)引和主題概念標(biāo)引方法[J]. 韓客松,王永成. 情報(bào)學(xué)報(bào). 2001(02)
[9]網(wǎng)絡(luò)信息分類與傳統(tǒng)分類法的優(yōu)劣分析──兼談構(gòu)建《中國(guó)網(wǎng)絡(luò)信息分類法》[J]. 石曉華,王春芳. 圖書館理論與實(shí)踐. 2001(01)
[10]計(jì)算機(jī)輔助分類主題標(biāo)引系統(tǒng)設(shè)計(jì)——《中國(guó)分類主題詞表》電子化[J]. 林彬,孟欣欣. 情報(bào)理論與實(shí)踐. 1999(05)
本文編號(hào):3324960
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3324960.html
最近更新
教材專著