基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究
本文關(guān)鍵詞:基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究
更多相關(guān)文章: DOM 節(jié)點(diǎn)類型標(biāo)注 主題信息抽取
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)頁(yè)數(shù)量呈爆炸性增長(zhǎng)。網(wǎng)頁(yè)中包含著豐富的內(nèi)容,既有用戶想要瀏覽的主題信息,也有對(duì)用戶形成干擾與主題無(wú)關(guān)的信息,如頁(yè)面導(dǎo)航條、推薦鏈接、廣告條、版權(quán)聲明等,后者通常被稱為網(wǎng)頁(yè)噪聲。網(wǎng)頁(yè)噪聲的存在給Web信息檢索帶來(lái)很大的難題,也對(duì)諸如網(wǎng)頁(yè)分類和聚類、知識(shí)挖掘、話題檢測(cè)、個(gè)性化信息推薦、數(shù)據(jù)挖掘等任務(wù)造成很大的影響。如果不將噪聲去除的話,信息檢索系統(tǒng)必然會(huì)得出很糟糕的檢索結(jié)果。因此,去除網(wǎng)頁(yè)噪聲,從網(wǎng)頁(yè)中抽取主題信息是Web信息檢索的一個(gè)重要的基礎(chǔ)性工作。在Web信息抽取領(lǐng)域,按照網(wǎng)頁(yè)主題信息抽取算法按照處理方式的不同,可以信息抽取方法分為三類:一、基于模板匹配的方法。這種方法主要基于網(wǎng)站中的頁(yè)面共享相同的模板,通過(guò)將網(wǎng)站的模板識(shí)別出來(lái),然后利用模板對(duì)頁(yè)面進(jìn)行匹配以識(shí)別網(wǎng)頁(yè)主題信息。二、基于機(jī)器學(xué)習(xí)的方法。這種方法主要適用于大規(guī)模網(wǎng)頁(yè)數(shù)據(jù)集的處理,首先利用人工標(biāo)注的網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練出網(wǎng)頁(yè)主題信息分類模型,然后利用分類器來(lái)識(shí)別網(wǎng)頁(yè)中的主題和非主題信息。三、基于啟發(fā)式規(guī)則的方法。這類方法,基于頁(yè)面中的一些視覺特征或結(jié)構(gòu)特征或內(nèi)容特征來(lái)構(gòu)建啟發(fā)式規(guī)則集合?紤]到基于啟發(fā)式規(guī)則的信息抽取方法具有較高的算法效率,以及考慮VIPS算法存在的不足,本文結(jié)合對(duì)網(wǎng)頁(yè)噪聲特點(diǎn)以及網(wǎng)頁(yè)性質(zhì)的觀察和統(tǒng)計(jì),提出了一種基于DOM節(jié)點(diǎn)類型標(biāo)注(Node Type Annotation)的主題信息抽取算法——NTA算法。首先依據(jù)網(wǎng)頁(yè)中噪聲存在的形式,定義了4種節(jié)點(diǎn)類型:文本型節(jié)點(diǎn)、鏈接型節(jié)點(diǎn)、圖片型節(jié)點(diǎn)和可忽略型節(jié)點(diǎn),并且定義了節(jié)點(diǎn)的內(nèi)聚度(Do C)用于反映節(jié)點(diǎn)內(nèi)容的一致性。通過(guò)計(jì)算DOM結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)的內(nèi)容特征來(lái)確定節(jié)點(diǎn)類型以及節(jié)點(diǎn)的內(nèi)聚度,并給每個(gè)節(jié)點(diǎn)添加類型和內(nèi)聚度兩個(gè)屬性。在主題信息抽取階段,借助閾值以及節(jié)點(diǎn)文本密度來(lái)識(shí)別節(jié)點(diǎn)類型以及比較內(nèi)聚度來(lái)獲取所需的正文節(jié)點(diǎn),并針對(duì)圖片和鏈接的篩選問(wèn)題作出相應(yīng)的特殊處理,最后整合得到網(wǎng)頁(yè)的主題信息。本文方法彌補(bǔ)了VIPS不能抽取網(wǎng)頁(yè)主題信息的不足并且具有較好的算法效率,方法不依賴特定標(biāo)簽因而也具有更好的通用性。最后,基于本文NTA算法開發(fā)了一款網(wǎng)頁(yè)正文提取工具Web Clipper,從7大門戶網(wǎng)站選取了100多個(gè)新聞?lì)惥W(wǎng)頁(yè)進(jìn)行了測(cè)試,并且也與目前市面上的三款同類工具有道云剪報(bào)、印象筆記悅讀以及國(guó)外的Readability做了對(duì)比實(shí)驗(yàn)。初步實(shí)驗(yàn)結(jié)果顯示,本文所提出的算法的平均查全率為98.15%,平均查準(zhǔn)率為92.41%,NTA方法在F1指標(biāo)上為95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%,這在一定程度上證實(shí)了本文方法的有效性和實(shí)用性。
【關(guān)鍵詞】:DOM 節(jié)點(diǎn)類型標(biāo)注 主題信息抽取
【學(xué)位授予單位】:中國(guó)農(nóng)業(yè)科學(xué)院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
- 摘要6-7
- Abstract7-11
- 英文縮略表11-12
- 第一章 引言12-16
- 1.1 研究背景與研究意義12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.3 論文研究?jī)?nèi)容14
- 1.4 論文技術(shù)路線14-15
- 1.5 論文組織結(jié)構(gòu)15-16
- 第二章 網(wǎng)頁(yè)主題信息抽取16-23
- 2.1 網(wǎng)頁(yè)主題信息抽取算法介紹16-20
- 2.1.1 基于模板匹配的方法16-17
- 2.1.2 基于機(jī)器學(xué)習(xí)的方法17-18
- 2.1.3 基于啟發(fā)式規(guī)則的方法18-19
- 2.1.4 其他方法19-20
- 2.2 網(wǎng)頁(yè)主題信息抽取評(píng)價(jià)方法20-21
- 2.2.1 直接評(píng)價(jià)法20-21
- 2.2.2 間接評(píng)價(jià)法21
- 2.3 網(wǎng)頁(yè)主題信息抽取應(yīng)用21-22
- 2.3.1 網(wǎng)頁(yè)語(yǔ)料處理21
- 2.3.2 網(wǎng)頁(yè)內(nèi)容轉(zhuǎn)換21-22
- 2.3.3 網(wǎng)頁(yè)數(shù)據(jù)挖掘22
- 2.4 本章小結(jié)22-23
- 第三章 節(jié)點(diǎn)類型及內(nèi)聚度23-33
- 3.1 節(jié)點(diǎn)類型24-28
- 3.1.1 標(biāo)準(zhǔn)DOM節(jié)點(diǎn)類型24-26
- 3.1.2 本文DOM節(jié)點(diǎn)類型26-28
- 3.2 節(jié)點(diǎn)內(nèi)聚度28-32
- 3.2.1 VIPS方法中的內(nèi)聚度29
- 3.2.2 本文方法中的內(nèi)聚度29-32
- 3.3 本章小結(jié)32-33
- 第四章 基于節(jié)點(diǎn)類型標(biāo)注的方法33-40
- 4.1 網(wǎng)頁(yè)預(yù)處理33-34
- 4.1.1 HTML語(yǔ)法的格式化33
- 4.1.2 特定標(biāo)簽的處理33-34
- 4.2 節(jié)點(diǎn)類型標(biāo)注34-35
- 4.3 主題信息抽取35-39
- 4.3.1 選取最佳剪枝文本節(jié)點(diǎn)35-36
- 4.3.2 DOM剪枝36-38
- 4.3.3 圖片與鏈接問(wèn)題38-39
- 4.4 本章小結(jié)39-40
- 第五章 網(wǎng)頁(yè)主題信息抽取實(shí)驗(yàn)40-46
- 5.1 實(shí)驗(yàn)環(huán)境設(shè)定40
- 5.2 實(shí)驗(yàn)操作流程40-42
- 5.2.1 選取主題型網(wǎng)頁(yè)41
- 5.2.2 WClipper提取網(wǎng)頁(yè)正文41
- 5.2.3 選取網(wǎng)頁(yè)主題內(nèi)容41
- 5.2.4 選取正確內(nèi)容41
- 5.2.5 計(jì)算F1及記錄41-42
- 5.3 實(shí)驗(yàn)測(cè)試數(shù)據(jù)集42
- 5.4 對(duì)比實(shí)驗(yàn)方法42-43
- 5.4.1 有道網(wǎng)頁(yè)剪報(bào)工具42
- 5.4.2 印象筆記悅讀工具42-43
- 5.4.3 Readability工具43
- 5.5 實(shí)驗(yàn)結(jié)果及分析43-45
- 5.6 本章小結(jié)45-46
- 第六章 總結(jié)與展望46-48
- 6.1 論文工作總結(jié)46-47
- 6.2 存在的問(wèn)題及未來(lái)的方向47-48
- 參考文獻(xiàn)48-54
- 在學(xué)期間的研究成果54-55
- 致謝55
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李建華,王志國(guó),馬曉云,韓建國(guó);網(wǎng)頁(yè)發(fā)布常用方法及遇到問(wèn)題[J];電腦開發(fā)與應(yīng)用;2001年11期
2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計(jì)——小議網(wǎng)頁(yè)設(shè)計(jì)[J];蘇州絲綢工學(xué)院學(xué)報(bào);1999年06期
3 李亞文;網(wǎng)頁(yè)設(shè)計(jì)系列講座(一) 信息世界的新時(shí)尚——用網(wǎng)頁(yè)展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網(wǎng)頁(yè)設(shè)計(jì)系列講座(四) 在世界面前展示你的風(fēng)采——網(wǎng)頁(yè)發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[J];學(xué)報(bào)編輯論叢;2000年00期
6 康軍;出版社網(wǎng)頁(yè)的設(shè)計(jì)與開發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網(wǎng)頁(yè)與網(wǎng)頁(yè)發(fā)布[J];南京廣播電視大學(xué)學(xué)報(bào);2000年04期
8 付斌 ,韓松;網(wǎng)頁(yè)沙龍之發(fā)布我的網(wǎng)頁(yè)[J];網(wǎng)絡(luò)與信息;2001年10期
9 顧綺芳;韓斌;;《網(wǎng)頁(yè)設(shè)計(jì)》教學(xué)探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學(xué)環(huán)境下的網(wǎng)頁(yè)設(shè)計(jì)課程教學(xué)的探索與實(shí)踐[J];科技信息(科學(xué)教研);2007年28期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 高渭文;馬敏峰;;科技期刊網(wǎng)頁(yè)的規(guī)劃設(shè)計(jì)與制作維護(hù)[A];學(xué)報(bào)編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁(yè)防篡改系統(tǒng)實(shí)現(xiàn)方法研究[A];2011年中國(guó)氣象學(xué)會(huì)氣象通信與信息技術(shù)委員會(huì)暨國(guó)家氣象信息中心科技年會(huì)論文摘要[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前7條
1 本報(bào)記者 王兵 通訊員 韋煒;小網(wǎng)頁(yè) 大名片 長(zhǎng)鏈條[N];中國(guó)氣象報(bào);2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國(guó)電腦教育報(bào);2003年
3 愛上一條魚;傻瓜網(wǎng)站管理工具[N];電腦報(bào);2004年
4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個(gè)合格的信息管理員[N];中國(guó)電腦教育報(bào);2004年
5 ;書山有路勤為徑[N];中國(guó)電腦教育報(bào);2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國(guó)電腦教育報(bào);2004年
7 通訊員 郝金榮 記者 曾居仁;萬(wàn)村千鄉(xiāng)網(wǎng)頁(yè)工程建成入選貴州“三農(nóng)”十大新聞[N];中國(guó)氣象報(bào);2013年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 林盛;時(shí)間感知的Web搜索研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 謝方立;基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁(yè)主題信息提取技術(shù)研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2016年
2 馮勝;基于正文結(jié)構(gòu)和長(zhǎng)句提取的網(wǎng)頁(yè)去重研究[D];重慶大學(xué);2010年
3 王海潮;基于網(wǎng)頁(yè)結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
4 譚慶華;贛縣中學(xué)博客網(wǎng)頁(yè)建設(shè)初探[D];江西師范大學(xué);2005年
5 王ZMr,
本文編號(hào):937952
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/937952.html