天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于標簽路徑特征的網(wǎng)頁正文自適應(yīng)抽取方法研究

發(fā)布時間:2017-08-06 16:18

  本文關(guān)鍵詞:基于標簽路徑特征的網(wǎng)頁正文自適應(yīng)抽取方法研究


  更多相關(guān)文章: 信息抽取 標簽路徑特征 特征融合 特征選擇


【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web已經(jīng)成為重要的信息發(fā)布平臺。然而,Web網(wǎng)頁中除了正文信息,還包含著導(dǎo)航、廣告和版權(quán)信息等大量與網(wǎng)頁主題無關(guān)的“噪音”信息。網(wǎng)頁中的噪音信息會大大降低搜索引擎、新聞聚合等系統(tǒng)的效果,同時也為這些系統(tǒng)的存儲造成了負擔。因此,網(wǎng)頁正文抽取問題具有重要的研究意義和應(yīng)用價值。本文開展的研究工作如下:(1)提出了基于標簽路徑特征融合的在線Web新聞內(nèi)容抽取方法CEPF。設(shè)計了標簽路徑特征系,并提出一種方法將標簽路徑系中的特征融合為一個新的特征TPF。相對于標簽路徑中的每個特征,TPF都具有更好的區(qū)分網(wǎng)頁正文和噪音的能力。在特征融合階段,一種基于譜聚類的特征選擇方法被用來刪除冗余的標簽路徑特征。CEPF利用基于標簽路徑編輯距離的高斯平滑方法更新TPF特征值,基于平滑后的TPF值和最大類間方差法自適應(yīng)地從網(wǎng)頁中抽取正文信息。CEPF方法是無監(jiān)督的。實驗結(jié)果表明,CEPF是一種準確、通用且與語言無關(guān)的的Web新聞內(nèi)容抽取方法。(2)提出了基于長文本標簽比的網(wǎng)頁正文抽取方法CELTR,該方法從網(wǎng)頁DOM樹中抽取對應(yīng)正文信息的子樹。CELTR使用最大類間方差法自適應(yīng)地為DOM樹的每個子樹計算長文本標簽比(LTR)。在大多數(shù)情況下,對應(yīng)網(wǎng)頁正文的子樹比對應(yīng)網(wǎng)頁噪音的子樹具有更高的LTR值,但仍存在少數(shù)反常的情況,為此我們在LTR的基礎(chǔ)上擴展出LTRS和RLTRS。CELTR利用LTR、LTRS和RLTRS三個特征通過對子樹聚類的方法從網(wǎng)頁中抽取正文。CELTR方法是無監(jiān)督的。實驗結(jié)果表明,CELTR是一種準確、通用且與語言無關(guān)的的網(wǎng)頁正文抽取方法,且可以保留網(wǎng)頁正文原有的結(jié)構(gòu)。(3)設(shè)計并實現(xiàn)了一個面向領(lǐng)域主題的Web新聞動態(tài)聚合系統(tǒng),并應(yīng)用本文的CEPF和CELTR方法解決該系統(tǒng)中的網(wǎng)頁正文抽取問題。并分析了網(wǎng)頁正文抽取算法在實際應(yīng)用中的優(yōu)勢與局限性。
【關(guān)鍵詞】:信息抽取 標簽路徑特征 特征融合 特征選擇
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
  • 致謝7-8
  • 摘要8-9
  • ABSTRACT9-14
  • 第一章 緒論14-17
  • 1.1 研究背景、目的及意義14-15
  • 1.2 研究內(nèi)容15-16
  • 1.2.1 課題來源15
  • 1.2.2 本文研究思路和主要研究內(nèi)容15-16
  • 1.2.3 內(nèi)容組織16
  • 1.3 本章小結(jié)16-17
  • 第二章 網(wǎng)頁正文抽取相關(guān)研究17-24
  • 2.1 相關(guān)工作17-22
  • 2.2 網(wǎng)頁正文抽取的難點22-23
  • 2.3 網(wǎng)頁正文抽取的評價體系23
  • 2.4 本章小結(jié)23-24
  • 第三章 基于標簽路徑特征融合的在線Web新聞內(nèi)容抽取方法24-38
  • 3.1 概述24
  • 3.2 DOM樹與標簽路徑24-25
  • 3.3 標簽路徑特征系25-28
  • 3.4 標簽路徑特征融合28-30
  • 3.4.1 組合特征選擇28-30
  • 3.4.2 組合特征融合30
  • 3.5 基于標簽路徑特征融合的在線Web新聞內(nèi)容抽取30-33
  • 3.5.1 基于標簽路徑編輯距離的加權(quán)高斯平滑30-32
  • 3.5.2 自適應(yīng)閾值設(shè)置與內(nèi)容抽取算法32-33
  • 3.6 實驗結(jié)果與分析33-37
  • 3.6.1 對比算法及實驗數(shù)據(jù)集33-34
  • 3.6.2 實驗結(jié)果分析34-37
  • 3.7 本章小結(jié)37-38
  • 第四章 基于長文本標簽比的網(wǎng)頁正文抽取方法38-50
  • 4.1 概述38
  • 4.2 正文子樹38-39
  • 4.3 長文本標簽比39-44
  • 4.4 網(wǎng)頁正文抽取44-45
  • 4.4.1 長文本閾值設(shè)置44
  • 4.4.2 子樹聚類與正文抽取44-45
  • 4.5 實驗結(jié)果與分析45-48
  • 4.5.1 實驗數(shù)據(jù)集45-46
  • 4.5.2 實驗結(jié)果分析46-48
  • 4.6 本章小結(jié)48-50
  • 第五章 網(wǎng)頁正文抽取算法在Web新聞聚合系統(tǒng)中的應(yīng)用50-54
  • 5.1 概述50
  • 5.2 面向領(lǐng)域主題的Web新聞動態(tài)聚合系統(tǒng)50-52
  • 5.3 網(wǎng)頁正文抽取算法在實際應(yīng)用中的優(yōu)勢和局限性52-53
  • 5.4 本章小結(jié)53-54
  • 第六章 總結(jié)與展望54-56
  • 6.1 研究工作總結(jié)54-55
  • 6.2 展望55-56
  • 參考文獻56-60
  • 攻讀學(xué)位期間的學(xué)術(shù)活動及成果情況60-61

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2009年03期

2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期

3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期

6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期

8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期

10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學(xué)院學(xué)報(自然科學(xué));2001年06期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學(xué)會年會暨中國工程院機械與運載工程學(xué)部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學(xué);2015年

2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學(xué);2015年

3 張W,

本文編號:630561


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/630561.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aea9b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com