天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于文本密度和頁面結(jié)構(gòu)的網(wǎng)頁信息抽取技術(shù)研究與實現(xiàn)

發(fā)布時間:2020-09-29 14:07
   近年來,隨著移動互聯(lián)網(wǎng)技術(shù)的普遍發(fā)展,智能移動設(shè)備以其高便攜性、即時性和應(yīng)用輕便等特性受到了越來越多人的青睞,手機不再只是簡單的通訊工具,越來越多的人通過手機、平板電腦等移動設(shè)備獲取最新的資訊信息。web是互聯(lián)網(wǎng)上最豐富和最密集的信息來源,隨著信息量的逐漸膨脹,網(wǎng)站上不僅僅顯示有價值的文本信息,同時還包含著廣告、圖片、導(dǎo)航欄等大量無關(guān)的干擾信息。根據(jù)Tomkins等人的研究顯示,網(wǎng)頁上噪音大約占40%~50%,但是移動設(shè)備屏幕尺寸和PC端相比較小,無法在屏幕中完全的展示PC端網(wǎng)頁的所有內(nèi)容,用戶需要花費較長的時間來操作滾動條去尋找正文文本,這樣既耗費時間也不利于頁面瀏覽。如何自適應(yīng)的將PC端海量的信息抽取出有價值的部分,形成有利于在移動設(shè)備中瀏覽的網(wǎng)頁,成為了信息抽取技術(shù)領(lǐng)域亟待解決的問題。一方面,現(xiàn)階段基于文本密度的網(wǎng)頁信息抽取方法,都是通過數(shù)據(jù)挖掘方法來獲取網(wǎng)頁信息,然而傳統(tǒng)的基于密度的網(wǎng)頁信息提取方法并不能有效的管理那些包含少量文本和大量噪音的頁面。另一方面,現(xiàn)有的將網(wǎng)頁分塊技術(shù):一種是通過HTML標(biāo)簽的啟發(fā)式規(guī)則將網(wǎng)頁分塊,這種方法只適合較少標(biāo)簽時使用,一旦在大量基于特定標(biāo)簽的研究中使用的啟發(fā)式規(guī)則,會降低這些方法的普遍適用性;另一種方法是利用視覺啟發(fā)式規(guī)則。然而視覺為基礎(chǔ)的分塊方法還需要下載和解析樣式表,這將顯著影響工作效率。針對上述問題,本文提出了一種綜合文本密度和網(wǎng)頁分塊相結(jié)合的抽取技術(shù)。首先,通過Webpage Block (N)算法將網(wǎng)頁粗略分段。接著,根據(jù)CalculTextDens (N)算法計算每一個塊級元素的密度,一般主題信息總是包含大量的文本字符和較少的標(biāo)簽字符,而在噪音文本總是包含少量的文本字符和較多的標(biāo)簽字符,根據(jù)文本字符長度和標(biāo)簽字符長度的冪次關(guān)系計算密度,最后,根據(jù)設(shè)定的閾值剔除噪音信息。這種算法的優(yōu)點是即使一個網(wǎng)頁中包含大量的噪音信息,本文也可以準(zhǔn)確的把其中的少量的主題信息提取出來,因為在一般的傳統(tǒng)網(wǎng)頁中,主題信息具有完整的結(jié)構(gòu),不會分散的存在與網(wǎng)頁中,一旦將網(wǎng)頁分塊計算出密度,就可以根據(jù)密度值,判斷塊級元素的屬性。論文的創(chuàng)新點如下:(1)通過對網(wǎng)頁結(jié)構(gòu)的分析,本文提出了一個Webpage Block (N)分塊的算法,該算法通過判斷頁面中標(biāo)簽的屬性,將頁面以最小塊級元素為單位分割,這種方法能夠快速的將網(wǎng)頁分塊。(2)提出了一種結(jié)合文本密度和頁面結(jié)構(gòu)分析的網(wǎng)頁提取算法,該方法在頁面分塊的基礎(chǔ)上計算出每個塊級元素的密度,然后根據(jù)設(shè)定的閾值提取主題信息,這種網(wǎng)頁抽取算法具有90%左右的準(zhǔn)確率,可以幾乎完整的抽取出主題內(nèi)容。實驗表明,文本提出的方法在網(wǎng)頁正文抽取中有0.903的準(zhǔn)確率和0.918的召回率。
【學(xué)位單位】:中國海洋大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2015
【中圖分類】:TP393.092;TP391.1
【文章目錄】:
摘要
Abstract
1. 緒論
    1.1. 研究背景和目的
    1.2. 國內(nèi)外發(fā)展現(xiàn)狀
    1.3. 課題研究的思路
    1.4. 論文結(jié)構(gòu)
2. 網(wǎng)頁信息抽取相關(guān)技術(shù)簡介
    2.1. 信息抽取簡介
        2.1.1. 信息抽取與信息檢索
        2.1.2. 網(wǎng)頁信息抽取工具
        2.1.3. 制定網(wǎng)頁信息抽取規(guī)則
    2.2. 網(wǎng)頁信息抽取相關(guān)技術(shù)
        2.2.1. 基于自然語言的網(wǎng)頁信息抽取
        2.2.2. 基于包裝器的網(wǎng)頁信息抽取
        2.2.3. 基于Ontology的網(wǎng)頁信息抽取
        2.2.4. 基于模板的網(wǎng)頁信息抽取
    2.3. 頁面結(jié)構(gòu)介紹
        2.3.1. 基于DOM樹頁面結(jié)構(gòu)分析
        2.3.2. 基于HTML標(biāo)簽頁面結(jié)構(gòu)劃分
        2.3.3. 基于視覺特征的頁面結(jié)構(gòu)劃分
    2.4. 文本密度介紹
    2.5. 網(wǎng)頁信息抽取評價標(biāo)準(zhǔn)
    2.6. 本章小結(jié)
3. 頁面分塊算法研究
    3.1. 網(wǎng)頁預(yù)處理
        3.1.1. 網(wǎng)頁編碼格式檢測
        3.1.2. 網(wǎng)頁標(biāo)準(zhǔn)化
        3.1.3. 清除冗余塊
    3.2. 定義網(wǎng)頁標(biāo)簽種類
        3.2.1. 塊級元素
        3.2.2. 內(nèi)聯(lián)元素
        3.2.3. 排版元素
    3.3. 定義分塊原則
    3.4. 分塊算法
    3.5. 本章小結(jié)
4. 基于文本密度的網(wǎng)頁信息抽取
    4.1. 定義文本密度的測量方法
    4.2. 文本密度的算法原理及流程
    4.3. 根據(jù)文本密度抽取信息
    4.4. 閾值設(shè)定
        4.4.1. 樣本數(shù)據(jù)來源
        4.4.2. 性能指標(biāo)
        4.4.3. 實驗結(jié)果分析
    4.5. 本章小結(jié)
5. 基于文本密度和頁面結(jié)構(gòu)的網(wǎng)頁信息抽取技術(shù)驗證與實現(xiàn)
    5.1. 系統(tǒng)設(shè)計目標(biāo)
    5.2. 系統(tǒng)總體框架
    5.3. 系統(tǒng)模塊的設(shè)計與實現(xiàn)
        5.3.1. 網(wǎng)頁預(yù)處理
        5.3.2. 網(wǎng)頁分塊
        5.3.3. 網(wǎng)頁信息提取測試
    5.4. 結(jié)果演示
    5.5. 本章小結(jié)
6. 總結(jié)與展望
    6.1. 論文工作總結(jié)
    6.2. 未來研究與展望
參考文獻(xiàn)
致謝
個人簡歷

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2009年03期

2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期

3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期

6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期

8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期

10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學(xué)院學(xué)報(自然科學(xué));2001年06期

相關(guān)會議論文 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機械工程學(xué)會年會暨中國工程院機械與運載工程學(xué)部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年

相關(guān)重要報紙文章 前10條

1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年

相關(guān)博士學(xué)位論文 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年

2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學(xué);2015年

3 張W

本文編號:2829823


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2829823.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a9b77***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com