基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用
本文關(guān)鍵詞:基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
《中國海洋大學(xué)》 2015年
基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用
陳屹
【摘要】:隨著Internet的高速發(fā)展,互聯(lián)網(wǎng)上的信息越來越多,呈現(xiàn)爆炸式增長,以互聯(lián)網(wǎng)信息為數(shù)據(jù)基礎(chǔ)的云計(jì)算和大數(shù)據(jù)分析技術(shù)隨之興起。然而,在互聯(lián)網(wǎng)上所有的網(wǎng)頁不僅含有重要信息,同時(shí)也包含了與主題信息、無關(guān)的噪聲信息、,比如廣告信息,導(dǎo)航欄等。它們嚴(yán)重影響了信息抽取的準(zhǔn)確性,因而網(wǎng)頁信息抽取技術(shù)的研究應(yīng)運(yùn)而生,成為研究的熱點(diǎn)。另一方面,在現(xiàn)有的網(wǎng)頁信息抽取方法中,其重點(diǎn)在于區(qū)分頁面的重要信息和噪聲信息,提高重要信息抽取的準(zhǔn)確性和效率性,但對(duì)于抽取后網(wǎng)頁信息數(shù)據(jù)卻缺乏形式化組織,導(dǎo)致獲取的重要信息相互雜糅在一起,形成了無法區(qū)分的整段信息,無法對(duì)重要信息再進(jìn)行分類,導(dǎo)致抽取的網(wǎng)頁信息粒度較粗,在后續(xù)應(yīng)用中可用性較差。本文介紹了網(wǎng)頁信息抽取技術(shù)的發(fā)展、原理和相關(guān)技術(shù),深入討論了現(xiàn)有網(wǎng)頁信息抽取技術(shù),重點(diǎn)研究了VIPS算法。本文主要研究點(diǎn)如下:(1)針對(duì)現(xiàn)有網(wǎng)頁信息形式化組織的缺乏,本文提出了一種網(wǎng)頁信息形式化描述,在清除了網(wǎng)頁噪聲信息的基礎(chǔ)上,將原有網(wǎng)頁重要信息、的粗粒度進(jìn)行細(xì)分,針對(duì)互聯(lián)網(wǎng)中比重最大的門戶類網(wǎng)站,我們將網(wǎng)頁重要信息描述為主題,發(fā)表日期,瀏覽次數(shù),正文信息、,多媒體信息,評(píng)論信息等形式化結(jié)構(gòu),同時(shí)為每部分形式化描述設(shè)置不同權(quán)重,根據(jù)信息抽取結(jié)果中是否存在相應(yīng)部分來判斷單個(gè)網(wǎng)頁的信息、抽取的準(zhǔn)確性。同時(shí)抽取的重要信息通過形式化描述進(jìn)行了細(xì)化,形成了更加規(guī)范和嚴(yán)格的數(shù)據(jù)組織形式,為以后的數(shù)據(jù)分析和其他應(yīng)用提供了更高的可用性。(2)針對(duì)現(xiàn)有信息抽取算法對(duì)本文提出的網(wǎng)頁信息形式化組織支持方面的缺乏以及現(xiàn)有抽取技術(shù)的不足,本文提出了一種針對(duì)網(wǎng)頁信息形式化組織的基于VIPS算法改進(jìn)的網(wǎng)頁信息抽取技術(shù)。本技術(shù)結(jié)合了DOM結(jié)構(gòu)和視覺特征兩方面,采用自上而下,逆序解析DOM結(jié)構(gòu),同時(shí)利用視覺特征和DOM結(jié)構(gòu)特征作為信息抽取的依據(jù),將標(biāo)簽分塊和視覺分塊相互結(jié)合,同時(shí)根據(jù)網(wǎng)頁信息的形式化描述結(jié)構(gòu)對(duì)塊進(jìn)行分類,對(duì)于同屬一個(gè)形式化描述結(jié)構(gòu)的相似塊,根據(jù)其標(biāo)簽路徑等特征對(duì)相似塊進(jìn)行合并,最終將網(wǎng)頁抽取的重要信息根據(jù)其形式化描述分成不同塊,此技術(shù)綜合了網(wǎng)頁DOM結(jié)構(gòu)和視覺特征的優(yōu)勢(shì),提高了網(wǎng)頁信息抽取的準(zhǔn)確率最后,將本文提出的信息抽取方法與其他傳統(tǒng)的信息抽取算法進(jìn)行了比較,并將其抽取結(jié)果應(yīng)用于提出的網(wǎng)頁信息形式化組織。經(jīng)過仿真實(shí)驗(yàn)表明,本文提出的網(wǎng)頁信息形式化描述更規(guī)范,更有利用價(jià)值,同時(shí)提出的方法抽取信息、具有更高的分類準(zhǔn)確性。最終我們將其在現(xiàn)有的傳統(tǒng)網(wǎng)頁移動(dòng)化系統(tǒng)中進(jìn)行了應(yīng)用試驗(yàn),實(shí)例是基于青島某大學(xué)的PC網(wǎng)站設(shè)計(jì)的移動(dòng)校園網(wǎng)站,該移動(dòng)網(wǎng)站主要用于在移動(dòng)設(shè)備上訪問,包括Android以及iOS等智能終端,較好的提高了網(wǎng)頁信息重組后的用戶體驗(yàn),取得了比較理想的實(shí)驗(yàn)效果。
【關(guān)鍵詞】:
【學(xué)位授予單位】:中國海洋大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭長松;傅彥;佘莉;;基于模板的Web信息自動(dòng)提取方法[J];計(jì)算機(jī)應(yīng)用研究;2009年02期
2 梅雪;程學(xué)旗;郭巖;張剛;丁國棟;;一種全自動(dòng)生成網(wǎng)頁信息抽取Wrapper的方法[J];中文信息學(xué)報(bào);2008年01期
3 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動(dòng)提取算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年10期
4 謝華;劉衛(wèi)國;;基于局部語義的網(wǎng)頁凈化算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2007年05期
5 王功明;吳華瑞;趙春江;楊寶祝;;正則表達(dá)式在電子政務(wù)客戶端校驗(yàn)中的應(yīng)用[J];計(jì)算機(jī)工程;2007年09期
6 趙欣欣;索紅光;劉玉樹;;基于標(biāo)記窗的網(wǎng)頁正文信息提取方法[J];計(jì)算機(jī)應(yīng)用研究;2007年03期
7 劉艷敏;劉飚;封化民;宋國森;方勇;;Web頁面主題信息抽取研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年21期
8 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;基于結(jié)構(gòu)與內(nèi)容的網(wǎng)頁主題信息提取研究[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
9 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
10 金炳堯;馬永進(jìn);駱紅波;吳樟興;;閱卷信息的形式化描述及其應(yīng)用[J];計(jì)算機(jī)科學(xué);2005年01期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬凱;;基于微博數(shù)據(jù)采集的Web信息集成系統(tǒng)研究[J];現(xiàn)代電子技術(shù);2016年11期
2 蘇秀芝;;基于網(wǎng)頁Title標(biāo)簽的正文提取方法[J];福建電腦;2016年04期
3 胡瑞;郭星;黃永聰;;基于視覺特征的主題型網(wǎng)頁信息抽取[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2016年06期
4 張忠培;劉家宇;;面向移動(dòng)終端的網(wǎng)頁適配技術(shù)研究[J];信息化建設(shè);2016年01期
5 夏立新;楚林;王忠義;石義金;李京蔚;;基于網(wǎng)絡(luò)文本挖掘的就業(yè)知識(shí)需求關(guān)系構(gòu)建[J];圖書情報(bào)知識(shí);2016年01期
6 李湘東;霍亞勇;張嬌;;基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究[J];情報(bào)科學(xué);2016年01期
7 婁建樓;史春雷;;大數(shù)據(jù)下基于頁面復(fù)雜度的文本抽取方法[J];數(shù)字技術(shù)與應(yīng)用;2015年12期
8 付華崢;陳翀;向勇;劉春;;分布式大數(shù)據(jù)采集關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[J];廣東通信技術(shù);2015年10期
9 王孟頔;邰泳;;基于VIPS的職位信息抽取技術(shù)研究[J];軟件導(dǎo)刊;2015年09期
10 秦成磊;魏曉;楊陽;;一種基于統(tǒng)計(jì)的復(fù)雜頁面正文提取方法[J];計(jì)算機(jī)應(yīng)用與軟件;2015年07期
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王靜;姚勇;劉志鏡;;基于廣義隱馬爾可夫模型的網(wǎng)頁信息抽取方法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2007年11期
2 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動(dòng)提取算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年10期
3 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關(guān)學(xué)習(xí)的網(wǎng)頁信息提取方法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年07期
4 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
5 周璐;我國電子政務(wù)信息安全建設(shè)探討[J];理論與現(xiàn)代化;2005年S1期
6 劉小波,謝芊,李留英;應(yīng)用正則表達(dá)式在ASP.NET中實(shí)現(xiàn)優(yōu)化的輸入驗(yàn)證方法[J];現(xiàn)代圖書情報(bào)技術(shù);2005年10期
7 顏小兵;電子政務(wù)中的信息安全策略和實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2005年10期
8 賀桂和,劉燦姣;論電子政務(wù)、電子商務(wù)與電子社區(qū)建設(shè)的統(tǒng)一[J];情報(bào)雜志;2005年10期
9 葉文暉,梁里寧;在ASP.NET中利用正則表達(dá)式實(shí)現(xiàn)模式驗(yàn)證[J];電腦知識(shí)與技術(shù);2005年24期
10 胡飛;;基于標(biāo)記樹的Web頁面區(qū)域劃分和搜索方法[J];計(jì)算機(jī)科學(xué);2005年08期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項(xiàng)目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期
10 項(xiàng)鎮(zhèn);網(wǎng)頁設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;[N];中國氣象報(bào);2012年
2 壯壯;[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;[N];中國冶金報(bào);2011年
4 錢鵬;[N];電腦報(bào);2004年
5 星之海洋;[N];電腦報(bào);2004年
6 河南 張金貴;[N];電腦報(bào);2001年
7 楓爾;[N];中國證券報(bào);2004年
8 飄零劍客;[N];中國電腦教育報(bào);2004年
9 八戒;[N];電腦報(bào);2013年
10 ;[N];電腦報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張垚;高校網(wǎng)頁簡介英文翻譯研究[D];華中師范大學(xué);2015年
4 劉丹;改進(jìn)的基于DIV迭代査找和信息增益的網(wǎng)頁特征選擇算法[D];山東大學(xué);2015年
5 龔敏;從中西文化差異看中國高校網(wǎng)頁英語簡介[D];福建師范大學(xué);2015年
6 呂芳;基于視覺特征的釣魚網(wǎng)頁相似性計(jì)算技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2015年
7 劉夢(mèng)琪;網(wǎng)頁設(shè)計(jì)中的動(dòng)畫創(chuàng)意研究[D];安徽工程大學(xué);2015年
8 孫仲浩;網(wǎng)頁圖片無障礙替代文本自動(dòng)生成算法設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2015年
9 戴松;面向聚焦的Web網(wǎng)頁獲取和信息抽取方法研究[D];上海大學(xué);2015年
10 房勇;企業(yè)多源輿情監(jiān)測(cè)系統(tǒng)研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
本文關(guān)鍵詞:基于多特征的網(wǎng)頁信息抽取技術(shù)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):234887
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/234887.html