天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種垂直頁面分割與信息提取方法的研究

發(fā)布時間:2018-04-03 11:43

  本文選題:頁面分割 切入點:信息獲取 出處:《計算機應用研究》2013年03期


【摘要】:在綜合分析不同頁面分割算法和適用條件的基礎上,研究針對垂直型網(wǎng)站的頁面分割和信息提取算法。以DOM(document object model)樹為基礎,提出頁面內(nèi)容聚集度的概念,統(tǒng)計獲取頁面分割標簽和樣式層疊表映射,對頁面進行分割;采用正文識別和前綴匹配的方法,完成從頁面分塊信息提取。結合實際的網(wǎng)絡視頻項目需求,實現(xiàn)面向垂直型網(wǎng)站頁面的分割和信息提取器。實驗結果表明,該網(wǎng)頁分割和信息提取方法對垂直頁面信息提取具有良好的性能,滿足實際項目需求。
[Abstract]:On the basis of comprehensive analysis of different page segmentation algorithms and applicable conditions, this paper studies the algorithms of page segmentation and information extraction for vertical websites.Based on the DOM(document object model tree, the concept of page content aggregation is proposed, the page segmentation label and style layer table mapping are obtained statistically, and the page is segmented by the method of text recognition and prefix matching.According to the actual requirements of network video project, the vertical web page segmentation and information extractor are realized.The experimental results show that the method of web page segmentation and information extraction has good performance for vertical page information extraction and meets the needs of actual items.
【作者單位】: 中國科學院研究生院;中國科學院聲學研究所國家網(wǎng)絡新媒體工程技術研究中心;
【基金】:國家“863”計劃資助項目(2011AA01A102) 國家科技支撐計劃重點資助項目(2011BAH08B01) 中國科學院戰(zhàn)略性先導科技專項子課題(XDA06010302)
【分類號】:TP393.092

【參考文獻】

相關期刊論文 前7條

1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁信息提取方法[J];計算機科學;2008年03期

3 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設計[J];計算機應用;2005年04期

4 鄭長松;傅彥;佘莉;;基于模板的Web信息自動提取方法[J];計算機應用研究;2009年02期

5 孫承杰,關毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學報;2004年05期

6 陳治綱,何丕廉,孫越恒,鄭小慎;基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn)[J];中文信息學報;2005年01期

7 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網(wǎng)頁分割算法[J];微計算機應用;2008年09期

相關博士學位論文 前1條

1 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學;2011年

相關碩士學位論文 前1條

1 劉江;面向信息抽取的Web頁面結構挖掘技術研究[D];哈爾濱工業(yè)大學;2010年

【共引文獻】

相關期刊論文 前10條

1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術的研究[J];安徽大學學報(自然科學版);2010年06期

2 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學報;2009年S1期

3 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期

4 李艷玲;戴冠中;覃森;;快速的文本傾向性分類方法(英文)[J];電子科技大學學報;2007年06期

5 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉換算法[J];大連海事大學學報;2010年03期

6 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期

7 杜云艷;王麗敬;季民;曹峰;;土地利用變化預測的案例推理方法[J];地理學報;2009年12期

8 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應用;2010年06期

9 趙文;唐建雄;高慶鋒;;基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J];電腦知識與技術;2008年01期

10 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識與技術;2008年S2期

相關會議論文 前9條

1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計算機應用技術交流會論文集[C];2008年

2 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年

3 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁信息提取方法[A];全國網(wǎng)絡與信息安全技術研討會論文集(上冊)[C];2007年

5 孫麗華;肖詩斌;施水才;;基于向量空間模型的規(guī)則分類技術[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

6 時達明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學生計算語言學研討會論文集[C];2006年

7 蒲宇達;關毅;王強;;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學生計算語言學研討會論文集[C];2006年

8 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

9 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術會議論文集[C];2010年

相關博士學位論文 前8條

1 張友華;面向智能服務的Web內(nèi)容計算研究與應用[D];中國科學技術大學;2006年

2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關鍵技術研究[D];中南大學;2007年

3 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學;2007年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年

5 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學;2008年

6 王春元;公共網(wǎng)絡信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學;2009年

7 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年

8 王欣;WEB應用系統(tǒng)安全檢測關鍵技術研究[D];北京郵電大學;2011年

相關碩士學位論文 前10條

1 王麗敬;地理案例的空間相似性計算[D];山東科技大學;2010年

2 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年

3 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年

4 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設計和實現(xiàn)[D];蘇州大學;2010年

5 孟桂國;基于維基百科的雙語語料挖掘技術研究[D];蘇州大學;2010年

6 范春曉;基于XML的Web信息抽取技術研究[D];沈陽理工大學;2010年

7 付濤;藏文網(wǎng)頁除噪技術研究[D];西北民族大學;2010年

8 孟祥燕;問答對自動獲取的研究[D];昆明理工大學;2008年

9 鄧忠瑩;中文文本傾向性分類系統(tǒng)研究[D];昆明理工大學;2009年

10 呂楠;話題追蹤與演化分析技術研究[D];解放軍信息工程大學;2009年

【二級參考文獻】

相關期刊論文 前10條

1 徐從富,耿衛(wèi)東,潘云鶴;面向數(shù)據(jù)融合的DS方法綜述[J];電子學報;2001年03期

2 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學學報(自然科學版);2001年04期

3 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關學習的網(wǎng)頁信息提取方法[J];華中科技大學學報(自然科學版);2007年07期

4 殷賢亮;李猛;;基于分塊的網(wǎng)頁主題信息自動提取算法[J];華中科技大學學報(自然科學版);2007年10期

5 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應用[J];計算機研究與發(fā)展;2000年09期

6 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

7 王輝;左萬利;王暉昱;寧愛軍;孫志偉;滿春雷;;基于質心向量的增量式主題爬行[J];計算機研究與發(fā)展;2009年02期

8 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術[J];計算機研究與發(fā)展;2010年04期

9 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機工程與應用;2007年30期

10 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動提取方法[J];計算機學報;2004年03期

相關會議論文 前1條

1 蒲宇達;關毅;王強;;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學生計算語言學研討會論文集[C];2006年

【相似文獻】

相關期刊論文 前10條

1 金更達;;基于信息獲取的用戶Agent[J];圖書館雜志;2002年03期

2 周曉濱;基于神經(jīng)網(wǎng)絡的Web信息檢索研究與實現(xiàn)[J];情報雜志;2004年11期

3 蘇海濤,楊世元,董華,沈毛虎;基于因果追溯的制造業(yè)質量信息獲取方法研究[J];制造業(yè)自動化;2005年09期

4 李玲鞠;論網(wǎng)絡教育信息資源的獲取[J];情報探索;2005年06期

5 李玲鞠;;如何獲取網(wǎng)絡教育信息資源[J];科技文獻信息管理;2005年02期

6 呂建輝;;論大學生信息獲取技能訓練學習環(huán)境的創(chuàng)設[J];現(xiàn)代情報;2006年04期

7 葉素萍;;高校用戶群體信息獲取的障礙及圖書館服務對策[J];醫(yī)學信息;2006年06期

8 王曉黎;王文杰;;基于向量空間模型的文本檢索系統(tǒng)[J];微電子學與計算機;2006年06期

9 劉務華;羅鐵堅;王文杰;;一個Web社區(qū)搜索引擎系統(tǒng)[J];計算機應用研究;2007年02期

10 李淑梅;何衛(wèi)平;趙鋒;;基于語義擴展的產(chǎn)品創(chuàng)新設計信息獲取研究[J];計算機應用研究;2007年04期

相關會議論文 前10條

1 壽國礎;;公網(wǎng)接入技術在信息獲取中應用分析[A];第二屆全國信息獲取與處理學術會議論文集[C];2004年

2 張健;;空間信息獲取與傳輸中的無線電技術發(fā)展分析[A];第二屆全國信息與電子工程學術交流會暨第十三屆四川省電子學會曙光分會學術年會論文集[C];2006年

3 陳文平;毛寬榮;趙嚴杰;;在互聯(lián)網(wǎng)絡中獲取便秘相關信息[A];中華中醫(yī)藥學會肛腸分會換屆會議暨便秘專題研討會論文?痆C];2007年

4 劉卉;張漫;;無線傳感器網(wǎng)絡技術在農(nóng)業(yè)中應用[A];2007年中國農(nóng)業(yè)工程學會學術年會論文摘要集[C];2007年

5 郭華東;;新型對地觀測技術及其應用[A];新世紀 新機遇 新挑戰(zhàn)——知識創(chuàng)新和高新技術產(chǎn)業(yè)發(fā)展(上冊)[C];2001年

6 王仲生;;轉子早期裂紋信息獲取與自愈方法研究[A];第六屆全國信息獲取與處理學術會議論文集(1)[C];2008年

7 蘇貴洋;王永成;馬穎華;;信息自動獲取的結構模型[A];第一屆學生計算語言學研討會論文集[C];2002年

8 徐秀芳;劉銀年;王建宇;;多譜段相機的信息獲取與處理技術[A];第二屆全國信息獲取與處理學術會議論文集[C];2004年

9 喬曉軍;李長櫻;王成;;基于圖像處理技術的溫室作物信息采集處理系統(tǒng)[A];2004年中國設施園藝學會學術年會文集[C];2004年

10 郭達志;;天地一體化數(shù)字影像地理空間信息的獲取與更新[A];煤炭資源高效綠色開采與數(shù)字礦山學術討論會論文集[C];2005年

相關重要報紙文章 前10條

1 鐘文;信息獲取新模式推動互聯(lián)網(wǎng)搜索引擎“變臉”[N];國際商報;2003年

2 潘學俊;聚焦信息戰(zhàn)前沿:“信息獲取”[N];解放軍報;2003年

3 彭勃;信息獲取決勝未來[N];解放軍報;2002年

4 本報記者 王翌;“搜索”改變信息獲取方式[N];計算機世界;2004年

5 馬煒;格式差異不能限制信息獲取[N];中國計算機報;2004年

6 郭紅雨;如何從垂直網(wǎng)站獲取有效資訊[N];國際商報;2001年

7 李兆平;北京:小面積基礎地理信息獲取有新法[N];中國測繪報;2008年

8 薛蓉;龍媒分拆出口行業(yè)垂直網(wǎng)站群[N];國際商報;2000年

9 駐京記者 張艷;“常青藤”搜索引擎向垂直網(wǎng)站轉軌[N];文匯報;2000年

10 黃岳;Web2.0下一步怎么走?[N];電腦報;2006年

相關博士學位論文 前10條

1 金鑫;數(shù)字化背景下的消費者信息獲。簩ι鐣畔①Y源的選擇和反思[D];復旦大學;2012年

2 張方華;知識型企業(yè)的社會資本與技術創(chuàng)新績效研究[D];浙江大學;2005年

3 胡良梅;基于信息融合的圖像理解方法研究[D];合肥工業(yè)大學;2006年

4 朱婕;網(wǎng)絡環(huán)境下個體信息獲取行為研究[D];吉林大學;2007年

5 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學;2011年

6 陸再林;基于圖形理解的建筑工程量信息獲取原理、方法及其應用研究[D];浙江大學;2002年

7 吳德會;基于質量信息集成的智能質量控制技術研究[D];合肥工業(yè)大學;2006年

8 馬靜華;基于運動信息獲取及智能處理的運動員訓練指導系統(tǒng)研究[D];中國科學技術大學;2006年

9 宋記鋒;信息獲取與應用的若干關鍵技術研究[D];中國科學技術大學;2008年

10 岳小莉;基于多粒度的產(chǎn)品信息獲取技術研究[D];浙江大學;2002年

相關碩士學位論文 前10條

1 張治平;Web信息精確獲取技術研究[D];國防科學技術大學;2004年

2 崔建曄;VTS的信息獲取與播發(fā)技術的研究[D];大連海事大學;2009年

3 董富強;網(wǎng)絡用戶行為分析研究及其應用[D];西安電子科技大學;2005年

4 熊鶯;垂直網(wǎng)站的設計與實現(xiàn)[D];大連理工大學;2002年

5 秦樹偉;面向移動頁面自適應平臺的Web結構特征聚類算法[D];中國海洋大學;2011年

6 朱艷艷;考研大學生移動信息獲取服務的交互設計研究[D];浙江工業(yè)大學;2012年

7 楊培穎;Web頁面語義信息提取方法的研究[D];東北大學;2008年

8 史慧珍;數(shù)字城市規(guī)劃的技術方法研究[D];清華大學;2004年

9 李文忠;實時搜索引擎中時間信息的獲取及簡單應用[D];吉林大學;2012年

10 陳策;基于WEB技術的競爭情報系統(tǒng)的開發(fā)與研究[D];華北電力大學(河北);2004年



本文編號:1705066

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1705066.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶88038***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com