天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種垂直頁(yè)面分割與信息提取方法的研究

發(fā)布時(shí)間:2018-04-03 11:43

  本文選題:頁(yè)面分割 切入點(diǎn):信息獲取 出處:《計(jì)算機(jī)應(yīng)用研究》2013年03期


【摘要】:在綜合分析不同頁(yè)面分割算法和適用條件的基礎(chǔ)上,研究針對(duì)垂直型網(wǎng)站的頁(yè)面分割和信息提取算法。以DOM(document object model)樹(shù)為基礎(chǔ),提出頁(yè)面內(nèi)容聚集度的概念,統(tǒng)計(jì)獲取頁(yè)面分割標(biāo)簽和樣式層疊表映射,對(duì)頁(yè)面進(jìn)行分割;采用正文識(shí)別和前綴匹配的方法,完成從頁(yè)面分塊信息提取。結(jié)合實(shí)際的網(wǎng)絡(luò)視頻項(xiàng)目需求,實(shí)現(xiàn)面向垂直型網(wǎng)站頁(yè)面的分割和信息提取器。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)頁(yè)分割和信息提取方法對(duì)垂直頁(yè)面信息提取具有良好的性能,滿足實(shí)際項(xiàng)目需求。
[Abstract]:On the basis of comprehensive analysis of different page segmentation algorithms and applicable conditions, this paper studies the algorithms of page segmentation and information extraction for vertical websites.Based on the DOM(document object model tree, the concept of page content aggregation is proposed, the page segmentation label and style layer table mapping are obtained statistically, and the page is segmented by the method of text recognition and prefix matching.According to the actual requirements of network video project, the vertical web page segmentation and information extractor are realized.The experimental results show that the method of web page segmentation and information extraction has good performance for vertical page information extraction and meets the needs of actual items.
【作者單位】: 中國(guó)科學(xué)院研究生院;中國(guó)科學(xué)院聲學(xué)研究所國(guó)家網(wǎng)絡(luò)新媒體工程技術(shù)研究中心;
【基金】:國(guó)家“863”計(jì)劃資助項(xiàng)目(2011AA01A102) 國(guó)家科技支撐計(jì)劃重點(diǎn)資助項(xiàng)目(2011BAH08B01) 中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)子課題(XDA06010302)
【分類號(hào)】:TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前7條

1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

2 汪建偉;楊冬青;高軍;王騰蛟;;一種基于分類算法的網(wǎng)頁(yè)信息提取方法[J];計(jì)算機(jī)科學(xué);2008年03期

3 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期

4 鄭長(zhǎng)松;傅彥;佘莉;;基于模板的Web信息自動(dòng)提取方法[J];計(jì)算機(jī)應(yīng)用研究;2009年02期

5 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

6 陳治綱,何丕廉,孫越恒,鄭小慎;基于向量空間模型的文本分類系統(tǒng)的研究與實(shí)現(xiàn)[J];中文信息學(xué)報(bào);2005年01期

7 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網(wǎng)頁(yè)分割算法[J];微計(jì)算機(jī)應(yīng)用;2008年09期

相關(guān)博士學(xué)位論文 前1條

1 張乃洲;實(shí)體搜索爬蟲(chóng)和信息抽取研究[D];武漢大學(xué);2011年

相關(guān)碩士學(xué)位論文 前1條

1 劉江;面向信息抽取的Web頁(yè)面結(jié)構(gòu)挖掘技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年06期

2 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];兵工學(xué)報(bào);2009年S1期

3 張惠君;李娟;;基于OPAC的館藏評(píng)價(jià)方法探究[J];圖書(shū)與情報(bào);2010年04期

4 李艷玲;戴冠中;覃森;;快速的文本傾向性分類方法(英文)[J];電子科技大學(xué)學(xué)報(bào);2007年06期

5 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期

6 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期

7 杜云艷;王麗敬;季民;曹峰;;土地利用變化預(yù)測(cè)的案例推理方法[J];地理學(xué)報(bào);2009年12期

8 王立建;尹四清;;基于Web頁(yè)面有效信息抽取的分類方法[J];電腦開(kāi)發(fā)與應(yīng)用;2010年06期

9 趙文;唐建雄;高慶鋒;;基于統(tǒng)計(jì)的中文網(wǎng)頁(yè)正文抽取的研究[J];電腦知識(shí)與技術(shù);2008年01期

10 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁(yè)正文信息抽取策略研究[J];電腦知識(shí)與技術(shù);2008年S2期

相關(guān)會(huì)議論文 前9條

1 胡飛;;一種Web頁(yè)面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

2 王春元;張韜;;一種獲取網(wǎng)頁(yè)主要中文信息的方法[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年

3 ;Chinese Text Emotion Classification Based On Emotion Dictionary[A];Proceedings 2010 IEEE 2nd Symposium on Web Society[C];2010年

4 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 孫麗華;肖詩(shī)斌;施水才;;基于向量空間模型的規(guī)則分類技術(shù)[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

6 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

7 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

8 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

9 吳倩;楊逍;張兆心;;基于視覺(jué)特征的網(wǎng)頁(yè)信息提取[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)博士學(xué)位論文 前8條

1 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年

3 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 車海燕;面向中文自然語(yǔ)言Web文檔的自動(dòng)知識(shí)抽取和知識(shí)融合[D];吉林大學(xué);2008年

6 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學(xué);2009年

7 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

8 王欣;WEB應(yīng)用系統(tǒng)安全檢測(cè)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王麗敬;地理案例的空間相似性計(jì)算[D];山東科技大學(xué);2010年

2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

3 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年

4 楊芹;基于最大熵模型的中文網(wǎng)頁(yè)分類器設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2010年

5 孟桂國(guó);基于維基百科的雙語(yǔ)語(yǔ)料挖掘技術(shù)研究[D];蘇州大學(xué);2010年

6 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽(yáng)理工大學(xué);2010年

7 付濤;藏文網(wǎng)頁(yè)除噪技術(shù)研究[D];西北民族大學(xué);2010年

8 孟祥燕;問(wèn)答對(duì)自動(dòng)獲取的研究[D];昆明理工大學(xué);2008年

9 鄧忠瑩;中文文本傾向性分類系統(tǒng)研究[D];昆明理工大學(xué);2009年

10 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 徐從富,耿衛(wèi)東,潘云鶴;面向數(shù)據(jù)融合的DS方法綜述[J];電子學(xué)報(bào);2001年03期

2 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期

3 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關(guān)學(xué)習(xí)的網(wǎng)頁(yè)信息提取方法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年07期

4 殷賢亮;李猛;;基于分塊的網(wǎng)頁(yè)主題信息自動(dòng)提取算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年10期

5 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2000年09期

6 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期

7 王輝;左萬(wàn)利;王暉昱;寧愛(ài)軍;孫志偉;滿春雷;;基于質(zhì)心向量的增量式主題爬行[J];計(jì)算機(jī)研究與發(fā)展;2009年02期

8 彭濤;孟宇;左萬(wàn)利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2010年04期

9 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁(yè)正文提取算法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期

10 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動(dòng)提取方法[J];計(jì)算機(jī)學(xué)報(bào);2004年03期

相關(guān)會(huì)議論文 前1條

1 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 金更達(dá);;基于信息獲取的用戶Agent[J];圖書(shū)館雜志;2002年03期

2 周曉濱;基于神經(jīng)網(wǎng)絡(luò)的Web信息檢索研究與實(shí)現(xiàn)[J];情報(bào)雜志;2004年11期

3 蘇海濤,楊世元,董華,沈毛虎;基于因果追溯的制造業(yè)質(zhì)量信息獲取方法研究[J];制造業(yè)自動(dòng)化;2005年09期

4 李玲鞠;論網(wǎng)絡(luò)教育信息資源的獲取[J];情報(bào)探索;2005年06期

5 李玲鞠;;如何獲取網(wǎng)絡(luò)教育信息資源[J];科技文獻(xiàn)信息管理;2005年02期

6 呂建輝;;論大學(xué)生信息獲取技能訓(xùn)練學(xué)習(xí)環(huán)境的創(chuàng)設(shè)[J];現(xiàn)代情報(bào);2006年04期

7 葉素萍;;高校用戶群體信息獲取的障礙及圖書(shū)館服務(wù)對(duì)策[J];醫(yī)學(xué)信息;2006年06期

8 王曉黎;王文杰;;基于向量空間模型的文本檢索系統(tǒng)[J];微電子學(xué)與計(jì)算機(jī);2006年06期

9 劉務(wù)華;羅鐵堅(jiān);王文杰;;一個(gè)Web社區(qū)搜索引擎系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2007年02期

10 李淑梅;何衛(wèi)平;趙鋒;;基于語(yǔ)義擴(kuò)展的產(chǎn)品創(chuàng)新設(shè)計(jì)信息獲取研究[J];計(jì)算機(jī)應(yīng)用研究;2007年04期

相關(guān)會(huì)議論文 前10條

1 壽國(guó)礎(chǔ);;公網(wǎng)接入技術(shù)在信息獲取中應(yīng)用分析[A];第二屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年

2 張健;;空間信息獲取與傳輸中的無(wú)線電技術(shù)發(fā)展分析[A];第二屆全國(guó)信息與電子工程學(xué)術(shù)交流會(huì)暨第十三屆四川省電子學(xué)會(huì)曙光分會(huì)學(xué)術(shù)年會(huì)論文集[C];2006年

3 陳文平;毛寬榮;趙嚴(yán)杰;;在互聯(lián)網(wǎng)絡(luò)中獲取便秘相關(guān)信息[A];中華中醫(yī)藥學(xué)會(huì)肛腸分會(huì)換屆會(huì)議暨便秘專題研討會(huì)論文?痆C];2007年

4 劉卉;張漫;;無(wú)線傳感器網(wǎng)絡(luò)技術(shù)在農(nóng)業(yè)中應(yīng)用[A];2007年中國(guó)農(nóng)業(yè)工程學(xué)會(huì)學(xué)術(shù)年會(huì)論文摘要集[C];2007年

5 郭華東;;新型對(duì)地觀測(cè)技術(shù)及其應(yīng)用[A];新世紀(jì) 新機(jī)遇 新挑戰(zhàn)——知識(shí)創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展(上冊(cè))[C];2001年

6 王仲生;;轉(zhuǎn)子早期裂紋信息獲取與自愈方法研究[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(1)[C];2008年

7 蘇貴洋;王永成;馬穎華;;信息自動(dòng)獲取的結(jié)構(gòu)模型[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年

8 徐秀芳;劉銀年;王建宇;;多譜段相機(jī)的信息獲取與處理技術(shù)[A];第二屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2004年

9 喬曉軍;李長(zhǎng)櫻;王成;;基于圖像處理技術(shù)的溫室作物信息采集處理系統(tǒng)[A];2004年中國(guó)設(shè)施園藝學(xué)會(huì)學(xué)術(shù)年會(huì)文集[C];2004年

10 郭達(dá)志;;天地一體化數(shù)字影像地理空間信息的獲取與更新[A];煤炭資源高效綠色開(kāi)采與數(shù)字礦山學(xué)術(shù)討論會(huì)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 鐘文;信息獲取新模式推動(dòng)互聯(lián)網(wǎng)搜索引擎“變臉”[N];國(guó)際商報(bào);2003年

2 潘學(xué)俊;聚焦信息戰(zhàn)前沿:“信息獲取”[N];解放軍報(bào);2003年

3 彭勃;信息獲取決勝未來(lái)[N];解放軍報(bào);2002年

4 本報(bào)記者 王翌;“搜索”改變信息獲取方式[N];計(jì)算機(jī)世界;2004年

5 馬煒;格式差異不能限制信息獲取[N];中國(guó)計(jì)算機(jī)報(bào);2004年

6 郭紅雨;如何從垂直網(wǎng)站獲取有效資訊[N];國(guó)際商報(bào);2001年

7 李兆平;北京:小面積基礎(chǔ)地理信息獲取有新法[N];中國(guó)測(cè)繪報(bào);2008年

8 薛蓉;龍媒分拆出口行業(yè)垂直網(wǎng)站群[N];國(guó)際商報(bào);2000年

9 駐京記者 張艷;“常青藤”搜索引擎向垂直網(wǎng)站轉(zhuǎn)軌[N];文匯報(bào);2000年

10 黃岳;Web2.0下一步怎么走?[N];電腦報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 金鑫;數(shù)字化背景下的消費(fèi)者信息獲。簩(duì)社會(huì)信息資源的選擇和反思[D];復(fù)旦大學(xué);2012年

2 張方華;知識(shí)型企業(yè)的社會(huì)資本與技術(shù)創(chuàng)新績(jī)效研究[D];浙江大學(xué);2005年

3 胡良梅;基于信息融合的圖像理解方法研究[D];合肥工業(yè)大學(xué);2006年

4 朱婕;網(wǎng)絡(luò)環(huán)境下個(gè)體信息獲取行為研究[D];吉林大學(xué);2007年

5 張乃洲;實(shí)體搜索爬蟲(chóng)和信息抽取研究[D];武漢大學(xué);2011年

6 陸再林;基于圖形理解的建筑工程量信息獲取原理、方法及其應(yīng)用研究[D];浙江大學(xué);2002年

7 吳德會(huì);基于質(zhì)量信息集成的智能質(zhì)量控制技術(shù)研究[D];合肥工業(yè)大學(xué);2006年

8 馬靜華;基于運(yùn)動(dòng)信息獲取及智能處理的運(yùn)動(dòng)員訓(xùn)練指導(dǎo)系統(tǒng)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

9 宋記鋒;信息獲取與應(yīng)用的若干關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2008年

10 岳小莉;基于多粒度的產(chǎn)品信息獲取技術(shù)研究[D];浙江大學(xué);2002年

相關(guān)碩士學(xué)位論文 前10條

1 張治平;Web信息精確獲取技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2004年

2 崔建曄;VTS的信息獲取與播發(fā)技術(shù)的研究[D];大連海事大學(xué);2009年

3 董富強(qiáng);網(wǎng)絡(luò)用戶行為分析研究及其應(yīng)用[D];西安電子科技大學(xué);2005年

4 熊鶯;垂直網(wǎng)站的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2002年

5 秦樹(shù)偉;面向移動(dòng)頁(yè)面自適應(yīng)平臺(tái)的Web結(jié)構(gòu)特征聚類算法[D];中國(guó)海洋大學(xué);2011年

6 朱艷艷;考研大學(xué)生移動(dòng)信息獲取服務(wù)的交互設(shè)計(jì)研究[D];浙江工業(yè)大學(xué);2012年

7 楊培穎;Web頁(yè)面語(yǔ)義信息提取方法的研究[D];東北大學(xué);2008年

8 史慧珍;數(shù)字城市規(guī)劃的技術(shù)方法研究[D];清華大學(xué);2004年

9 李文忠;實(shí)時(shí)搜索引擎中時(shí)間信息的獲取及簡(jiǎn)單應(yīng)用[D];吉林大學(xué);2012年

10 陳策;基于WEB技術(shù)的競(jìng)爭(zhēng)情報(bào)系統(tǒng)的開(kāi)發(fā)與研究[D];華北電力大學(xué)(河北);2004年

,

本文編號(hào):1705066

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1705066.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶88038***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
五月天婷亚洲天婷综合网| 欧美在线观看视频免费不卡| 91国内视频一区二区三区| 又色又爽又黄的三级视频| 日韩一区二区三区免费av| 亚洲欧洲精品一区二区三区| 超碰在线播放国产精品| 国产又粗又猛又黄又爽视频免费| 久久精品国产一区久久久| 黄色日韩欧美在线观看| 欧美久久一区二区精品| 少妇人妻无一区二区三区| 成人精品欧美一级乱黄| 国产精品熟女乱色一区二区| 日韩蜜桃一区二区三区| 在线观看国产成人av天堂野外| 正在播放玩弄漂亮少妇高潮| 久久大香蕉精品在线观看| 欧美胖熟妇一区二区三区| 99精品国产自在现线观看| 亚洲一区二区三区中文久久| 黄男女激情一区二区三区| 欧美字幕一区二区三区| 国产美女精品午夜福利视频 | 在线免费视频你懂的观看| 国产在线小视频你懂的| 久久精品国产亚洲熟女| 欧美日韩三区在线观看| 少妇激情在线免费观看| 日韩成人动作片在线观看| 欧美日韩综合在线第一页| 精品国产av一区二区三区不卡蜜 | 九九九热在线免费视频| 五月婷婷综合缴情六月| 东京热电东京热一区二区三区| 粗暴蹂躏中文一区二区三区| 五月综合激情婷婷丁香| 少妇视频一区二区三区| 亚洲少妇一区二区三区懂色| 国产一区二区三区午夜精品| 亚洲美女国产精品久久|