一種基于分隔條的網(wǎng)頁分塊算法
本文關(guān)鍵詞:一種基于分隔條的網(wǎng)頁分塊算法
更多相關(guān)文章: Web分塊 視覺特征 分隔條 網(wǎng)頁分塊
【摘要】:網(wǎng)絡(luò)信息時代的到來使得網(wǎng)絡(luò)中的信息量呈指數(shù)增長,由此研究如何從網(wǎng)頁中高效地提取出有用信息成為網(wǎng)絡(luò)信息檢索領(lǐng)域中的重要課題。從網(wǎng)頁的可視性和統(tǒng)一性兩大基本特征出發(fā),提出一種通過檢測分隔條對網(wǎng)頁進行分塊的算法,并使用相對位置排版的概念解決在部分分塊的高度未知的情況下如何表示各分塊的相對位置的問題。分塊過程中,通過已分塊數(shù)、節(jié)點的信息長度、寬高等信息綜合確定分塊的終止條件,保證了算法的執(zhí)行效率和有效性。實驗結(jié)果說明,該算法具有較高的執(zhí)行效率。
【作者單位】: 遼寧科技大學軟件學院;
【關(guān)鍵詞】: Web分塊 視覺特征 分隔條 網(wǎng)頁分塊
【分類號】:TP393.092;TP391.3
【正文快照】: 0引言世界的信息化已經(jīng)到來,網(wǎng)絡(luò)作為信息化的載體勢必會充斥著大量的信息,這些信息大多數(shù)是我們不關(guān)心的,因此對如何高效地從海量的網(wǎng)絡(luò)信息中提出有用的信息的研究是很有必要的。眾所周知,大多數(shù)網(wǎng)絡(luò)信息是通過網(wǎng)頁的形式展現(xiàn)的,網(wǎng)絡(luò)信息抽取轉(zhuǎn)換成了對這些網(wǎng)頁的分析與信息
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應用;2005年04期
2 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁正文信息提取算法研究[J];計算機應用;2007年S1期
3 王磊;蔣建中;郭軍利;;基于擴展DOM樹的Web頁面信息抽取[J];計算機應用與軟件;2007年06期
4 孫曉輝;劉建;王勁林;陳曉;;基于CSS的網(wǎng)頁分割算法[J];微計算機應用;2008年09期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 宋健豪;趙剛;;基于啟發(fā)式規(guī)則優(yōu)化的網(wǎng)頁元素提取方法[J];信息安全與技術(shù);2012年06期
2 張敏;;基于確定性樹自動機技術(shù)的信息抽取研究[J];才智;2011年36期
3 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學學報;2010年03期
4 鄭志材;張晶;;基于JAVA的網(wǎng)絡(luò)蜘蛛的設(shè)計與實現(xiàn)[J];硅谷;2009年14期
5 柳永念;鐘誠;焦小焦;;基于單元識別的網(wǎng)頁信息抽取方法[J];廣西大學學報(自然科學版);2011年05期
6 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學學報(自然科學版);2009年01期
7 張春元;;基于CRFs的新聞網(wǎng)頁主題內(nèi)容自動抽取方法[J];廣西師范大學學報(自然科學版);2011年01期
8 縣小平;;垂直搜索引擎探索[J];甘肅高師學報;2013年02期
9 吳斌杰;徐子瑋;虞飛華;;基于API的微博信息采集系統(tǒng)設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2013年17期
10 向程冠;熊世桓;;一種基于特征樹的Web碎片信息抽取算法[J];蘭州理工大學學報;2014年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計[A];2011年全國通信安全學術(shù)會議論文集[C];2011年
2 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年
2 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年
2 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年
3 汪前秀;基于改進的VSM的不良文本過濾模型研究[D];東北財經(jīng)大學;2010年
4 陶小波;電子就業(yè)文本挖掘系統(tǒng)關(guān)鍵技術(shù)研究與應用[D];浙江工商大學;2011年
5 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問題的研究與實現(xiàn)[D];河北科技大學;2011年
6 馬俊;基于購物搜索引擎的網(wǎng)頁解析模塊的設(shè)計與實現(xiàn)[D];北京郵電大學;2010年
7 侯明燕;基于網(wǎng)頁信息定位的數(shù)據(jù)抽取技術(shù)的研究[D];暨南大學;2011年
8 王偉;基于網(wǎng)絡(luò)信息的熱點事件發(fā)現(xiàn)與分析研究[D];華東師范大學;2011年
9 任昌;基于多特征融合的網(wǎng)頁對象自動定位技術(shù)研究[D];中北大學;2011年
10 易聰;基于Web挖掘的企業(yè)競爭情報系統(tǒng)構(gòu)建研究[D];華南理工大學;2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
2 張樹瑜,朱仲英;基于MT決策樹的Web信息抽取研究[J];計算機工程與應用;2004年13期
3 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機工程與應用;2007年30期
4 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學報;2002年05期
5 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應用;2005年04期
6 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學報;2004年05期
7 羅永蓮;秦振吉;;新聞網(wǎng)頁主題內(nèi)容提取方法研究[J];微計算機應用;2007年05期
8 吳鵬飛;孟祥增;劉俊曉;馬鳳娟;;網(wǎng)頁區(qū)域分割與識別技術(shù)[J];現(xiàn)代計算機;2006年06期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 竇朝暉,胡慶豐;Copy:提高分塊算法性能的有效方法[J];計算機工程與科學;1999年06期
2 吳翔;譚李;陸文凱;張學工;;提高超大規(guī)模SVM訓練計算速度的研究[J];模式識別與人工智能;2003年01期
3 王康,王小銘;一種基于顏色分塊特征的自適應圖象檢索方法[J];計算機工程與應用;2005年32期
4 楊麗娟;劉教民;王震洲;趙艷;;基于分塊幀差的視頻圖像運動檢測[J];河北科技大學學報;2006年01期
5 韋立慶;陳秀宏;;分塊類增廣PCA及其在人臉識別中的應用[J];計算機工程;2011年03期
6 竇朝暉,胡慶豐,張秀山;主維對矩陣運算性能的影響[J];國防科技大學學報;1999年03期
7 陳興波;王曉明;;一種快速RSA算法的改進[J];計算機工程與設(shè)計;2006年22期
8 鄭秋梅;蔣曉紅;楊發(fā)科;高元濤;;基于分塊技術(shù)的圖像檢索方法的改進與實現(xiàn)[J];計算機系統(tǒng)應用;2008年02期
9 陳艷華;伊波;崔艷玲;李紅宇;;集合劃分的深層結(jié)構(gòu)的計算機輔助研究[J];電腦開發(fā)與應用;2008年07期
10 彭晶;林克正;;基于MPEG-7顏色特征的圖像檢索技術(shù)研究[J];計算機與信息技術(shù);2008年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王猛;侯德文;李玉山;;基于自適應分塊和HVS的數(shù)字水印方案[A];山東省計算機學會2005年信息技術(shù)與信息化研討會論文集(一)[C];2005年
2 李嘉偉;孫明;;基于分塊LAB特征的粒子濾波目標跟蹤算法[A];中國農(nóng)業(yè)工程學會2011年學術(shù)年會論文集[C];2011年
3 陳思坤;吳洪;;基于圖分塊并利用空間金字塔的醫(yī)學圖像分類[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年
4 杜以華;高金花;文振q;;融合結(jié)構(gòu)信息與時域定序法的視頻拷貝檢測算法[A];第七屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2011)論文集【oral】[C];2011年
5 許洋;馮新桓;賈啟龍;唐寧九;;基于多路數(shù)據(jù)傳輸?shù)囊环N新型加密技術(shù)[A];全國第20屆計算機技術(shù)與應用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集(上冊)[C];2009年
6 汪麗華;汪道寅;王澤梁;;SIFT算法圖像自適應優(yōu)化[A];浙江省電子學會2011學術(shù)年會論文集[C];2011年
7 吳成玉;邰曉英;趙杰煜;;顏色、紋理及相關(guān)反饋技術(shù)在圖像檢索中的綜合應用[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年
8 姜太平;占濤;王帥;梅英;;基于體繪制的真三維顯示中體素路徑優(yōu)化算法分析[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年
9 朱士蓉;謝昭;高雋;;一種圖模型下的柔性圖像分割方法[A];中國儀器儀表學會第十二屆青年學術(shù)會議論文集[C];2010年
10 文振q;高金花;劉朋飛;杜以華;張萌;;基于分塊DCT和PCA的圖像感知哈希算法研究[A];第十五屆全國圖象圖形學學術(shù)會議論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 蔣杰;全球大規(guī)模虛擬地理環(huán)境構(gòu)建關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2010年
2 常為領(lǐng);面向災備的無損數(shù)據(jù)壓縮關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2010年
3 魏建生;高性能重復數(shù)據(jù)檢測與刪除技術(shù)研究[D];華中科技大學;2012年
4 楊淑平;人臉特征提取與識別算法研究[D];中南大學;2013年
5 檀敬東;文本挖掘的若干關(guān)鍵算法研究[D];中國科學技術(shù)大學;2010年
6 劉晨光;基于單目視頻無標記點的三維人體姿態(tài)估計的研究[D];哈爾濱工業(yè)大學;2011年
7 郭巖松;壓縮感知關(guān)鍵技術(shù)研究[D];天津大學;2011年
8 呂沛;基于壓縮感知理論的水下成像技術(shù)和圖像壓縮編碼技術(shù)研究[D];中國科學院研究生院(西安光學精密機械研究所);2012年
9 王威;基于網(wǎng)格快速重構(gòu)的三維地質(zhì)體建模研究與應用[D];中國科學院研究生院(武漢巖土力學研究所);2010年
10 王燦;基于在線重復數(shù)據(jù)消除的海量數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];電子科技大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 閔慧;面向語義服務的大規(guī)模本體分塊映射研究[D];中南大學;2013年
2 賴雅;基于圖分割的大規(guī)模本體分塊與映射研究[D];中南大學;2011年
3 齊朗曄;基于分塊核函數(shù)特征的交通標識識別[D];南京理工大學;2013年
4 郭維;基于二部圖模型的大本體分塊與映射研究[D];中南大學;2012年
5 王潤梅;基于Laplace矩陣的大規(guī)模本體分塊映射的研究[D];中南大學;2011年
6 孫運蓮;基于分塊和核參數(shù)選擇的KPCA研究[D];哈爾濱工業(yè)大學;2010年
7 盛名;基于自適應分塊的密寫算法研究[D];東北師范大學;2010年
8 張建華;基于片段的大本體分塊與映射方法研究[D];中南大學;2010年
9 李沃若;基于感知分塊的灰度化算法研究[D];浙江大學;2008年
10 侯波;真實感三維地形造型及可視化[D];電子科技大學;2005年
,本文編號:577446
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/577446.html