一種基于網(wǎng)頁塊特征的多級(jí)網(wǎng)頁聚類方法
本文關(guān)鍵詞:一種基于網(wǎng)頁塊特征的多級(jí)網(wǎng)頁聚類方法
更多相關(guān)文章: 網(wǎng)頁分塊 網(wǎng)頁聚類 DOM
【摘要】:利用網(wǎng)頁的結(jié)構(gòu)特征,提出一種多級(jí)網(wǎng)頁聚類方法。該方法首先對網(wǎng)頁進(jìn)行分塊,然后使用網(wǎng)頁的塊特征對網(wǎng)頁進(jìn)行聚類。在聚類過程中,通過調(diào)整閾值,能夠提供三級(jí)聚類:同站點(diǎn)網(wǎng)頁聚類、同站點(diǎn)同結(jié)構(gòu)網(wǎng)頁聚類、同站點(diǎn)同結(jié)構(gòu)同模板網(wǎng)頁聚類。與已有的網(wǎng)頁聚類方法相比較,該方法能夠提供多級(jí)聚類結(jié)果,滿足不同的聚類需求,而且在聚類的準(zhǔn)確率和效率方面有本質(zhì)上的提高。
【作者單位】: 中國科學(xué)院計(jì)算技術(shù)研究所;中國科學(xué)院大學(xué);
【關(guān)鍵詞】: 網(wǎng)頁分塊 網(wǎng)頁聚類 DOM
【基金】:國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(“973”計(jì)劃)項(xiàng)目(2012CB316303) 國家高技術(shù)研究發(fā)展計(jì)劃(“863”計(jì)劃)項(xiàng)目(2012AA011003) 國家科技支撐計(jì)劃項(xiàng)目(2012BAH39B02) 國家自然科學(xué)基金資助項(xiàng)目(61232010,61202058)
【分類號(hào)】:TP393.092
【正文快照】: 0引言網(wǎng)頁信息抽取是信息檢索、網(wǎng)絡(luò)信息推薦等重大網(wǎng)絡(luò)應(yīng)用中的關(guān)鍵技術(shù)之一。針對海量網(wǎng)頁的信息抽取,如果能夠使用面向結(jié)構(gòu)的網(wǎng)頁聚類方法,將結(jié)構(gòu)相似的網(wǎng)頁聚成一類,然后對網(wǎng)頁的抽取規(guī)則進(jìn)行歸納,則可以在保證抽取準(zhǔn)確率的同時(shí)實(shí)現(xiàn)大規(guī)模網(wǎng)頁的自動(dòng)抽取。對網(wǎng)頁進(jìn)行多級(jí)
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 常育紅,姜哲,朱小燕;基于標(biāo)記樹表示方法的頁面結(jié)構(gòu)分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年16期
2 李睿;曾俊t@;周四望;;基于局部標(biāo)簽樹匹配的改進(jìn)網(wǎng)頁聚類算法[J];計(jì)算機(jī)應(yīng)用;2010年03期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹恒;張茜;;農(nóng)作物信息垂直搜索引擎的研究[J];安徽農(nóng)業(yè)科學(xué);2012年19期
2 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
3 吳謀碩;;基于數(shù)據(jù)分布特征的網(wǎng)頁聚類算法[J];電腦知識(shí)與技術(shù);2013年30期
4 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2007年30期
5 胡飛;;基于標(biāo)記樹的Web頁面區(qū)域劃分和搜索方法[J];計(jì)算機(jī)科學(xué);2005年08期
6 張瑞雪;宋明秋;公衍磊;;逆序解析DOM樹及網(wǎng)頁正文信息提取[J];計(jì)算機(jī)科學(xué);2011年04期
7 貢正仙;朱巧明;李培峰;;基于相似頁面的Web信息抽取系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2006年08期
8 翟獻(xiàn)民;田生偉;禹龍;馮冠軍;;面向維吾爾語文本的改進(jìn)后綴樹聚類[J];計(jì)算機(jī)應(yīng)用;2012年04期
9 張聚弘;山嵐;;基于頁面對比分析的數(shù)據(jù)提取[J];計(jì)算機(jī)與數(shù)字工程;2006年01期
10 韓忠明;李文正;莫倩;;有效HTML文本信息抽取方法的研究[J];計(jì)算機(jī)應(yīng)用研究;2008年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
2 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
3 朱沿旭;面向開源社區(qū)的Web數(shù)據(jù)抽取與挖掘關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年
2 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學(xué);2010年
3 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
4 戴支榮;基于Lucene的面向主題信息搜索系統(tǒng)的關(guān)鍵技術(shù)分析及應(yīng)用[D];武漢理工大學(xué);2011年
5 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應(yīng)用[D];大連理工大學(xué);2011年
6 董銳;基于區(qū)域定位的購物網(wǎng)站商品信息抽取方法[D];湖南大學(xué);2009年
7 王星;新聞網(wǎng)頁抽取技術(shù)的研究與實(shí)現(xiàn)[D];河北工業(yè)大學(xué);2011年
8 鄒永強(qiáng);新聞網(wǎng)頁中人物實(shí)體關(guān)系提取技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 張立巖;基于網(wǎng)頁結(jié)構(gòu)的Web信息提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2011年
10 董紅臣;基于增量更新的交互式網(wǎng)頁內(nèi)容提取技術(shù)研究[D];哈爾濱工程大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 肖建鵬;張來順;任星;;直推式支持向量機(jī)在Web信息抽取中的應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年02期
2 支宗良;陳少飛;;一種基于XQuery的優(yōu)化Web信息抽取方法[J];計(jì)算機(jī)應(yīng)用;2008年01期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁信息[J];電腦知識(shí)與技術(shù);2004年13期
2 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計(jì)算機(jī)工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁推薦模型[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁藝術(shù)設(shè)計(jì)[J];中國電化教育;2004年09期
5 賈海龍,任玉珍;網(wǎng)頁藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào);2005年05期
6 劉肖冰;淺談網(wǎng)頁藝術(shù)設(shè)計(jì)[J];安陽師范學(xué)院學(xué)報(bào);2005年05期
7 孫迎春;;網(wǎng)頁設(shè)計(jì)研究[J];南平師專學(xué)報(bào);2005年03期
8 文濤;網(wǎng)頁的視覺傳達(dá)設(shè)計(jì)與分析[J];沈陽教育學(xué)院學(xué)報(bào);2005年01期
9 宋春暉;網(wǎng)頁設(shè)計(jì)中的美學(xué)應(yīng)用分析[J];海南師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年01期
10 張秀虎;;淺談網(wǎng)頁的訪問權(quán)限[J];教育信息化;2005年17期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
7 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
8 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
9 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年
10 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年
2 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年
3 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年
4 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
5 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年
6 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年
7 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
8 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
9 特約作者 劉丹平 馮小民;搜索無極限[N];電腦報(bào);2002年
10 林立;在線娛樂 樂不停[N];電腦報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年
5 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
6 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
7 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
8 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
9 余偉;基于用戶個(gè)性挖掘的Web社區(qū)營銷研究[D];武漢大學(xué);2011年
10 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學(xué);2009年
2 劉輝;網(wǎng)頁信息過濾系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2009年
3 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學(xué);2005年
4 張雅潔;網(wǎng)頁視覺基礎(chǔ)設(shè)計(jì)與應(yīng)用研究[D];東北師范大學(xué);2007年
5 程歡;網(wǎng)頁中動(dòng)態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學(xué);2011年
6 梁宏偉;網(wǎng)頁信息抽取工具的研究[D];長春工業(yè)大學(xué);2011年
7 田先桃;一種基于網(wǎng)頁關(guān)聯(lián)性特征的釣魚檢測方法[D];南京郵電大學(xué);2012年
8 張晗蒴;網(wǎng)頁設(shè)計(jì)中信息傳達(dá)有效性探究[D];西安美術(shù)學(xué)院;2012年
9 盛金根;基于預(yù)覽效應(yīng)的網(wǎng)頁信息呈現(xiàn)方式及搜索效率[D];西南交通大學(xué);2012年
10 李方;網(wǎng)頁信息呈現(xiàn)的單頁和多頁的工效學(xué)研究[D];浙江理工大學(xué);2013年
,本文編號(hào):973484
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/973484.html