FPC:大規(guī)模網(wǎng)頁(yè)的快速增量聚類
本文關(guān)鍵詞:FPC:大規(guī)模網(wǎng)頁(yè)的快速增量聚類
更多相關(guān)文章: DOM樹分層向量 網(wǎng)頁(yè)簇中心 局部敏感哈希 快速增量聚類
【摘要】:面向結(jié)構(gòu)相似的網(wǎng)頁(yè)聚類是網(wǎng)絡(luò)數(shù)據(jù)挖掘的一項(xiàng)重要技術(shù)。傳統(tǒng)的網(wǎng)頁(yè)聚類沒(méi)有給出網(wǎng)頁(yè)簇中心的表示方式,在計(jì)算點(diǎn)簇間和簇簇間相似度時(shí)需要計(jì)算多個(gè)點(diǎn)對(duì)的相似度,這種聚類算法一般比使用簇中心的聚類算法慢,難以滿足大規(guī)模快速增量聚類的需求。針對(duì)此問(wèn)題,該文提出一種快速增量網(wǎng)頁(yè)聚類方法FPC(Fast Page Clustering)。在該方法中,先提出一種新的計(jì)算網(wǎng)頁(yè)相似度的方法,其計(jì)算速度是簡(jiǎn)單樹匹配算法的500倍;給出一種網(wǎng)頁(yè)簇中心的表示方式,在此基礎(chǔ)上使用Kmeans算法的一個(gè)變種MKmeans(Merge-Kmeans)進(jìn)行聚類,在聚類算法層面上提高效率;使用局部敏感哈希技術(shù),從數(shù)量龐大的網(wǎng)頁(yè)類集中快速找出最相似的類,在增量合并層面上提高效率。
【作者單位】: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所中國(guó)科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室;中國(guó)科學(xué)院大學(xué);中國(guó)信息安全評(píng)測(cè)中心;
【基金】:國(guó)家973計(jì)劃(2012CB316303,2013CB329602) 國(guó)家863計(jì)劃(2014AA015204) 國(guó)家自然科學(xué)基金(61232010,61425016,61572473,61572467)
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 這種方法對(duì)高層節(jié)點(diǎn)很敏感。文獻(xiàn)[4]使用自頂向1 引言下的樹編輯距離來(lái)計(jì)算網(wǎng)頁(yè)的相似度,這種方法對(duì)高層節(jié)點(diǎn)也很敏感,高層節(jié)點(diǎn)不匹配,則相似度非Web抽取是網(wǎng)絡(luò)數(shù)據(jù)挖掘中的重要應(yīng)用。針常小。對(duì)海量網(wǎng)頁(yè)的抽取,可以把結(jié)構(gòu)相似的網(wǎng)頁(yè)自動(dòng)聚傳統(tǒng)的網(wǎng)頁(yè)聚類使用點(diǎn)代表的聚類方
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 ;FPC和激光加工工藝[J];印制電路信息;2006年12期
2 林均秀;陳國(guó)輝;王艷艷;何為;;超聲波在FPC黑孔化工藝中的應(yīng)用研究[J];印制電路信息;2010年09期
3 羅露;胡躍明;;基于機(jī)器視覺(jué)的FPC嵌入式檢測(cè)系統(tǒng)[J];計(jì)算機(jī)測(cè)量與控制;2011年02期
4 劉萍;FPC在計(jì)算機(jī)硬驅(qū)磁頭的應(yīng)用[J];印制電路信息;2001年06期
5 蔡積慶;;FPC用壓延銅箔[J];印制電路信息;2008年05期
6 何繁;;FPC用銅箔的表面處理技術(shù)[J];覆銅板資訊;2013年03期
7 黃杰賢;李迪;黃志平;楊冬濤;;FPC焊盤表面缺陷檢測(cè)研究[J];激光與紅外;2014年06期
8 唐勇;胡華平;羅宇;;高效報(bào)文捕獲引擎FPC的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與科學(xué);2006年05期
9 祝大同;撓性PCB用基板材料的新發(fā)展(4)——FPC用壓延銅箔的新成果[J];印制電路信息;2005年05期
10 吳衛(wèi)鐘;;關(guān)于如何控制FPC微連點(diǎn)分板后毛刺大小的研究試驗(yàn)[J];印制電路信息;2011年09期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 ;降低主FPC不良發(fā)生率——廈門TDK有限公司 新力圈[A];2003年度電子工業(yè)優(yōu)秀質(zhì)量管理小組成果質(zhì)量信得過(guò)班組經(jīng)驗(yàn)專集[C];2003年
2 劉萍;;FPC在數(shù)碼相機(jī)中的研究與應(yīng)用[A];全國(guó)第六屆SMT/SMD學(xué)術(shù)研討會(huì)論文集[C];2001年
3 楊根林;;如何提高FPT器件在FPC上之組裝良率及可靠性[A];2011中國(guó)電子制造與封裝技術(shù)年會(huì)論文集[C];2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 吳學(xué)娟;基于FPC的變頻調(diào)速恒壓供水系統(tǒng)的研究[D];安徽工程大學(xué);2012年
2 王學(xué)軍;用于多功能柔性功率調(diào)節(jié)器(FPC)的三相電壓源變換器(VSC)的研究[D];華中科技大學(xué);2006年
,本文編號(hào):1274195
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1274195.html