用戶(hù)定制主題聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-27 03:15
本文關(guān)鍵詞:用戶(hù)定制主題聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 聚焦爬蟲(chóng) k-means best-first策略 自適應(yīng)主題模型 用戶(hù)定制主題爬蟲(chóng)
【摘要】:傳統(tǒng)的聚焦爬蟲(chóng)在主題未知或者缺少相應(yīng)訓(xùn)練集的情況下無(wú)法完成主題爬行。為讓聚焦爬蟲(chóng)具有更好的主題適應(yīng)性,提出基于聚類(lèi)算法的自適應(yīng)主題模型,指導(dǎo)聚焦爬蟲(chóng)在只有少量相同主題(主題未知)初始url的情況下完成主題爬行。通過(guò)對(duì)初始頁(yè)面聚類(lèi)得到主題中心向量,尋找相關(guān)網(wǎng)頁(yè)更新主題中心位置;基于best-first策略實(shí)現(xiàn)url排序;基于該模型實(shí)現(xiàn)用戶(hù)定制主題聚焦爬蟲(chóng)。通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了使用該模型的爬蟲(chóng)具有較高的收獲比(havest rate)。
【作者單位】: 清華大學(xué)電子工程系信息認(rèn)知與智能系統(tǒng)研究所;清華大學(xué)信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室;
【關(guān)鍵詞】: 聚焦爬蟲(chóng) k-means best-first策略 自適應(yīng)主題模型 用戶(hù)定制主題爬蟲(chóng)
【基金】:國(guó)家863高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2012AA011004) 清華大學(xué)自主科研基金項(xiàng)目(20111081023) 國(guó)家基金委前瞻計(jì)劃基金項(xiàng)目(61161140454)
【分類(lèi)號(hào)】:TP393.092
【正文快照】: 0引言互聯(lián)網(wǎng)時(shí)代用戶(hù)的個(gè)性化需求越來(lái)越高,在實(shí)際應(yīng)用場(chǎng)景下,不同用戶(hù)的需求通常存在差異,他們希望在其特定領(lǐng)域及方向上進(jìn)行“定制化”的主題爬行。傳統(tǒng)的聚焦爬蟲(chóng)在開(kāi)始工作之前需要對(duì)指定主題進(jìn)行建模和訓(xùn)練,在缺乏相應(yīng)主題訓(xùn)練集的情況下無(wú)法完成任務(wù),不能滿(mǎn)足用戶(hù)“個(gè)性
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 仲兆滿(mǎn);李存華;劉宗田;管燕;;一種基于搜索策略的多主題信息采集方法[J];電子學(xué)報(bào);2014年12期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 馮飛;基于本體概念相似度的主題爬蟲(chóng)中網(wǎng)頁(yè)排序模型研究[D];北京信息科技大學(xué);2013年
2 李小雷;基于層次優(yōu)化的動(dòng)態(tài)概念背景圖的主題爬行策略研究[D];西華大學(xué);2014年
,本文編號(hào):1101670
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1101670.html
最近更新
教材專(zhuān)著