天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

用戶(hù)定制主題聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-10-27 03:15

  本文關(guān)鍵詞:用戶(hù)定制主題聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 聚焦爬蟲(chóng) k-means best-first策略 自適應(yīng)主題模型 用戶(hù)定制主題爬蟲(chóng)


【摘要】:傳統(tǒng)的聚焦爬蟲(chóng)在主題未知或者缺少相應(yīng)訓(xùn)練集的情況下無(wú)法完成主題爬行。為讓聚焦爬蟲(chóng)具有更好的主題適應(yīng)性,提出基于聚類(lèi)算法的自適應(yīng)主題模型,指導(dǎo)聚焦爬蟲(chóng)在只有少量相同主題(主題未知)初始url的情況下完成主題爬行。通過(guò)對(duì)初始頁(yè)面聚類(lèi)得到主題中心向量,尋找相關(guān)網(wǎng)頁(yè)更新主題中心位置;基于best-first策略實(shí)現(xiàn)url排序;基于該模型實(shí)現(xiàn)用戶(hù)定制主題聚焦爬蟲(chóng)。通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了使用該模型的爬蟲(chóng)具有較高的收獲比(havest rate)。
【作者單位】: 清華大學(xué)電子工程系信息認(rèn)知與智能系統(tǒng)研究所;清華大學(xué)信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室;
【關(guān)鍵詞】聚焦爬蟲(chóng) k-means best-first策略 自適應(yīng)主題模型 用戶(hù)定制主題爬蟲(chóng)
【基金】:國(guó)家863高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2012AA011004) 清華大學(xué)自主科研基金項(xiàng)目(20111081023) 國(guó)家基金委前瞻計(jì)劃基金項(xiàng)目(61161140454)
【分類(lèi)號(hào)】:TP393.092
【正文快照】: 0引言互聯(lián)網(wǎng)時(shí)代用戶(hù)的個(gè)性化需求越來(lái)越高,在實(shí)際應(yīng)用場(chǎng)景下,不同用戶(hù)的需求通常存在差異,他們希望在其特定領(lǐng)域及方向上進(jìn)行“定制化”的主題爬行。傳統(tǒng)的聚焦爬蟲(chóng)在開(kāi)始工作之前需要對(duì)指定主題進(jìn)行建模和訓(xùn)練,在缺乏相應(yīng)主題訓(xùn)練集的情況下無(wú)法完成任務(wù),不能滿(mǎn)足用戶(hù)“個(gè)性

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 仲兆滿(mǎn);李存華;劉宗田;管燕;;一種基于搜索策略的多主題信息采集方法[J];電子學(xué)報(bào);2014年12期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 馮飛;基于本體概念相似度的主題爬蟲(chóng)中網(wǎng)頁(yè)排序模型研究[D];北京信息科技大學(xué);2013年

2 李小雷;基于層次優(yōu)化的動(dòng)態(tài)概念背景圖的主題爬行策略研究[D];西華大學(xué);2014年

,

本文編號(hào):1101670

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1101670.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0b6d0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com