實時垂直搜索引擎數(shù)據(jù)抓取調度研究分析.pdf文檔全文免費閱讀、在線看
本文關鍵詞:實時垂直搜索引擎數(shù)據(jù)抓取調度研究,由筆耕文化傳播整理發(fā)布。
浙江大學計算機科學與技術學院 碩士學位論文
實時垂直搜索引擎數(shù)據(jù)抓取調度研究 姓名:周佳慶 申請學位級別:碩士 專業(yè):計算機應用技術 指導教師:陳剛 座機電話號碼
浙江大學碩士學位論文 摘要 摘要 實時垂直搜索引擎的發(fā)展解決了互聯(lián)網(wǎng)用戶對大規(guī)模高時間敏感度數(shù)據(jù)的
搜索需求,而抓取任務調度相關技術是實時垂直搜索引擎的關鍵技術,決定了實
時垂直搜索引擎的性能和用戶體驗。但是,,目前學術界對實時垂直搜索引擎數(shù)據(jù)
抓取任務調度的相關研究尚未開展,導致現(xiàn)有的實時垂直搜索引擎數(shù)據(jù)過期、抓
取資源浪費的現(xiàn)象非常嚴重。 本文對實時垂直搜索引擎的抓取任務調度相關技術進行了詳細的總結和研
究。首先對數(shù)據(jù)抓取的基本問題做了系統(tǒng)的歸納和分析,總結了實時垂直搜索引
擎的抓取策略和數(shù)據(jù)變化規(guī)律的預測方法。然后提出了一種新的實時垂直搜索引
擎抓取分發(fā)優(yōu)化策略:OLCO策略,基于對象及其屬性間的關聯(lián)設計熱門對象預
測模型,對熱門對象的變化趨勢進行預測;基于用戶查詢及對象變化符合泊松過
程的特點,推導最大化數(shù)據(jù)新鮮度的計算方法,從理論上給出資源分配和動態(tài)平
衡的最優(yōu)策略。最后基于OLCO策略提出了一種自適應的實時垂直搜索引擎的任
務抓取分發(fā)模型:SACD模型,該模型巧妙地利用了白適應的思想,有效地解決
了實時垂直搜索引擎抓取分發(fā)模塊配置復雜,維護成本高的問題。 本文使用實際數(shù)據(jù)對所提出的理論和觀點進行了詳細的實驗測試,驗證了
OLCO策略和SACD模型在處理實時數(shù)據(jù)時,用戶查詢結果平均數(shù)據(jù)新鮮度和準
確率上顯著優(yōu)于傳統(tǒng)垂直搜索引擎的各個策略,具有較大的實用價值。
關鍵詞: 數(shù)據(jù)抓
本文關鍵詞:實時垂直搜索引擎數(shù)據(jù)抓取調度研究,由筆耕文化傳播整理發(fā)布。
本文編號:64171
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/64171.html