天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2020-04-14 06:17
【摘要】:隨著搜索服務(wù)的逐漸普及深化,用戶(hù)針對(duì)特定領(lǐng)域的搜索需求逐漸明確、對(duì)搜索結(jié)果的個(gè)性化程度和實(shí)時(shí)性要求逐漸增高,使得基于垂直搜索領(lǐng)域的高效信息檢索服務(wù)已成為搜索引擎市場(chǎng)的熱點(diǎn)。垂直搜索引擎通過(guò)聚焦抓取、智能調(diào)度、高維索引等技術(shù),根據(jù)特定的領(lǐng)域知識(shí)和用戶(hù)的搜索習(xí)慣,為用戶(hù)提供特定垂直領(lǐng)域中時(shí)效性更高,更為個(gè)性化、專(zhuān)業(yè)化的搜索結(jié)果。 然而現(xiàn)有大多數(shù)的垂直搜索引擎中存在1)爬蟲(chóng)系統(tǒng)抓取模式被動(dòng),目標(biāo)抓取與用戶(hù)查詢(xún)時(shí)延過(guò)長(zhǎng);2)爬蟲(chóng)系統(tǒng)抓取調(diào)度盲目,抓取資源利用率低;以及3)索引系統(tǒng)性能低下,對(duì)特定文本信息的特征提取與聚類(lèi)缺乏有效算法等問(wèn)題,已經(jīng)嚴(yán)重地桎梏了垂直搜索引擎市場(chǎng)的健康發(fā)展。本文試圖對(duì)這些熱點(diǎn)問(wèn)題及其關(guān)鍵技術(shù)進(jìn)行系統(tǒng)性研究。本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下: 1.爬蟲(chóng)系統(tǒng)的主動(dòng)式聚焦抓取技術(shù)研究 針對(duì)爬蟲(chóng)系統(tǒng)抓取模式被動(dòng),目標(biāo)抓取與用戶(hù)查詢(xún)時(shí)延過(guò)長(zhǎng)的問(wèn)題,提出了語(yǔ)義驅(qū)動(dòng)的查詢(xún)驅(qū)動(dòng)聚焦抓取技術(shù),基于領(lǐng)域知識(shí)理解用戶(hù)查詢(xún),提供了查詢(xún)向目標(biāo)網(wǎng)頁(yè)的語(yǔ)義轉(zhuǎn)換,實(shí)現(xiàn)了針對(duì)用戶(hù)查詢(xún)的主動(dòng)式抓取,解決了目標(biāo)抓取與用戶(hù)查詢(xún)時(shí)延過(guò)長(zhǎng)的問(wèn)題。充分的實(shí)驗(yàn)和在真實(shí)項(xiàng)目中的初步應(yīng)用表明,查詢(xún)驅(qū)動(dòng)聚焦抓取技術(shù)為用戶(hù)提供了10秒級(jí)搜索結(jié)果,大大降低了時(shí)延,極大的提高了用戶(hù)體驗(yàn)。 2.爬蟲(chóng)系統(tǒng)的智能調(diào)度技術(shù)研究 針對(duì)爬蟲(chóng)系統(tǒng)抓取調(diào)度盲目、利用率低的問(wèn)題,基于網(wǎng)頁(yè)文檔變化的泊松過(guò)程建模,在對(duì)單個(gè)對(duì)象新鮮度進(jìn)行定量估算的基礎(chǔ)上,提出對(duì)象級(jí)細(xì)粒度資源調(diào)度算法PoissonRank,實(shí)現(xiàn)了針對(duì)變化的抓取調(diào)度,極大地提高了抓取資源的利用率。仿真分析和商用項(xiàng)目中的應(yīng)用表明了該模型的有效性,該調(diào)度技術(shù)能提高抓取資源利用率并更好的捕捉對(duì)象的變化。大量真實(shí)環(huán)境中的實(shí)驗(yàn)驗(yàn)證了對(duì)象分布規(guī)律和泊松過(guò)程建模的正確性以及用戶(hù)體驗(yàn)的提升,同時(shí)PoissonRank對(duì)系統(tǒng)帶來(lái)的額外開(kāi)銷(xiāo)很低,具有很高的可擴(kuò)展性。 3.索引系統(tǒng)中高維索引的在線更新技術(shù)研究 針對(duì)索引系統(tǒng)中多媒體高維索引在線更新效率低下的問(wèn)題,對(duì)高維索引中的LSH算法進(jìn)行優(yōu)化,提出了基于壓縮位圖(Compressed Bitmap)的CB-LSH高維索引技術(shù),通過(guò)算子布爾代數(shù)化后引入壓縮位圖索引對(duì)LSH的添刪改性能進(jìn)行了全面提升,解決了高維索引在線更新的性能問(wèn)題。理論分析證明了CB-LSH在空間占用和時(shí)間復(fù)雜度上的改善;大量真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的LSH算法相比,CB-LSH節(jié)約了三分之一的內(nèi)存占用,刪除性能提高了近一個(gè)數(shù)量級(jí),查詢(xún)性能提高了數(shù)倍,插入性能提高了約一半;真實(shí)項(xiàng)目驗(yàn)證了CB-LSH應(yīng)用于在線實(shí)時(shí)更新的海量多媒體對(duì)象檢索系統(tǒng)中是有效可行的。 4.索引系統(tǒng)中文本信息的結(jié)果合并技術(shù)研究 針對(duì)垂直領(lǐng)域中文本信息長(zhǎng)度短、專(zhuān)業(yè)性強(qiáng)、噪音多,索引系統(tǒng)中聚類(lèi)效果差的問(wèn)題,提出了一種基于自然語(yǔ)言觸發(fā)對(duì)的文本聚類(lèi)技術(shù)TrigSigs,基于一階觸發(fā)對(duì)充分挖掘詞匯隱含屬性的關(guān)聯(lián)關(guān)系,學(xué)習(xí)領(lǐng)域?qū)I(yè)詞匯、去除噪音詞匯并提取關(guān)鍵特征詞匯,實(shí)現(xiàn)了細(xì)粒度對(duì)象級(jí)聚類(lèi)技術(shù)。仿真實(shí)驗(yàn)表明,該算法可以過(guò)濾絕大部分噪音詞匯,并且根據(jù)詞匯的分辨力合理分配權(quán)重,使最終聚類(lèi)結(jié)果的準(zhǔn)確率有很大的提升。
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:F49;F224

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王繼成,蕭嶸,孫正興,張福炎;Web信息檢索研究進(jìn)展[J];計(jì)算機(jī)研究與發(fā)展;2001年02期

2 趙巖;王曉龍;劉秉權(quán);關(guān)毅;;融合聚類(lèi)觸發(fā)對(duì)特征的最大熵詞性標(biāo)注模型[J];計(jì)算機(jī)研究與發(fā)展;2006年02期

3 吳偉忠;崔建英;;基于時(shí)效性的垂直搜索及其應(yīng)用[J];暨南大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

4 謝紅薇;顏小林;余雪麗;;基于本體的Web頁(yè)面聚類(lèi)研究[J];計(jì)算機(jī)科學(xué);2008年09期

5 張健沛,劉洋,楊靜,代坤;搜索引擎結(jié)果聚類(lèi)算法研究[J];計(jì)算機(jī)工程;2004年05期

6 金芝;基于本體的需求自動(dòng)獲取[J];計(jì)算機(jī)學(xué)報(bào);2000年05期

7 周立柱,林玲;聚焦爬蟲(chóng)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

8 徐瑩;;搜索引擎技術(shù)及其發(fā)展前瞻[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2005年24期

9 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報(bào)科學(xué);2007年01期

10 周佳慶;吳羽;江錦華;陳剛;董軼;;實(shí)時(shí)垂直搜索引擎對(duì)象緩存優(yōu)化策略[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2011年01期

相關(guān)博士學(xué)位論文 前1條

1 李強(qiáng);基于本體論的個(gè)性化和社會(huì)化元搜索引擎的研究[D];浙江大學(xué);2006年

相關(guān)碩士學(xué)位論文 前1條

1 程守遠(yuǎn);基于圖像檢索技術(shù)的領(lǐng)帶花型檢索的研究[D];東華大學(xué);2006年



本文編號(hào):2626985

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/xxjj/2626985.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)2ef94***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com