垂直搜索引擎主題爬蟲搜索策略研究
本文關(guān)鍵詞: 垂直搜索引擎 網(wǎng)絡(luò)爬蟲 主題爬蟲 搜索策略 出處:《科技信息》2013年24期 論文類型:期刊論文
【摘要】:主題爬蟲是垂直搜索引擎的關(guān)鍵構(gòu)建,其搜索算法的優(yōu)劣直接影響到搜索引擎的查全率和查準(zhǔn)率。本文簡(jiǎn)要介紹了垂直搜索引擎中主題爬蟲的工作原理;歸納了常見的幾種搜索策略算法;分析了主題爬蟲的搜索策略的特點(diǎn),并比較了幾種搜索策略的優(yōu)缺點(diǎn);總結(jié)了提高主題爬蟲搜索效率的關(guān)鍵因素及發(fā)展趨勢(shì);為后期的學(xué)習(xí)和研究打下基礎(chǔ)。
[Abstract]:Topic crawler is the key construction of vertical search engine, and its search algorithm directly affects the recall and precision of search engine. This paper briefly introduces the working principle of theme crawler in vertical search engine. Several common search strategy algorithms are summarized. This paper analyzes the characteristics of the search strategy of topic crawler, and compares the advantages and disadvantages of several search strategies. The key factors and development trend of improving the search efficiency of theme crawler are summarized. Lay the foundation for later study and research.
【作者單位】: 湖北中醫(yī)藥大學(xué)信息工程學(xué)院;
【分類號(hào)】:TP391.3
【正文快照】: 1.引言通用搜索引擎在web搜索和挖掘中存在定位不準(zhǔn)確、排序不合理等問題。作為一種新型搜索引擎服務(wù)模式的垂直搜索,能夠排除冗雜信息,減少不相關(guān)的檢索結(jié)果,提高搜索效率,專門針對(duì)某一特定領(lǐng)域、特定人群或特定需求提供有一定價(jià)值的服務(wù),在各專業(yè)領(lǐng)域的搜索和挖掘中正發(fā)揮
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 黃旭;朱艷琴;羅喜召;;基于內(nèi)容評(píng)價(jià)的爬蟲搜索策略研究[J];微電子學(xué)與計(jì)算機(jī);2008年11期
相關(guān)博士學(xué)位論文 前1條
1 管子玉;基于圖學(xué)習(xí)的Web信息檢索技術(shù)研究[D];浙江大學(xué);2010年
【共引文獻(xiàn)】
相關(guān)期刊論文 前3條
1 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識(shí)與技術(shù);2010年15期
2 魏晶晶;楊定達(dá);廖祥文;;基于網(wǎng)頁內(nèi)容相似度改進(jìn)算法的主題網(wǎng)絡(luò)爬蟲[J];計(jì)算機(jī)與現(xiàn)代化;2011年09期
3 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年12期
相關(guān)碩士學(xué)位論文 前2條
1 賀晟;搜索引擎中主題網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[D];安徽大學(xué);2010年
2 趙勇;基于社會(huì)標(biāo)注的主題爬蟲研究[D];華中科技大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 杜亞軍,嚴(yán)兵,宋亮;爬行蟲算法設(shè)計(jì)與程序?qū)崿F(xiàn)[J];計(jì)算機(jī)應(yīng)用;2004年01期
2 袁薇;高淼;;搜索引擎系統(tǒng)中個(gè)性化機(jī)制的研究[J];微電子學(xué)與計(jì)算機(jī);2006年02期
3 郭曄;;Internet中的頁面價(jià)值快速算法模型研究[J];微電子學(xué)與計(jì)算機(jī);2007年08期
4 歐陽柳波,李學(xué)勇,李國徽,王鑫;網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)展研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 柴嘉斌;李廣華;李長春;;主題爬蟲搜索策略的研究[J];科技信息;2011年12期
2 施Oz;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2011年07期
3 焦強(qiáng);束怡;戴昌林;;藥學(xué)垂直搜索引擎平臺(tái)的建立與技術(shù)研究[J];藥學(xué)進(jìn)展;2010年04期
4 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
5 林碧霞;尹治本;;基于領(lǐng)域本體的垂直搜索引擎模型的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2010年11期
6 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
7 羅林波;陳綺;吳清秀;;基于Shark-Search和Hits算法的主題爬蟲研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年11期
8 曾水香;羅林波;;基于改進(jìn)Hits算法的多主題爬蟲研究與實(shí)現(xiàn)[J];福建電腦;2010年05期
9 胡永鋒;;淺談垂直搜索引擎的工作原理[J];科學(xué)大眾(科學(xué)教育);2011年06期
10 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點(diǎn)[J];IT時(shí)代周刊;2008年01期
相關(guān)會(huì)議論文 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
2 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
3 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第十三屆中國科協(xié)年會(huì)第11分會(huì)場(chǎng)-中國智慧城市論壇論文集[C];2011年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
5 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 鄒永斌;陳興蜀;王文賢;;一個(gè)高性能Web資源收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
7 侯丹青;李舟軍;鄒蘊(yùn)珂;;一種跨站腳本漏洞檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
8 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
9 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
10 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會(huì)第十七屆信息論學(xué)術(shù)年會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
2 王艷;垂直搜索引擎市場(chǎng)看好[N];中國旅游報(bào);2000年
3 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計(jì)算機(jī)報(bào);2000年
4 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日?qǐng)?bào)海外版;2000年
5 記者 王滸;“去哪兒”旅行網(wǎng)完成第三輪1500萬美元融資[N];中國旅游報(bào);2009年
6 本報(bào)記者 王宏;搜索引擎 收費(fèi)能催化市場(chǎng)嗎[N];中國計(jì)算機(jī)報(bào);2001年
7 徐瑾 張玉;市場(chǎng)潛力巨大 價(jià)值亟待挖掘[N];人民郵電;2009年
8 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭(zhēng)未破題[N];法制日?qǐng)?bào);2009年
9 記者 吳德群;熱門關(guān)鍵詞兩天搶注一空[N];深圳特區(qū)報(bào);2009年
10 本報(bào)記者 胡鈺;“去哪兒”網(wǎng)撬動(dòng)在線旅游市場(chǎng)格局[N];華夏時(shí)報(bào);2009年
相關(guān)博士學(xué)位論文 前8條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年
5 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
6 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
7 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
8 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張行;木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];北京林業(yè)大學(xué);2012年
2 白玉昭;垂直搜索引擎的研究與實(shí)現(xiàn)[D];江南大學(xué);2012年
3 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
4 王俊;面向房產(chǎn)領(lǐng)域的垂直搜索引擎研究與實(shí)現(xiàn)[D];南昌大學(xué);2012年
5 李亞;垂直搜索引擎的研究與設(shè)計(jì)[D];武漢理工大學(xué);2010年
6 周兵;基于分布式精準(zhǔn)采集的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年
8 林偉;垂直搜索引擎關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2011年
9 劉朋;基于Lucene的垂直搜索引擎關(guān)鍵技術(shù)的研究應(yīng)用[D];武漢理工大學(xué);2009年
10 許厚金;垂直搜索引擎及其關(guān)鍵方法研究[D];燕山大學(xué);2010年
,本文編號(hào):1455377
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1455377.html