互聯(lián)網(wǎng)搜索引擎搜索策略和算法的研究
本文關(guān)鍵詞:互聯(lián)網(wǎng)搜索引擎搜索策略和算法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:現(xiàn)階段,互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展是有目共睹的。以百度、阿里、騰訊為首的互聯(lián)網(wǎng)公司競(jìng)相角逐,搶占著每一片互聯(lián)網(wǎng)市場(chǎng),例如最近一年非常火的O2O電商(online to offline,即線下商品,線上交易),2014年過年非常紅的微信紅包、百度的大數(shù)據(jù)遷徙等,互聯(lián)網(wǎng)都在深刻的改變著人們的生活。在互聯(lián)網(wǎng)的世界里,有一塊市場(chǎng)非常重要,它是互聯(lián)網(wǎng)的入口,80%以上的互聯(lián)網(wǎng)流量都需要經(jīng)過它的分發(fā),這就是搜索引擎。因?yàn)榛ヂ?lián)網(wǎng)公司的網(wǎng)址實(shí)在太多,網(wǎng)頁數(shù)更是可怕,Google(谷歌)目前統(tǒng)計(jì)的數(shù)字是100億,大部分想去各家網(wǎng)站的人都會(huì)選擇通過搜索行為進(jìn)行跳轉(zhuǎn)。從中我們可看出搜索引擎的好壞直接決定著人們的互聯(lián)網(wǎng)生活,決定著整個(gè)互聯(lián)網(wǎng)流量的分發(fā),對(duì)整個(gè)互聯(lián)網(wǎng)生態(tài)都有很大的影響。本文先簡單介紹了搜索引擎的背景和意義,說明了研究搜索引擎的重大意義。介紹了搜索引擎的國內(nèi)外動(dòng)態(tài),重點(diǎn)介紹了Google和百度,這是現(xiàn)階段最成功的兩家搜索引擎,他們的現(xiàn)狀對(duì)搜索生態(tài)的發(fā)展至關(guān)重要,最后引出了搜索引擎算法的現(xiàn)狀和不足,并提出了解決辦法,F(xiàn)階段搜索引擎主要的搜索算法分爬取部分和排序部分。第二章重點(diǎn)介紹了現(xiàn)階段的爬蟲策略和排序策略,這些策略很多都是個(gè)人使用后的一些感觸。通過對(duì)算法的分析,提出了新的算法:爬取部分的廣度優(yōu)先搜索的并行化思想以及排序策略部分的頁面評(píng)分排序策略。第三章從產(chǎn)品化策略去分析搜索引擎,單從搜索算法上去看搜索,并不是一個(gè)搜索引擎的全部,和真正的搜索引擎相差很遠(yuǎn)。第三章通過在搜索引擎公司的實(shí)習(xí),學(xué)到了一個(gè)真正的搜索引擎是什么樣子的,單純的算法只是其中的一小部分,提出通過產(chǎn)品化的策略提升搜索引擎的搜索效果,并進(jìn)行了詳細(xì)的介紹和分析。第四章主要是針對(duì)第二章提出的兩種改進(jìn)算法,在Linux系統(tǒng)上通過集成Nutch爬蟲[20]、Solr服務(wù)器(主流搜索引擎數(shù)據(jù)存儲(chǔ)服務(wù)器)、tomcat監(jiān)控器、中文分詞、前端頁面等控件,實(shí)現(xiàn)了一個(gè)真實(shí)的搜索引擎,并對(duì)其中很多的代碼進(jìn)行修改,實(shí)現(xiàn)了廣度優(yōu)先并行化算法和頁面評(píng)分排序策略,通過最后的實(shí)驗(yàn)數(shù)據(jù)分析,證明了對(duì)爬取效率和排序策略的提升。最后簡單介紹了搜索引擎的發(fā)展方向,給出了一個(gè)比較良好的愿景?梢宰屓藗兿硎艿礁玫乃阉鞣⻊(wù)。搜索引擎還是有很大的發(fā)展空間的。很多技術(shù)現(xiàn)階段都沒有實(shí)現(xiàn),例如個(gè)性化搜索、智能化搜索等。
【關(guān)鍵詞】:并行化 頁面評(píng)分排序策略 搜索引擎產(chǎn)品化
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-6
- Abstract6-10
- 1 緒論10-13
- 1.1 搜索引擎的背景及意義10-11
- 1.2 搜索引擎的國內(nèi)外動(dòng)態(tài)、水平11
- 1.3 本文研究內(nèi)容和解決問題11-13
- 2 主流的搜索策略和算法13-32
- 2.1 主流搜索引擎架構(gòu)和搜索算法策略13-20
- 2.1.1 yahoo的架構(gòu)和搜索算法策略14-15
- 2.1.2 Google的架構(gòu)和搜索算法策略15-17
- 2.1.3 百度的架構(gòu)和搜索算法策略17-18
- 2.1.4 三家搜索結(jié)果對(duì)比分析18-20
- 2.2 抓取算法分析20-24
- 2.2.1 廣度優(yōu)先搜索策略20
- 2.2.2 深度優(yōu)先搜索策略20-21
- 2.2.3 廣度優(yōu)先搜索的并行化思想21-22
- 2.2.4 最佳優(yōu)先搜索策略22-23
- 2.2.5 分類抓取搜索策略23-24
- 2.2.6 基于鏈接分析抓取算法24
- 2.3 排序策略分析24-32
- 2.3.1 語義分析24-27
- 2.3.2 排序策略分析27-32
- 3 搜索引擎的產(chǎn)品化策略32-41
- 3.1 資源合作優(yōu)化搜索效果32-35
- 3.2 優(yōu)質(zhì)展現(xiàn)形態(tài)優(yōu)化搜索結(jié)果35-38
- 3.3 垂直搜索優(yōu)化搜索結(jié)果38-41
- 4 搜索算法的實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析41-55
- 4.1 爬蟲部分和并行化效果分析41-47
- 4.1.1 Hertrix爬蟲42-44
- 4.1.2 Nutch爬蟲44-47
- 4.2 Linux下Solr服務(wù)器47-48
- 4.3 集成Ikanalayzer中文分詞器48-49
- 4.4 頁面評(píng)分排序策略的實(shí)現(xiàn)49-50
- 4.5 搜索引擎的web前端展現(xiàn)50-51
- 4.6 排序策略的效果分析51-53
- 4.7 爬蟲的網(wǎng)頁定向抓取53-55
- 5 搜索引擎的發(fā)展和新技術(shù)55-60
- 5.1 數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)55-56
- 5.1.1 數(shù)據(jù)挖掘55-56
- 5.1.2 神經(jīng)網(wǎng)絡(luò)56
- 5.2 P2P搜索理念56-57
- 5.3 交叉語言檢索57-58
- 5.4 全面智能化58-60
- 結(jié)論60-61
- 致謝61-62
- 參考文獻(xiàn)62-65
- 攻讀學(xué)位期間的研究成果65
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項(xiàng)目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報(bào)工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期
10 項(xiàng)鎮(zhèn);網(wǎng)頁設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會(huì)年會(huì)暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號(hào):429605
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/429605.html