基于網(wǎng)頁相似度的搜索算法改進的研究
本文關鍵詞:基于XML的異構產(chǎn)品信息網(wǎng)上交換、檢索技術研究與應用,,由筆耕文化傳播整理發(fā)布。
《上海師范大學》 2015年
基于網(wǎng)頁相似度的搜索算法改進的研究
敖志敏
【摘要】:伴隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡中信息量成指數(shù)級增長,這使得用戶獲取信息變得越來越困難。為了更好的使用互聯(lián)網(wǎng)中龐雜的資源,搜索引擎應運而生。通常評價搜索引擎的性能的標準是用戶對搜索引擎的滿意度,而用戶在使用搜索引擎進行搜索時,一般會優(yōu)先選擇點擊排名相對靠前的網(wǎng)頁,因此對搜索引擎的搜索結果進行合理的排序會顯著提升搜索引擎的用戶體驗。知名度最高的搜索引擎Google采用的網(wǎng)頁排序算法就是Page Rank排序算法。Page Rank算法被廣泛應用于度量網(wǎng)頁的重要性,但是傳統(tǒng)的Page Rank算法在計算過程中忽略了一些可能影響網(wǎng)頁重要性的因素,存在多方面的缺陷。本文基于網(wǎng)頁相似度對Google著名的Page Rank排序算法進行研究。首先闡述了Page Rank算法的研究背景及意義和國內(nèi)外關于Page Rank算法的研究現(xiàn)狀,介紹了搜索引擎的發(fā)展歷程、工作方式和評判標準,然后著重剖析了Page Rank算法原理。經(jīng)典的網(wǎng)頁鏈接分析算法Page Rank將“每個鏈接代表一個網(wǎng)頁作者對所指向的網(wǎng)頁的一種獨立的認可”作為算法的前提條件,但是傳統(tǒng)的Page Rank算法的一個主要缺陷是將一個網(wǎng)頁的Page Rank權值平均分配到所有的出鏈上,并沒有考慮網(wǎng)頁的語義信息,以此為基礎提出一種基于網(wǎng)頁相似度的Page Rank算法的改進,通過相似度權重來分配Page Rank權值,相似度包含網(wǎng)頁文本相似度和網(wǎng)頁鏈接相似度兩部分。由于考慮了出鏈頁面與目標網(wǎng)頁的相似度信息,從而不僅提高網(wǎng)頁的重要性的準確度,而且使得檢索到的排序結果的查準率更高。最后,為了驗證改進算法的性能和效率,本文實驗部分借助開源搜索引擎Iveely在互聯(lián)網(wǎng)真實環(huán)境中請一些用戶進行實驗測試。小范圍的用戶測試結果表明:融入了網(wǎng)頁文本相似度和網(wǎng)頁鏈接相似度的改進算法之后,提高了搜索結果的查準率和用戶滿意度。
【關鍵詞】:
【學位授予單位】:上海師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3;TP393.092
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期
2 龐紅美;劉宏志;;基于PageRank算法的信息工程安全監(jiān)理風險評估研究[J];計算機安全;2014年08期
3 王繼成,潘金貴,張福炎;Web文本挖掘技術研究[J];計算機研究與發(fā)展;2000年05期
4 張嶺,馬范援;加速評估算法:一種提高Web結構挖掘質(zhì)量的新方法[J];計算機研究與發(fā)展;2004年01期
5 何明;周軍;李樹友;;語義相似的PageRank改進算法[J];計算機工程與應用;2009年27期
6 姚文琳;劉文;;一種基于本體的PageRank算法的改進策略[J];計算機工程;2009年06期
7 宋聚平,王永成,尹中航,滕偉;對網(wǎng)頁PageRank算法的改進[J];上海交通大學學報;2003年03期
8 黃德才;戚華春;錢能;;基于主題相似度模型的TS-PageRank算法[J];小型微型計算機系統(tǒng);2007年03期
9 劉雙君;金小峰;崔榮一;;基于幀符號化的語音相似性度量方法[J];延邊大學學報(自然科學版);2014年01期
中國碩士學位論文全文數(shù)據(jù)庫 前8條
1 袁方;基于改進PageRank算法的個性化搜索的研究[D];北京郵電大學;2012年
2 王飛;Web挖掘中超文本分類的研究與實現(xiàn)[D];西北工業(yè)大學;2006年
3 劉瑋瑋;搜索引擎中主題爬蟲的研究與實現(xiàn)[D];南京理工大學;2006年
4 唐劍波;Web文本挖掘中的文本分類研究[D];湖南大學;2007年
5 方旭;基于鏈接相似度的網(wǎng)頁排序算法研究[D];南京理工大學;2008年
6 袁瑞紅;基于語義相似度的WEB結構挖掘研究及實現(xiàn)[D];南京理工大學;2009年
7 李稚楹;基于網(wǎng)頁內(nèi)容和時間反饋的網(wǎng)頁排序PageRank算法研究[D];重慶理工大學;2012年
8 鄧珺;隱藏頁面檢測系統(tǒng)的研究與實現(xiàn)[D];湖南大學;2013年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 錢立三;WEB日志挖掘在遠程開放教育中的應用[J];安徽廣播電視大學學報;2005年03期
2 鐘曉旭;胡學鋼;;基于數(shù)據(jù)挖掘的Web招聘信息相關性分析[J];安徽建筑工業(yè)學院學報(自然科學版);2010年04期
3 武旭,須德;基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn)[J];北方交通大學學報;2003年02期
4 胡健;楊炳儒;宋澤鋒;錢榕;;基于非結構化數(shù)據(jù)挖掘結構模型的Web文本聚類算法[J];北京科技大學學報;2008年02期
5 暴海龍,李金林;專利檢索中的IPC和主題詞識別方法研究[J];北京理工大學學報(社會科學版);2003年05期
6 謝秋華;;Web文本挖掘的相關技術問題探討[J];長春理工大學學報;2010年07期
7 賈丙靜;吳長勤;葛華;;Web文本聚類的研究與實現(xiàn)[J];長春師范學院學報;2011年06期
8 黎孟雄;;基于移動Agent的教學資源智能采集系統(tǒng)的研究[J];長春大學學報;2010年12期
9 王志明;沙莎;;Web文本挖掘技術在新聞主題檢測中的應用研究[J];長沙大學學報;2007年05期
10 李淑領;;網(wǎng)絡社區(qū)中的虛擬身份挖掘[J];滄州師范?茖W校學報;2008年03期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 代廣珍;徐超;;基于Web的數(shù)據(jù)挖掘研究綜述[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 雷育生;甘仞初;楊軍;;一種基于用戶偏好的虛擬網(wǎng)站信息結構自適應調(diào)整算法[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學術會議論文集[C];2007年
3 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評估[A];全國計算機安全學術交流會論文集·第二十五卷[C];2010年
4 王丹;蔡紅柳;王斌;;基于混沌序列的數(shù)字水印算法[A];第一屆中國高校通信類院系學術研討會論文集[C];2007年
5 付延強;韓慧健;;HHME:基于形式概念分析的中文FAQ問答系統(tǒng)[A];第八屆和諧人機環(huán)境聯(lián)合學術會議(HHME2012)論文集NCMT[C];2012年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 牟向偉;模糊語義個性化推薦系統(tǒng)在電子政務中的應用研究[D];大連海事大學;2010年
2 熊回香;面向Web3.0的大眾分類研究[D];華中師范大學;2011年
3 楊瑞龍;基于短語特征的Web文檔聚類方法研究[D];重慶大學;2010年
4 代勁;云模型在文本挖掘應用中的關鍵問題研究[D];重慶大學;2011年
5 簡(王爭)峰;基于XML的異構產(chǎn)品信息網(wǎng)上交換、檢索技術研究與應用[D];浙江大學;2002年
6 陳定權;自動主題搜索的應用研究[D];中國科學院研究生院(文獻情報中心);2003年
7 李四明;基于智能Agent的網(wǎng)上農(nóng)業(yè)信息挖掘研究[D];中國農(nóng)業(yè)大學;2003年
8 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年
9 常明山;面向大規(guī)模定制產(chǎn)品規(guī)劃關鍵技術的研究[D];天津大學;2003年
10 徐建鎖;知識管理和文本挖掘的若干問題研究[D];天津大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 呂晨;搜索競價廣告關鍵詞優(yōu)化問題研究[D];山東科技大學;2010年
2 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年
3 范丹;Web檢索中的查詢擴展及結果聚類技術研究[D];遼寧師范大學;2010年
4 孫原;基于酉變換的權威頁面挖掘算法研究[D];哈爾濱工程大學;2010年
5 吳世勇;基于聚類分析的搜索引擎自動性能評價研究[D];江西師范大學;2010年
6 程淑玉;基于協(xié)同過濾算法的個性化推薦系統(tǒng)的研究[D];合肥工業(yè)大學;2010年
7 鐘曉旭;基于Web招聘信息的文本挖掘系統(tǒng)研究[D];合肥工業(yè)大學;2010年
8 周緒倩;基于電子商務的Web數(shù)據(jù)挖掘系統(tǒng)架構研究[D];河北工程大學;2010年
9 艾偉;基于本體的Web信息文本挖掘與檢索服務研究[D];北京信息控制研究所;2010年
10 姜曉偉;粒子群算法在查詢優(yōu)化中的應用[D];哈爾濱理工大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳智;錢言玉;;基于用戶興趣的個性化搜索引擎研究[J];合肥師范學院學報;2010年03期
2 張雷;顧文紅;王曉雪;鄭常輝;;高等級公路邊坡工程風險因子識別及評估[J];地下空間與工程學報;2007年S1期
3 李超;熊璋;朱成軍;;基于距離相關圖的音頻相似性度量方法[J];北京航空航天大學學報;2006年02期
4 郭力軍;朱群雄;;基于RSS數(shù)據(jù)源的用戶興趣模型改進及應用[J];北京化工大學學報(自然科學版);2011年01期
5 趙全東;王芳;任力生;;農(nóng)業(yè)智能問答系統(tǒng)中的用戶偏好研究[J];河北農(nóng)業(yè)大學學報;2011年01期
6 伊雯雯;何福男;;基于用戶瀏覽行為的用戶興趣模型的表示及更新[J];常州信息職業(yè)技術學院學報;2010年04期
7 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學學報;2005年02期
8 荊濟學;張偉;;淺談如何利用Google高效搜索[J];電腦知識與技術;2010年19期
9 劉宏志;鄧小云;劉宣旭;張斌;毛典輝;;基于可拓集的軟件工程安全監(jiān)理的研究[J];計算機安全;2011年12期
10 王灝,黃厚寬,田盛豐;文本分類實現(xiàn)技術[J];廣西師范大學學報(自然科學版);2003年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 徐志明;宋毅;馮子威;李生;;一種基于分類的用戶興趣模型[A];第六屆全國信息檢索學術會議論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 陳定權;自動主題搜索的應用研究[D];中國科學院研究生院(文獻情報中心);2003年
2 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
3 張健毅;大規(guī)模反釣魚識別引擎關鍵技術研究[D];北京郵電大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應用[D];大連理工大學;2011年
2 胡毅;搜索引擎優(yōu)化及其應用研究[D];云南大學;2011年
3 薛鵬軍;基于知識庫的中文網(wǎng)絡檢索工具——經(jīng)濟信息智能搜索引擎研究[D];南京農(nóng)業(yè)大學;2001年
4 劉峰;通用中英文專業(yè)搜索引擎技術的研究及應用[D];大連理工大學;2004年
5 劉潔清;網(wǎng)站聚焦爬蟲研究[D];江西財經(jīng)大學;2006年
6 陳潔惠;搜索引擎排序算法的研究[D];河海大學;2007年
7 蔣科;基于領域概念定制的主題爬蟲系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2007年
8 徐金雷;專業(yè)搜索引擎的排序算法研究[D];南京師范大學;2007年
9 李佳;基于知網(wǎng)的中文本體映射研究[D];北京郵電大學;2007年
10 張真;基于語義相似度的中文文本分類系統(tǒng)的研究與實現(xiàn)[D];大連海事大學;2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設計之特性分析[J];山東省農(nóng)業(yè)管理干部學院學報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關問題研究[J];圖書館建設;2009年12期
3 蔣桂梅;;網(wǎng)頁設計的藝術性[J];電腦知識與技術;2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術研究:現(xiàn)狀與總結[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設計與實現(xiàn)[J];計算機光盤軟件與應用;2012年18期
8 何立波;周世波;;網(wǎng)頁設計中的藝術研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術[J];計算機應用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設計新概念[J];江西教育學院學報(自然科學);2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設計的藝術性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結構的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結構挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;[N];中國氣象報;2012年
2 壯壯;[N];電腦報;2004年
3 羅震宇 嚴小斌;[N];中國冶金報;2011年
4 錢鵬;[N];電腦報;2004年
5 星之海洋;[N];電腦報;2004年
6 河南 張金貴;[N];電腦報;2001年
7 楓爾;[N];中國證券報;2004年
8 飄零劍客;[N];中國電腦教育報;2004年
9 八戒;[N];電腦報;2013年
10 ;[N];電腦報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學;2015年
2 吉向文;標簽樹模板在網(wǎng)頁關鍵信息抽取及話題識別中的應用[D];復旦大學;2009年
3 楊旭蘭;色彩在網(wǎng)頁設計中的應用研究[D];南京林業(yè)大學;2009年
4 賈曉建;基于統(tǒng)計的網(wǎng)頁質(zhì)量評價技術研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2008年
5 王璟琦;基于內(nèi)容單元的網(wǎng)頁解析與內(nèi)容提取[D];哈爾濱工業(yè)大學;2008年
6 劉中華;網(wǎng)頁設計中信息的視覺傳達研究[D];湖北工業(yè)大學;2009年
7 文勝;基于網(wǎng)頁結構的查詢結果聚類[D];華南理工大學;2010年
8 胡金棟;網(wǎng)頁正文提取及去重技術研究[D];浙江大學;2011年
9 衛(wèi)捷;“留白”理念在現(xiàn)代網(wǎng)頁設計中的映射[D];河南大學;2011年
10 牛娟娟;搜索引擎系統(tǒng)中網(wǎng)頁消重的研究與實現(xiàn)[D];河南大學;2011年
本文關鍵詞:基于XML的異構產(chǎn)品信息網(wǎng)上交換、檢索技術研究與應用,由筆耕文化傳播整理發(fā)布。
本文編號:174477
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/174477.html