網(wǎng)頁學(xué)習(xí)排序算法研究
[Abstract]:High-end advanced information technology, will bring us into a vast digital age. With the influx of data, search engines become more and more important. How to locate the information quickly from the massive data is very important. Search engine consists of many components, among which web page sorting is the core problem of search engine design. It determines the search engine ranking results and directly affects the performance and user experience of search engine. There are many sorting algorithms in the field of information retrieval, which can be classified as sample point level method model, sample to level method model and sample list level method model. Researchers have made a lot of contributions to these three methods, but the research of web page learning sorting algorithm is still in the hot stage. Aiming at the problem of web page learning ranking, this paper first establishes a web page learning sorting model based on SVM from sample point level and sample pair level, respectively. The solution uses the idea of cross test to select the parameters in the SVM model, at the same time, the kernel function selection analysis is carried out, and some characteristic data are selected for visualization and fractal dimension analysis in data analysis and processing. In order to eliminate the influence of data dimension, the preprocessing part is normalized. In this paper, the training samples are obtained by random sorting pairing method in the solution of SVM web page sorting model based on sample pair method. Then, the genetic algorithm optimization BP (BackPropagation) neural network learning scheduling model is established by heuristic method. The model uses the optimization ability of genetic algorithm to get better initial weight and threshold value of BP network, so as to improve the performance of BP network. In order to reduce the training complexity of BP network, the principal component analysis (PCA) is used to compress the training data, which can reduce the dimension of compressed data to the appropriate degree of BP network structure. Finally, a web page sorting model based on Boosting algorithm is established based on the idea of Boosting. The purpose of this model is to study the ability of the strong learning sorter on the basis of weak learning machine. The experiment is carried out on OHSUMED, a subset of LETOR data. The experimental results show that the learning ability of the sample to the hierarchical model is slightly higher than that of the sample point, and the genetic algorithm can improve the sorting accuracy of the model by optimizing the weights and thresholds of BP network, but the time cost is very large. The strong learning sorter in Boosting method can achieve good results.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王非;;基于Web鏈接矩陣的排序算法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2006年03期
2 曹軍;Google的PageRank技術(shù)剖析[J];情報(bào)雜志;2002年10期
3 蔣得虎;;搜索引擎技術(shù)分析——Google的PageRank技術(shù)剖析[J];科技資訊;2006年24期
4 李維君;;淺析搜索引擎技術(shù)——Google的PageRank技術(shù)剖析[J];新西部;2007年03期
5 余錦,史樹明;分布式網(wǎng)頁排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期
6 姜博;;網(wǎng)頁P(yáng)ageRank算法分析及主題相關(guān)性的改進(jìn)策略[J];中國(guó)科技信息;2010年22期
7 楊威;FrontPage98在企業(yè)Intranet中的應(yīng)用(六)[J];通信世界;1998年10期
8 盧峰;Frontpage 98的網(wǎng)頁編輯[J];電腦技術(shù);1999年03期
9 ;Web Painter 3.0功能完整的網(wǎng)頁繪圖及動(dòng)畫處理軟件[J];電子出版;1999年01期
10 李宗宏;如何利用FrontPage Express制作主頁[J];計(jì)算機(jī)時(shí)代;1999年11期
相關(guān)會(huì)議論文 前10條
1 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
2 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁和超鏈的分類[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
5 孔輝;梁洪亮;辛陽;楊義先;陳林順;;一種高性能的網(wǎng)頁篡改檢測(cè)與恢復(fù)機(jī)制[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年
7 李立宗;高鐵杠;陳蓉;陳超;;基于混沌系統(tǒng)的web信息隱藏研究與實(shí)現(xiàn)[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年
8 王玉龍;葉新銘;李秀華;;網(wǎng)頁優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
9 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
10 朱建國(guó);孫鐘德;劉婷;;地市級(jí)網(wǎng)絡(luò)管理監(jiān)控初探[A];“推進(jìn)氣象科技創(chuàng)新,提高防災(zāi)減災(zāi)和應(yīng)對(duì)氣候變化能力”——江蘇省氣象學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 任悅采寫 本報(bào)記者 方妍;照片買家說,網(wǎng)頁繁復(fù)不招喜歡[N];中國(guó)攝影報(bào);2009年
2 鳴澗;走近3D夢(mèng)幻網(wǎng)頁(3)[N];中國(guó)電腦教育報(bào);2002年
3 湖南 Ringfo;防止你的網(wǎng)頁被“偷拍”[N];電腦報(bào);2002年
4 路人甲;在網(wǎng)頁上圈圈點(diǎn)點(diǎn)[N];電腦報(bào);2004年
5 湖南 郭榮輝;網(wǎng)頁圖片保存四法[N];電子報(bào);2005年
6 鳴澗;初次握手3D網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年
7 李芳香;和網(wǎng)頁垃圾說再見[N];中國(guó)電腦教育報(bào);2002年
8 馬淑芬 記者 吳岳福;寶清 率先啟動(dòng)“村村通網(wǎng)頁”工程[N];黑龍江日?qǐng)?bào);2010年
9 鳴澗;網(wǎng)頁的編輯[N];中國(guó)電腦教育報(bào);2002年
10 遼寧 張策;滾動(dòng)的字幕 滾動(dòng)的網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 劉凱鵬;社會(huì)性標(biāo)注關(guān)鍵技術(shù)及其在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
2 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年
3 覃健誠(chéng);網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
4 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
5 黃小廣;港美經(jīng)濟(jì)關(guān)系研究[D];暨南大學(xué);2008年
6 郝凡昌;有向基因組復(fù)合操作重組排序算法研究[D];山東大學(xué);2011年
7 張振宇;基于Boosting算法的感知無線電決策研究及其應(yīng)用[D];貴州大學(xué);2009年
8 竇平安;電子商務(wù)語義信息共享模式[D];吉林大學(xué);2009年
9 農(nóng)慶琴;在線排序與路由安排[D];鄭州大學(xué);2006年
10 杜阿寧;互聯(lián)網(wǎng)輿情信息挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 鄧輝;網(wǎng)頁學(xué)習(xí)排序算法研究[D];華中科技大學(xué);2013年
2 張曉宇;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁過濾方法的研究[D];新疆大學(xué);2011年
3 楊碩;社交網(wǎng)頁游戲現(xiàn)象研究[D];山東藝術(shù)學(xué)院;2012年
4 王祥冰;個(gè)人網(wǎng)頁人際意義構(gòu)建的多模態(tài)分析[D];西南交通大學(xué);2012年
5 何正;網(wǎng)頁核心語義數(shù)據(jù)提取算法研究[D];華東師范大學(xué);2013年
6 李琦;基于層次聚類和網(wǎng)頁關(guān)系的人名消歧[D];山東大學(xué);2012年
7 蔣文;一種網(wǎng)頁過濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
8 孫學(xué)剛;面向奧運(yùn)的中文網(wǎng)頁信息獲取方法的初步研究[D];清華大學(xué);2004年
9 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長(zhǎng)沙理工大學(xué);2010年
10 楊楠;基于用戶習(xí)慣的網(wǎng)頁排序算法研究[D];大連交通大學(xué);2013年
本文編號(hào):2165987
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2165987.html