天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)頁學(xué)習(xí)排序算法研究

發(fā)布時(shí)間:2018-08-05 13:50
【摘要】:高端先進(jìn)的信息技術(shù),將我們帶入了一個(gè)浩如煙海的數(shù)字時(shí)代。大量數(shù)據(jù)的涌入使得搜索引擎變得越來越重要,如何從海量數(shù)據(jù)中快速定位所需信息顯得異常關(guān)鍵。搜索引擎包含多個(gè)組成部分,其中網(wǎng)頁排序是搜索引擎設(shè)計(jì)的核心問題,它決定著搜索引擎排序結(jié)果,直接影響著搜索引擎的性能和用戶體驗(yàn)。信息檢索領(lǐng)域有許多網(wǎng)頁排序算法,大致可歸類為樣本點(diǎn)級(jí)別方法模型、樣本對(duì)級(jí)別方法模型以及樣本列表級(jí)別方法模型。研究者們?cè)谶@三類方法中運(yùn)用多種算法做了很多貢獻(xiàn),然而對(duì)網(wǎng)頁學(xué)習(xí)排序算法的研究仍處于白熱化階段。 針對(duì)網(wǎng)頁學(xué)習(xí)排序問題,本文首先SVM(Support Vector Machine)分別從樣本點(diǎn)級(jí)別和樣本對(duì)級(jí)別建立了基于SVM的網(wǎng)頁學(xué)習(xí)排序模型。求解部分運(yùn)用交叉檢驗(yàn)的思想選擇SVM模型中的參數(shù),同時(shí)進(jìn)行了核函數(shù)選擇分析;在數(shù)據(jù)分析與處理時(shí),選取了部分特征數(shù)據(jù)進(jìn)行可視化以及數(shù)據(jù)分維分析,為消除數(shù)據(jù)量綱影響在預(yù)處理部分做了歸一化處理。在樣本對(duì)方法下的SVM網(wǎng)頁排序模型求解中,本文采用隨機(jī)排序配對(duì)方法得到訓(xùn)練樣本。接著,運(yùn)用啟發(fā)式方法建立了遺傳算法優(yōu)化BP(BackPropagation)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)排序模型。該模型利用遺傳算法的尋優(yōu)能力,得到較好的BP網(wǎng)絡(luò)初始權(quán)值和閾值,以提高BP網(wǎng)絡(luò)的性能。為減輕BP網(wǎng)絡(luò)訓(xùn)練復(fù)雜度,求解部分運(yùn)用主成分分析法將訓(xùn)練數(shù)據(jù)進(jìn)行了壓縮,,在保證較高的數(shù)據(jù)保真度時(shí)使壓縮后的數(shù)據(jù)維度降至使BP網(wǎng)絡(luò)結(jié)構(gòu)合適的程度。最后,基于Boosting思想建立了基于Boosting算法的網(wǎng)頁排序模型,旨在研究強(qiáng)學(xué)習(xí)排序器在弱學(xué)習(xí)機(jī)基礎(chǔ)上的提升能力。 本文在LETOR數(shù)據(jù)子集OHSUMED上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明樣本對(duì)級(jí)別模型的學(xué)習(xí)排序能力稍高于樣本點(diǎn)級(jí)別;遺傳算法優(yōu)化BP網(wǎng)絡(luò)權(quán)值與閾值能提高模型的排序精度,但時(shí)間開銷很大;Boosting方法中的強(qiáng)學(xué)習(xí)排序器能取得較好效果。
[Abstract]:High-end advanced information technology, will bring us into a vast digital age. With the influx of data, search engines become more and more important. How to locate the information quickly from the massive data is very important. Search engine consists of many components, among which web page sorting is the core problem of search engine design. It determines the search engine ranking results and directly affects the performance and user experience of search engine. There are many sorting algorithms in the field of information retrieval, which can be classified as sample point level method model, sample to level method model and sample list level method model. Researchers have made a lot of contributions to these three methods, but the research of web page learning sorting algorithm is still in the hot stage. Aiming at the problem of web page learning ranking, this paper first establishes a web page learning sorting model based on SVM from sample point level and sample pair level, respectively. The solution uses the idea of cross test to select the parameters in the SVM model, at the same time, the kernel function selection analysis is carried out, and some characteristic data are selected for visualization and fractal dimension analysis in data analysis and processing. In order to eliminate the influence of data dimension, the preprocessing part is normalized. In this paper, the training samples are obtained by random sorting pairing method in the solution of SVM web page sorting model based on sample pair method. Then, the genetic algorithm optimization BP (BackPropagation) neural network learning scheduling model is established by heuristic method. The model uses the optimization ability of genetic algorithm to get better initial weight and threshold value of BP network, so as to improve the performance of BP network. In order to reduce the training complexity of BP network, the principal component analysis (PCA) is used to compress the training data, which can reduce the dimension of compressed data to the appropriate degree of BP network structure. Finally, a web page sorting model based on Boosting algorithm is established based on the idea of Boosting. The purpose of this model is to study the ability of the strong learning sorter on the basis of weak learning machine. The experiment is carried out on OHSUMED, a subset of LETOR data. The experimental results show that the learning ability of the sample to the hierarchical model is slightly higher than that of the sample point, and the genetic algorithm can improve the sorting accuracy of the model by optimizing the weights and thresholds of BP network, but the time cost is very large. The strong learning sorter in Boosting method can achieve good results.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王非;;基于Web鏈接矩陣的排序算法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2006年03期

2 曹軍;Google的PageRank技術(shù)剖析[J];情報(bào)雜志;2002年10期

3 蔣得虎;;搜索引擎技術(shù)分析——Google的PageRank技術(shù)剖析[J];科技資訊;2006年24期

4 李維君;;淺析搜索引擎技術(shù)——Google的PageRank技術(shù)剖析[J];新西部;2007年03期

5 余錦,史樹明;分布式網(wǎng)頁排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期

6 姜博;;網(wǎng)頁P(yáng)ageRank算法分析及主題相關(guān)性的改進(jìn)策略[J];中國(guó)科技信息;2010年22期

7 楊威;FrontPage98在企業(yè)Intranet中的應(yīng)用(六)[J];通信世界;1998年10期

8 盧峰;Frontpage 98的網(wǎng)頁編輯[J];電腦技術(shù);1999年03期

9 ;Web Painter 3.0功能完整的網(wǎng)頁繪圖及動(dòng)畫處理軟件[J];電子出版;1999年01期

10 李宗宏;如何利用FrontPage Express制作主頁[J];計(jì)算機(jī)時(shí)代;1999年11期

相關(guān)會(huì)議論文 前10條

1 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

2 白清源;林錦賢;謝麗聰;;信息自動(dòng)獲取系統(tǒng)的研究[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識(shí)別新方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

4 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁和超鏈的分類[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

5 孔輝;梁洪亮;辛陽;楊義先;陳林順;;一種高性能的網(wǎng)頁篡改檢測(cè)與恢復(fù)機(jī)制[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年

6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年

7 李立宗;高鐵杠;陳蓉;陳超;;基于混沌系統(tǒng)的web信息隱藏研究與實(shí)現(xiàn)[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年

8 王玉龍;葉新銘;李秀華;;網(wǎng)頁優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年

9 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進(jìn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

10 朱建國(guó);孫鐘德;劉婷;;地市級(jí)網(wǎng)絡(luò)管理監(jiān)控初探[A];“推進(jìn)氣象科技創(chuàng)新,提高防災(zāi)減災(zāi)和應(yīng)對(duì)氣候變化能力”——江蘇省氣象學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集[C];2011年

相關(guān)重要報(bào)紙文章 前10條

1 任悅采寫 本報(bào)記者 方妍;照片買家說,網(wǎng)頁繁復(fù)不招喜歡[N];中國(guó)攝影報(bào);2009年

2 鳴澗;走近3D夢(mèng)幻網(wǎng)頁(3)[N];中國(guó)電腦教育報(bào);2002年

3 湖南 Ringfo;防止你的網(wǎng)頁被“偷拍”[N];電腦報(bào);2002年

4 路人甲;在網(wǎng)頁上圈圈點(diǎn)點(diǎn)[N];電腦報(bào);2004年

5 湖南 郭榮輝;網(wǎng)頁圖片保存四法[N];電子報(bào);2005年

6 鳴澗;初次握手3D網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年

7 李芳香;和網(wǎng)頁垃圾說再見[N];中國(guó)電腦教育報(bào);2002年

8 馬淑芬 記者 吳岳福;寶清 率先啟動(dòng)“村村通網(wǎng)頁”工程[N];黑龍江日?qǐng)?bào);2010年

9 鳴澗;網(wǎng)頁的編輯[N];中國(guó)電腦教育報(bào);2002年

10 遼寧 張策;滾動(dòng)的字幕 滾動(dòng)的網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年

相關(guān)博士學(xué)位論文 前10條

1 劉凱鵬;社會(huì)性標(biāo)注關(guān)鍵技術(shù)及其在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年

2 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年

3 覃健誠(chéng);網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年

4 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年

5 黃小廣;港美經(jīng)濟(jì)關(guān)系研究[D];暨南大學(xué);2008年

6 郝凡昌;有向基因組復(fù)合操作重組排序算法研究[D];山東大學(xué);2011年

7 張振宇;基于Boosting算法的感知無線電決策研究及其應(yīng)用[D];貴州大學(xué);2009年

8 竇平安;電子商務(wù)語義信息共享模式[D];吉林大學(xué);2009年

9 農(nóng)慶琴;在線排序與路由安排[D];鄭州大學(xué);2006年

10 杜阿寧;互聯(lián)網(wǎng)輿情信息挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 鄧輝;網(wǎng)頁學(xué)習(xí)排序算法研究[D];華中科技大學(xué);2013年

2 張曉宇;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁過濾方法的研究[D];新疆大學(xué);2011年

3 楊碩;社交網(wǎng)頁游戲現(xiàn)象研究[D];山東藝術(shù)學(xué)院;2012年

4 王祥冰;個(gè)人網(wǎng)頁人際意義構(gòu)建的多模態(tài)分析[D];西南交通大學(xué);2012年

5 何正;網(wǎng)頁核心語義數(shù)據(jù)提取算法研究[D];華東師范大學(xué);2013年

6 李琦;基于層次聚類和網(wǎng)頁關(guān)系的人名消歧[D];山東大學(xué);2012年

7 蔣文;一種網(wǎng)頁過濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

8 孫學(xué)剛;面向奧運(yùn)的中文網(wǎng)頁信息獲取方法的初步研究[D];清華大學(xué);2004年

9 黃輝;基于LSI和SVC的網(wǎng)頁文本分類算法研究[D];長(zhǎng)沙理工大學(xué);2010年

10 楊楠;基于用戶習(xí)慣的網(wǎng)頁排序算法研究[D];大連交通大學(xué);2013年



本文編號(hào):2165987

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2165987.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f534f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
久草国产精品一区二区| 亚洲中文字幕乱码亚洲| 91人妻人澡人人爽人人精品| 欧美极品欧美精品欧美| 国产熟女一区二区不卡| 出差被公高潮久久中文字幕| 久七久精品视频黄色的| 91精品蜜臀一区二区三区| 91香蕉视频精品在线看| 国产丝袜极品黑色高跟鞋| 人妻少妇系列中文字幕| 黑色丝袜脚足国产一区二区| 日韩一区欧美二区国产| 色综合视频一区二区观看| 熟女少妇久久一区二区三区| 高清一区二区三区大伊香蕉 | 男人和女人干逼的视频| 国产精品免费自拍视频| 午夜福利直播在线视频| 亚洲国产性感美女视频| 蜜桃传媒在线正在播放| 精品人妻一区二区三区免费看| 精品人妻一区二区三区免费| 日本精品中文字幕在线视频| 国产欧美日韩视频91| 日韩精品在线观看完整版| 黑人巨大精品欧美一区二区区| 亚洲a级一区二区不卡| 成人精品日韩专区在线观看| 国产精品亚洲一级av第二区| 欧美人禽色视频免费看| 午夜视频成人在线观看| 九九热视频经典在线观看| 青青操视频在线观看国产| 精品国产亚洲av成人一区| 丰满的人妻一区二区三区| 国产成人高清精品尤物| 99国产精品国产精品九九| 成人精品亚洲欧美日韩| 欧美精品日韩精品一区| 亚洲欧美一二区日韩高清在线|