基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn)
本文關(guān)鍵詞:基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
《蘇州大學》 2008年
基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn)
劉忠
【摘要】: 本文將強化學習方法引入到垂直搜索引擎網(wǎng)絡爬蟲中,設計實現(xiàn)了面向餐飲業(yè)的基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲RL-Spider(Reinforcement Learning Spider)。建立了RL-Spider的流程架構(gòu),并設計實現(xiàn)了面向餐飲業(yè)的垂直搜索引擎RL-Searcher(Reinforcement Learning Searcher)原型系統(tǒng)。本文主要包括以下幾方面內(nèi)容: (1)針對傳統(tǒng)搜索引擎爬蟲程序抓取信息全但不夠細化的特點,設計了一個面向餐飲業(yè)領(lǐng)域的聚焦爬蟲。提出了基于強化學習的網(wǎng)絡爬蟲算法,并應用于餐飲類站點的發(fā)現(xiàn)中。實驗表明,該系統(tǒng)在信息查全率、查準率等方面都有較大的提高。 (2)針對網(wǎng)絡爬蟲在URL提取過程中,采用深度、寬度搜索策略等方法,容易使網(wǎng)絡爬蟲陷入“維數(shù)災”問題,在研究邏輯程序設計與強化學習方法結(jié)合的基礎上,提出了基于邏輯強化學習的網(wǎng)絡自主搜索方法,并在RL-Spider中得到了應用。實驗表明,系統(tǒng)在大規(guī)模網(wǎng)絡爬蟲中,可大幅度提高網(wǎng)絡自主搜索效率。 (3)針對在RL-Spider中,“主題網(wǎng)頁發(fā)現(xiàn)”等方面的問題,根據(jù)強化學習的自身策略,實現(xiàn)了強化學習在“主題網(wǎng)頁發(fā)現(xiàn)”中的應用,并提出Detail頁的URL識別算法。實驗表明,該算法能夠大幅度地提高“主題網(wǎng)頁發(fā)現(xiàn)”的準確率。 (4)在RL-Spider架構(gòu)的Detail模塊中,對Detail頁面的關(guān)鍵信息進行提取,如Title、Meta、文本信息等,并建立索引、去除無關(guān)信息、建立網(wǎng)頁快照,采用Lucene建立索引,供查詢系統(tǒng)調(diào)用。 (5)設計實現(xiàn)了一個面向餐飲業(yè)的垂直搜索引擎原型系統(tǒng)RL-Searcher,并利用該系統(tǒng)對RL-Spider的抓取效果進行了驗證和實驗數(shù)據(jù)分析。
【關(guān)鍵詞】:
【學位授予單位】:蘇州大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:TP393.092
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學;2011年
2 崔金國;基于蟻群算法的主題爬蟲技術(shù)研究與實現(xiàn)[D];成都理工大學;2010年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 歐陽柳波,李學勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計算機工程;2004年13期
2 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應用;2005年09期
3 張汝波,顧國昌,劉照德,王醒策;強化學習理論、算法及應用[J];控制理論與應用;2000年05期
4 鄧順國;試論搜索引擎的發(fā)展趨勢[J];圖書館理論與實踐;2003年05期
5 高陽,陳世福,陸鑫;強化學習研究綜述[J];自動化學報;2004年01期
6 蔣國飛,吳滄浦;基于Q學習算法和BP神經(jīng)網(wǎng)絡的倒立擺控制[J];自動化學報;1998年05期
7 高志奎,曹錦丹;對中文網(wǎng)站信息分類體系的調(diào)查與比較[J];圖書館學研究;2003年12期
8 閻平凡;;再勵學習——原理、算法及其在智能控制中的應用[J];信息與控制;1996年01期
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 李學勇;基于鞏固學習的網(wǎng)絡蜘蛛搜索策略研究[D];湖南大學;2003年
2 高嶺;Deep Web分類搜索引擎關(guān)鍵技術(shù)研究[D];蘇州大學;2007年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應用[J];安徽農(nóng)業(yè)科學;2007年22期
2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡爬蟲的設計[J];安徽農(nóng)業(yè)科學;2009年20期
3 陳文;基于決策樹的入侵檢測的實現(xiàn)[J];安徽技術(shù)師范學院學報;2005年05期
4 彭莉芬;陳俊生;胡學鋼;;基于粗糙集決策樹算法的研究[J];安慶師范學院學報(自然科學版);2012年01期
5 張峰;王金超;陳雪波;;機器人隊形控制中的二叉樹方法[J];遼寧科技大學學報;2010年05期
6 趙玉鵬;;論機器學習[J];安陽工學院學報;2011年04期
7 胡玉新,李宇成;模糊控制系統(tǒng)的模擬調(diào)試[J];北方工業(yè)大學學報;1999年03期
8 孫雪;李昆侖;胡夕坤;趙瑞;;基于半監(jiān)督K-means的K值全局尋優(yōu)算法[J];北京交通大學學報;2009年06期
9 張冬梅;劉強;;一種基于強化學習的傳感器網(wǎng)絡應用重構(gòu)決策方法[J];北京交通大學學報;2010年03期
10 廉捷;劉云;;網(wǎng)絡輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉智勇;馬鳳偉;;城市交通信號的在線強化學習控制[A];第二十六屆中國控制會議論文集[C];2007年
2 王紅;周越;;移動機器人的分層式運動規(guī)劃方法研究[A];第二十七屆中國控制會議論文集[C];2008年
3 仲朝亮;劉士榮;呂強;;RobSim:一種多移動機器人仿真系統(tǒng)[A];第二十七屆中國控制會議論文集[C];2008年
4 付佳;王美玲;楊毅;周培德;;基于計算幾何算法的多智能體快速編隊[A];第二十九屆中國控制會議論文集[C];2010年
5 ;Sample-Based Potentials Estimation for the Optimal Control of Stochastic System[A];中國自動化學會控制理論專業(yè)委員會D卷[C];2011年
6 張超;王少萍;;自動導航模塊控制系統(tǒng)設計[A];第五屆全國流體傳動與控制學術(shù)會議暨2008年中國航空學會液壓與氣動學術(shù)會議論文集[C];2008年
7 張敏;陸向艷;周敏;潘林琳;農(nóng)冬冬;王彬彬;陳曉江;;數(shù)據(jù)挖掘在智能題庫系統(tǒng)中的應用[A];廣西計算機學會2004年學術(shù)年會論文集[C];2004年
8 唐昊;周雷;陸陽;袁繼彬;;SMDP基于TD(λ)學習的統(tǒng)一神經(jīng)元動態(tài)規(guī)劃優(yōu)化方法[A];2005中國控制與決策學術(shù)年會論文集(上)[C];2005年
9 李鑫;井元偉;;基于強化學習方法的ATM擁塞控制器的設計[A];2007中國控制與決策學術(shù)年會論文集[C];2007年
10 林岳松;王俊宏;薛安克;;二級倒立擺的簡易多PD控制算法[A];第二十一屆中國控制會議論文集[C];2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 張子迎;多機器人協(xié)作及環(huán)境建模技術(shù)研究[D];哈爾濱工程大學;2009年
2 王作為;具有認知能力的智能機器人行為學習方法研究[D];哈爾濱工程大學;2010年
3 全惠敏;電能質(zhì)量相關(guān)信號的S變換檢測算法及應用研究[D];湖南大學;2010年
4 高山;蛋白質(zhì)點突變效果預測與突變數(shù)據(jù)庫研究[D];南開大學;2010年
5 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年
6 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年
7 田建偉;面向領(lǐng)域的高質(zhì)量Deep Web數(shù)據(jù)集成技術(shù)研究[D];武漢大學;2010年
8 曹葵康;支持向量機加速方法及應用研究[D];浙江大學;2010年
9 林龍信;仿生水下機器人的增強學習控制方法研究[D];國防科學技術(shù)大學;2010年
10 張翔;文本挖掘技術(shù)研究及其在綜合風險信息網(wǎng)絡中的應用[D];西北大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 何慧娟;基于多傳感器的移動機器人障礙物檢測與定位研究[D];安徽工程大學;2010年
2 李金華;基于SVM的多類文本分類研究[D];山東科技大學;2010年
3 呂芳芳;基于查詢擴展的垂直搜索研究[D];山東科技大學;2010年
4 韓曉峰;高斯混合模型及在探測網(wǎng)絡社區(qū)結(jié)構(gòu)中的應用[D];山東科技大學;2010年
5 楊勇;基于SOA的浙江永康某小家電企業(yè)應用系統(tǒng)集成平臺開發(fā)與應用[D];浙江理工大學;2010年
6 王利明;一種基于PMIPv6的智能輔助高效切換方案[D];鄭州大學;2010年
7 沈揚;協(xié)商僵局消解優(yōu)化問題研究[D];鄭州大學;2010年
8 左維松;規(guī)則和統(tǒng)計相結(jié)合的篇章情感傾向性分析研究[D];鄭州大學;2010年
9 張家飛;機器人群體協(xié)同任務規(guī)劃與協(xié)調(diào)避碰[D];哈爾濱工程大學;2010年
10 姜輝;二級倒立擺控制方法研究[D];哈爾濱工程大學;2010年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹元大,賀海軍,涂哲明;中文Web文檔全文檢索系統(tǒng)的設計及實現(xiàn)[J];北京理工大學學報;2002年01期
2 劉德仿;王斌;;面向教學領(lǐng)域的智能搜索引擎的研究與開發(fā)[J];電化教育研究;2007年05期
3 趙喜樂;陳光;;垂直搜索引擎的抓取系統(tǒng)——基于網(wǎng)絡蜘蛛技術(shù)[J];電腦知識與技術(shù);2009年19期
4 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
5 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應用[J];計算機應用與軟件;2009年01期
6 李廣麗;張紅斌;;面向計算機教育資源的垂直搜索引擎系統(tǒng)的設計[J];情報理論與實踐;2010年05期
7 孫庚;馮艷紅;于紅;史鵬輝;;一種基于Heritrix的網(wǎng)絡定題爬蟲算法——以漁業(yè)信息網(wǎng)絡為例[J];軟件導刊;2010年05期
8 王冬;雷景生;李壯;;基于PageRank的頁面排序改進算法[J];計算機工程與設計;2008年22期
9 段淮川;胡平;;基于主題特征和時間因子的改進PageRank算法[J];計算機工程與設計;2010年04期
10 王春花;朱俊平;;改進的非平均傳遞權(quán)值PageRank算法[J];計算機工程與設計;2010年10期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應用[D];大連理工大學;2005年
2 劉平冰;基于Lucene的Web站內(nèi)信息搜索系統(tǒng)[D];電子科技大學;2005年
3 謝琴;蟻群算法在Web日志挖掘中的研究與應用[D];重慶大學;2006年
4 黃峰;基礎教育搜索引擎中的網(wǎng)頁文檔特征提取研究[D];南京師范大學;2006年
5 陳寧;Lucene全文檢索在網(wǎng)絡教學平臺中的應用研究[D];大連海事大學;2007年
6 薛建春;垂直搜索引擎中網(wǎng)絡蜘蛛的設計與實現(xiàn)[D];中國地質(zhì)大學(北京);2007年
7 潘亭瀝;基于Lucene的面向商業(yè)應用的搜索引擎研究與實現(xiàn)[D];電子科技大學;2007年
8 呂昊;面向垂直搜索的聚焦爬蟲研究及應用[D];浙江大學;2008年
9 張宏松;基于Lucene的web站內(nèi)英文PDF文檔全文檢索研究[D];遼寧工程技術(shù)大學;2007年
10 李沛環(huán);基于Lucene的搜索引擎的設計和優(yōu)化[D];吉林大學;2008年
【二級引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前4條
1 陳永彬;基于聚焦爬蟲技術(shù)的教學資源搜集與自動整理方法研究[D];東北師范大學;2011年
2 張倩;弓形蟲Rhomboid基因重組卡介苗的研制[D];吉林大學;2012年
3 張倩;教育信息垂直搜索引擎的研究[D];吉林大學;2012年
4 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實現(xiàn)[D];北京交通大學;2012年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 蘇瑞竹,吳英姿;論網(wǎng)絡信息資源的組織[J];廣西民族學院學報(自然科學版);2001年04期
2 柳曉春,左少凝;知識組織與網(wǎng)絡資源分類的現(xiàn)狀與展望[J];高校圖書館工作;2001年04期
3 楊璐,洪家榮,黃梯云;用加強學習方法解決基于神經(jīng)網(wǎng)絡的時序?qū)崟r建模問題[J];哈爾濱工業(yè)大學學報;1996年04期
4 高陽,周志華,何佳洲,陳世福;基于Markov對策的多Agent強化學習模型及算法研究[J];計算機研究與發(fā)展;2000年03期
5 李寧,高陽,陸鑫,陳世福;一種基于強化學習的學習Agent[J];計算機研究與發(fā)展;2001年09期
6 張汝波,周寧,顧國昌,張國印;基于強化學習的智能機器人避碰方法研究[J];機器人;1999年03期
7 余芳;一個基于樸素貝葉斯方法的web文本分類系統(tǒng):WebCAT[J];計算機工程與應用;2004年13期
8 郭茂祖;陳彬;王曉龍;洪家榮;;加強學習[J];計算機科學;1998年03期
9 許建潮,胡明;中文Web文本的特征獲取與分類[J];計算機工程;2005年08期
10 樊興華;孫茂松;;一種高性能的兩類中文文本分類方法[J];計算機學報;2006年01期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 莊芯;;風投押寶垂直搜索 各方巨頭介入又添疑點[J];IT時代周刊;2008年01期
2 顧鵬堯;;讓搜索引擎更好地服務于教育教學[J];科學24小時;2003年Z1期
3 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期
4 胡文勝;;垂直搜索助號碼百事通與商務領(lǐng)航[J];每周電腦報;2006年32期
5 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
6 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
7 牟思;;基于垂直搜索引擎的學校網(wǎng)站的研究與建設[J];中國教育技術(shù)裝備;2011年21期
8 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
9 胡文勝;;垂直搜索助號碼百事通與商務領(lǐng)航[J];每周電腦報;2006年31期
10 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學會第十七屆信息論學術(shù)年會論文集[C];2010年
2 文鋒;陳宗海;陳春林;;基于RLS-TD和值梯度的強化學習方法用于LQR控制問題[A];’2004系統(tǒng)仿真技術(shù)及其應用學術(shù)交流會論文集[C];2004年
3 卓睿;陳宗海;陳春林;;強化學習在移動機器人導航上的應用[A];’2004系統(tǒng)仿真技術(shù)及其應用學術(shù)交流會論文集[C];2004年
4 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
5 張偉;李建更;張家旺;;多智能體強化學習在機器人足球比賽中的應用[A];2005年中國智能自動化會議論文集[C];2005年
6 陳春林;陳宗海;卓睿;;分層式強化學習的定性空間表達[A];’2004系統(tǒng)仿真技術(shù)及其應用學術(shù)交流會論文集[C];2004年
7 張家旺;韓光勝;張偉;;基于ASPL模型的多智能體強化學習在RoboCup中的應用[A];2005中國機器人大賽論文集[C];2005年
8 敬斌;田野;;Robocup中的傳球策略[A];2005中國機器人大賽論文集[C];2005年
9 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
10 涂自然;王維;梁以業(yè);禹建麗;;基于強化學習的自適應變步長機器人路徑規(guī)劃算法[A];2003年中國智能自動化會議論文集(上冊)[C];2003年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 孫佳宇;[N];人民公安報;2009年
2 首席記者 朱麗華;[N];盤錦日報;2009年
3 王良豪 記者 劉偉 龍先華;[N];六盤水日報;2008年
4 書分;[N];焦作日報;2006年
5 記者 劉琰;[N];周口日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
7 王艷;[N];中國旅游報;2000年
8 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
9 王靖;[N];人民日報海外版;2000年
10 譚育才;[N];赤峰日報;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術(shù)大學;2012年
4 金釗;加速強化學習方法研究[D];云南大學;2010年
5 徐明亮;強化學習及其應用研究[D];江南大學;2010年
6 陳學松;強化學習及其在機器人系統(tǒng)中的應用研究[D];廣東工業(yè)大學;2011年
7 仲宇;分布式強化學習理論及在多機器人中的應用研究[D];哈爾濱工程大學;2003年
8 李誌;基于視覺聽覺語義相干性的強化學習系統(tǒng)的研究[D];太原理工大學;2012年
9 郭慶;多Agent系統(tǒng)協(xié)商中若干關(guān)鍵技術(shù)的研究[D];浙江大學;2003年
10 戴朝暉;基于混合抽象機制的多智能體系統(tǒng)動態(tài)分層強化學習算法研究[D];中南大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉忠;基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn)[D];蘇州大學;2008年
2 尹曉虎;多Agent協(xié)同的強化學習方法研究[D];國防科學技術(shù)大學;2003年
3 宋梅萍;多移動機器人協(xié)作任務的分布式?jīng)Q策控制系統(tǒng)[D];哈爾濱工程大學;2003年
4 盧方國;強化學習在個性化信息Agent的應用研究[D];廣東工業(yè)大學;2004年
5 郭一明;基于強化學習的劣化系統(tǒng)維修策略研究[D];合肥工業(yè)大學;2011年
6 錢征;基于強化學習的倒立擺控制研究[D];北京工業(yè)大學;2005年
7 王瑞霞;基于強化學習的倒立擺控制[D];北京工業(yè)大學;2005年
8 顧鑫;個性化智能信息檢索系統(tǒng)研究[D];哈爾濱工程大學;2004年
9 張馳;基于ROBOCUP的多智能體系統(tǒng)設計與實現(xiàn)[D];北京工業(yè)大學;2004年
10 袁繼彬;大規(guī)模Markov系統(tǒng)基于性能勢學習的NDP優(yōu)化方法研究[D];合肥工業(yè)大學;2005年
本文關(guān)鍵詞:基于強化學習的垂直搜索引擎網(wǎng)絡爬蟲的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:51947
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/51947.html