基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究
本文關(guān)鍵詞:基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
電子科技大學(xué)
碩士學(xué)位論文
基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究
姓名:馬俊
申請(qǐng)學(xué)位級(jí)別:碩士
專(zhuān)業(yè):軟件工程
指導(dǎo)教師:吳躍
20060511
摘要
摘要
搜索引擎作為Internet上最主要的信息檢索工具,在各個(gè)領(lǐng)域都已得到廣泛應(yīng)用。然而由于網(wǎng)絡(luò)信息量的迅猛增加和網(wǎng)絡(luò)信息組織的無(wú)序性,傳統(tǒng)搜索引擎的信息檢索技術(shù)已經(jīng)無(wú)法滿(mǎn)足人們對(duì)信息服務(wù)個(gè)性化、智能化的需求。本文提出了專(zhuān)業(yè)信息服務(wù)的解決方案,并就方案中涉及到的關(guān)鍵技術(shù)進(jìn)行了深入研究。
基于正則表達(dá)式技術(shù)的信息搜索引擎系統(tǒng)實(shí)現(xiàn)搜索引擎的再發(fā)展。它擁有目前搜索引擎的絕大部分功能,同時(shí)它可以智能化的分析和保存網(wǎng)頁(yè)重要信息,因此其搜索精度高,并將搜索結(jié)果由頁(yè)面簡(jiǎn)化到有效信息。同時(shí),系統(tǒng)對(duì)搜索引擎的個(gè)性化進(jìn)行了大膽的嘗試,取得了相當(dāng)效果。由于其返回信息的高度簡(jiǎn)練,其使用范圍已經(jīng)從臺(tái)式機(jī)擴(kuò)展到了移動(dòng)終端。
本文首先分析了當(dāng)前搜索引擎的系統(tǒng)結(jié)構(gòu),在對(duì)目前大部分搜索引擎技術(shù)研究的基礎(chǔ)上,我們綜合其設(shè)計(jì)思路,給出了~套新的信息檢索系統(tǒng)的框架原型,它在現(xiàn)有搜索引擎的基礎(chǔ)上進(jìn)行了模塊優(yōu)化,形成了一套新的搜索引擎結(jié)構(gòu),并在傳統(tǒng)搜索引擎的基礎(chǔ)上增加了自學(xué)習(xí)功能。
其次對(duì)網(wǎng)頁(yè)中文信息處理的提取進(jìn)行了研究。使用了正則表達(dá)式和自學(xué)習(xí)相結(jié)合的方式,利用web結(jié)構(gòu)分析技術(shù)對(duì)網(wǎng)頁(yè)進(jìn)行結(jié)構(gòu)分析和模式匹配,力圖使系統(tǒng)擁有自動(dòng)分析大部分網(wǎng)頁(yè)并提取和歸類(lèi)保存其中關(guān)鍵信息的功能。
再次我們提出了~種適用于本系統(tǒng)數(shù)據(jù)庫(kù)架構(gòu)方式,在其中加入了策略庫(kù)部分以支持自學(xué)習(xí)系統(tǒng)。同時(shí)對(duì)設(shè)計(jì)到海量數(shù)據(jù)記錄的情況進(jìn)行了仿真試驗(yàn),得到了大量的寶貴經(jīng)驗(yàn)。
此外,系統(tǒng)在傳統(tǒng)中文分詞技術(shù)的基礎(chǔ)上,加入了網(wǎng)頁(yè)信息分析技術(shù),在原有詞庫(kù)的支持下,能夠達(dá)到正確、快速的中文分詞和新詞的分析提取。
文章最后初步研究了信息檢索中的個(gè)性化技術(shù)。通過(guò)對(duì)用戶(hù)提交的操作日志的處理,在橫向(信息熱度)和縱向(信息關(guān)聯(lián))的分析中,可以得到大量的有效信息并作為重要的網(wǎng)頁(yè)排名參考。關(guān)鍵詞:搜索引擎,正則表達(dá)式,自學(xué)習(xí)
Abs舡act
Abstract
mainkindofmethodtoretrieveinformationon工nternet,searchAsa
enginehasbeenusedwidelyinmanyfields.However,withtherapidlyincreasingofInternetinformation,thetraditionalsearchenginecannotmeetpeople’sdemandsonintelligentandpersonalizedinformationservice。Sothispaperputsforwardintelligentprofessionalinformationsearchengine,andputstheemphasis
withtheontheresearchofthecrucialretrievaltechnology
system.concerningintelligentinformation
Intelligentprofessional
toinformationsearchItcanenginemakeasaprogressthetechniqueofthesearchengine.
engine.
onbeusedatraditionalsavingthesearchAsithastheabilityitofanalyzingmoreandinformation
awebsintelligently,canworkaccuratelyandhasTnuchwidersearchrange.
aThissystemai。睿螅幔簦悖酰簦簦椋睿纾螅瑁铮颍簦簦瑁澹颍澹螅酰欤簦酰螅澹妫酰欤椋睿妫铮颍恚幔簦椋铮睿ぃ簦幔欤螅
ourofsearchfromawebtomoreexperiencestheindividuationofthesearchengineandachieves
ofthesuccinctnessofgoal.Becausetoo.theoutput,
theitcanbeusedinthemobiles,of
weThiengine.spaperAfteranalyzessystemofstructuretraditionalpromoteanewsearchfra柚eresearchmostsearchengine,
Itstructuretorealizethissystem.improvesallthemodulesofsearch
engine,
functionformstoanewsearchenginestructureandtrytoaddself1earningmoremakeitintelligent.
Paperalsocontains
ontheresearchesofprocessingoftheinformationitanalysesand
structure
saveswebs.WiththehelDofREsandselflearningsystem,structure,matcheswebs’analyzing.
information
Anewusingthetechnologycouldofwebs’upWithonthismodule,systempicksandkeywebsautomatic.isdatabasestructureisoffered.Thekeypart,strategylib,addedfortheself1earningfunction.Weexperienceitina11thethecasecases.ofmuchlargenumberofinformationjncluding.Ⅱ
Abs打act
ToimprovetheextractingwordsinChinese,werealize
basedonanewmethod,thewebtraditional
Itwordsdictionary,self1earningandanalyzing.
newcouldextractwordscorrectlyandrapidly,andidentifywords.
Attheend,paperdescribestherealizationofthepersonalization.Itcouldanalyzetheoperationlogs.Afteranalyzingthembreadthwise(Informationhotspot)andlengthways(informationrelationship),couldgetmuchusefulinformationforarrangingwebs.
Keywords:searchengine,REs,selflearningIIIit
獨(dú)創(chuàng)性聲明
本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說(shuō)明并表示謝意。
簽名:芻5瑩.日期:2∞6年f月心日
關(guān)于論文使用授權(quán)的說(shuō)明
本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán),允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。
(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)日期:如“年j月心日
本文關(guān)鍵詞:基于正則表達(dá)式技術(shù)的信息搜集引擎應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):216578
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/216578.html