天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于搜索引擎的郵址搜集軟件開發(fā)

發(fā)布時(shí)間:2017-10-14 19:08

  本文關(guān)鍵詞:基于搜索引擎的郵址搜集軟件開發(fā)


  更多相關(guān)文章: 搜索引擎 郵址提取 HtmlParser框架 正則表達(dá)式


【摘要】:在百度、谷歌等現(xiàn)有搜索引擎基礎(chǔ)上,利用HtmlParser開源框架,用Java語言開發(fā)了一種基于搜索引擎關(guān)鍵字的郵址搜集軟件。提取郵址的過程包括頁面鏈接的獲取和頁面郵址的提取。在獲取頁面鏈接階段,首先拼接初始鏈接,然后獲取分頁鏈接,之后再利用HtmlParser解析深層鏈接。在頁面郵址提取階段,則利用正則表達(dá)式匹配頁面源碼獲取郵箱地址。
【作者單位】: 浙江理工大學(xué);
【關(guān)鍵詞】搜索引擎 郵址提取 HtmlParser框架 正則表達(dá)式
【分類號(hào)】:TP391.3
【正文快照】: 1引言隨著互聯(lián)網(wǎng)信息數(shù)據(jù)量迅猛增長,利用搜索引擎檢索到的結(jié)果中往往混雜許多無用的信息,不能滿足用戶精準(zhǔn)提取信息的需求。因此,把搜索引擎與信息提取技術(shù)結(jié)合起來,開發(fā)出了一種基于搜索引擎的郵址搜集軟件。簡單來說,郵址搜集軟件是建立在現(xiàn)有的通用搜索引擎如百度、谷歌等

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張文典;LAG—一個(gè)詞法分析程序的生成程序[J];小型微型計(jì)算機(jī)系統(tǒng);1985年08期

2 Gary Chan;Java咖啡館(9)——一個(gè)壓縮歸檔實(shí)用軟件[J];電腦愛好者;2004年19期

3 張?zhí)?;基于正則表達(dá)式技術(shù)的數(shù)據(jù)驗(yàn)證及應(yīng)用[J];甘肅科技縱橫;2006年04期

4 項(xiàng)潤華;段紅勇;柳漢雄;;正則表達(dá)式的使用以及在VC6.0的應(yīng)用[J];洛陽工業(yè)高等?茖W(xué)校學(xué)報(bào);2006年05期

5 梁里寧;;正則表達(dá)式在SQL Server 2000中的實(shí)現(xiàn)與應(yīng)用[J];科技廣場;2008年01期

6 李國晶;王景強(qiáng);;淺析正則表達(dá)式[J];科技資訊;2010年04期

7 劉小平;;在Visual C++ 6.0中使用Boost正則表達(dá)式庫[J];信息與電腦(理論版);2010年03期

8 張申媛;;正則表達(dá)式的實(shí)現(xiàn)[J];科技創(chuàng)新導(dǎo)報(bào);2010年20期

9 胡海星;;DEL命令問題——2001年12期編程擂臺(tái)題解[J];程序員;2002年02期

10 趙興濤;王斌君;劉舒;;正則表達(dá)式在文檔自動(dòng)識(shí)別中的應(yīng)用[J];中國人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 王輝;丁明君;楊進(jìn);;正則表達(dá)式在企業(yè)信息管理開發(fā)中的應(yīng)用[A];2010年MIS/S&A學(xué)術(shù)交流會(huì)議論文集(中國造船工程學(xué)會(huì)學(xué)術(shù)論文集)[C];2010年

2 袁真;;構(gòu)造正則表達(dá)式的幾種NFA算法的分析和比較[A];2006年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年

3 何雪松;;Matlab和C#聯(lián)合編程在雨滴譜儀數(shù)據(jù)處理中的應(yīng)用[A];第十五屆全國云降水與人工影響天氣科學(xué)會(huì)議論文集(Ⅱ)[C];2008年

4 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年

5 鐘濤;陳群秀;;基于層式有限狀態(tài)自動(dòng)機(jī)的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

6 周顥;劉振華;趙保華;;構(gòu)造型的D~2FA生成算法[A];中國通信學(xué)會(huì)通信軟件技術(shù)委員會(huì)2009年學(xué)術(shù)會(huì)議論文集[C];2009年

7 宿敬肖;;基于Java-Web開發(fā)的后臺(tái)程序與界面分離技術(shù)[A];冶金企業(yè)自動(dòng)化、信息化與創(chuàng)新——全國冶金自動(dòng)化信息網(wǎng)建網(wǎng)30周年論文集[C];2007年

8 溫俊;陽國貴;;XML文檔集公共模式獲取技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

9 賈彥民;吳健;;藏文文本斷行在OpenOffice.org辦公套件中的實(shí)現(xiàn)[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年

10 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達(dá)式在分詞算法中的應(yīng)用[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫 前3條

1 彭福祥 張鈞;ASP.NET基本數(shù)值處理技巧[N];計(jì)算機(jī)世界;2006年

2 廣東 子衿;認(rèn)識(shí)Linux中的符號(hào)[N];電腦報(bào);2004年

3 本報(bào)記者 那罡;簡化端點(diǎn)防護(hù) 保護(hù)知識(shí)產(chǎn)權(quán)[N];中國計(jì)算機(jī)報(bào);2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 胡圣明;基于內(nèi)存自動(dòng)機(jī)與模式的動(dòng)態(tài)引擎構(gòu)造技術(shù)研究[D];西安電子科技大學(xué);2009年

2 徐建國;網(wǎng)絡(luò)化制造系統(tǒng)中虛擬加工若干關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2007年

3 錢忠勝;基于模型的Web應(yīng)用測試用例生成方法[D];上海大學(xué);2008年

4 孫偉;XML數(shù)據(jù)庫查詢優(yōu)化及相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2006年

5 馬海濤;Active XML數(shù)據(jù)管理基礎(chǔ)問題研究[D];哈爾濱工業(yè)大學(xué);2009年

6 周科松;全文檢索與GIS一體化及在應(yīng)急管理中的應(yīng)用研究[D];華東師范大學(xué);2009年

7 劉攀;基于FSM的測試用例生成和測試優(yōu)化[D];上海大學(xué);2011年

8 田聰;命題投影時(shí)序邏輯的判定性、復(fù)雜性、表達(dá)性及模型檢測[D];西安電子科技大學(xué);2010年

9 韓召偉;幾類基于量子邏輯的自動(dòng)機(jī)的代數(shù)及邏輯刻畫[D];陜西師范大學(xué);2011年

10 舒新峰;投影時(shí)序邏輯的完備公理系統(tǒng)與形式驗(yàn)證[D];西安電子科技大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王飛龍;PBE技術(shù)在文本搜索中的應(yīng)用[D];哈爾濱理工大學(xué);2007年

2 溫源;基于FPGA的正則表達(dá)式匹配引擎的設(shè)計(jì)[D];哈爾濱工程大學(xué);2009年

3 劉一蘭;基于SNMP MIB編譯器的實(shí)現(xiàn)及其生成器技術(shù)的研究[D];華中師范大學(xué);2004年

4 王小朋;基于代理的元搜索引擎的研究[D];遼寧工程技術(shù)大學(xué);2005年

5 張娜;基于正則表達(dá)式的深度包檢測研究[D];華東師范大學(xué);2007年

6 佘石泉;編程題自動(dòng)閱卷技術(shù)的研究與實(shí)現(xiàn)[D];中南大學(xué);2007年

7 楊建鋒;虛擬學(xué)習(xí)社區(qū)中學(xué)習(xí)資源自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2009年

8 張志安;WEB主題信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2009年

9 劉玲;一種通用Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];西南石油大學(xué);2007年

10 周錦姝;基于Web和信息抽取技術(shù)的自動(dòng)術(shù)語翻譯[D];天津大學(xué);2007年



本文編號(hào):1032666

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1032666.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶31e8c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com