基于搜索引擎的郵址搜集軟件開發(fā)
本文關(guān)鍵詞:基于搜索引擎的郵址搜集軟件開發(fā)
更多相關(guān)文章: 搜索引擎 郵址提取 HtmlParser框架 正則表達式
【摘要】:在百度、谷歌等現(xiàn)有搜索引擎基礎上,利用HtmlParser開源框架,用Java語言開發(fā)了一種基于搜索引擎關(guān)鍵字的郵址搜集軟件。提取郵址的過程包括頁面鏈接的獲取和頁面郵址的提取。在獲取頁面鏈接階段,首先拼接初始鏈接,然后獲取分頁鏈接,之后再利用HtmlParser解析深層鏈接。在頁面郵址提取階段,則利用正則表達式匹配頁面源碼獲取郵箱地址。
【作者單位】: 浙江理工大學;
【關(guān)鍵詞】: 搜索引擎 郵址提取 HtmlParser框架 正則表達式
【分類號】:TP391.3
【正文快照】: 1引言隨著互聯(lián)網(wǎng)信息數(shù)據(jù)量迅猛增長,利用搜索引擎檢索到的結(jié)果中往往混雜許多無用的信息,不能滿足用戶精準提取信息的需求。因此,把搜索引擎與信息提取技術(shù)結(jié)合起來,開發(fā)出了一種基于搜索引擎的郵址搜集軟件。簡單來說,郵址搜集軟件是建立在現(xiàn)有的通用搜索引擎如百度、谷歌等
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張文典;LAG—一個詞法分析程序的生成程序[J];小型微型計算機系統(tǒng);1985年08期
2 Gary Chan;Java咖啡館(9)——一個壓縮歸檔實用軟件[J];電腦愛好者;2004年19期
3 張?zhí)?;基于正則表達式技術(shù)的數(shù)據(jù)驗證及應用[J];甘肅科技縱橫;2006年04期
4 項潤華;段紅勇;柳漢雄;;正則表達式的使用以及在VC6.0的應用[J];洛陽工業(yè)高等?茖W校學報;2006年05期
5 梁里寧;;正則表達式在SQL Server 2000中的實現(xiàn)與應用[J];科技廣場;2008年01期
6 李國晶;王景強;;淺析正則表達式[J];科技資訊;2010年04期
7 劉小平;;在Visual C++ 6.0中使用Boost正則表達式庫[J];信息與電腦(理論版);2010年03期
8 張申媛;;正則表達式的實現(xiàn)[J];科技創(chuàng)新導報;2010年20期
9 胡海星;;DEL命令問題——2001年12期編程擂臺題解[J];程序員;2002年02期
10 趙興濤;王斌君;劉舒;;正則表達式在文檔自動識別中的應用[J];中國人民公安大學學報(自然科學版);2005年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王輝;丁明君;楊進;;正則表達式在企業(yè)信息管理開發(fā)中的應用[A];2010年MIS/S&A學術(shù)交流會議論文集(中國造船工程學會學術(shù)論文集)[C];2010年
2 袁真;;構(gòu)造正則表達式的幾種NFA算法的分析和比較[A];2006年全國理論計算機科學學術(shù)年會論文集[C];2006年
3 何雪松;;Matlab和C#聯(lián)合編程在雨滴譜儀數(shù)據(jù)處理中的應用[A];第十五屆全國云降水與人工影響天氣科學會議論文集(Ⅱ)[C];2008年
4 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計算機安全學術(shù)交流會論文集(第二十四卷)[C];2009年
5 鐘濤;陳群秀;;基于層式有限狀態(tài)自動機的災難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
6 周顥;劉振華;趙保華;;構(gòu)造型的D~2FA生成算法[A];中國通信學會通信軟件技術(shù)委員會2009年學術(shù)會議論文集[C];2009年
7 宿敬肖;;基于Java-Web開發(fā)的后臺程序與界面分離技術(shù)[A];冶金企業(yè)自動化、信息化與創(chuàng)新——全國冶金自動化信息網(wǎng)建網(wǎng)30周年論文集[C];2007年
8 溫俊;陽國貴;;XML文檔集公共模式獲取技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2003年
9 賈彥民;吳健;;藏文文本斷行在OpenOffice.org辦公套件中的實現(xiàn)[A];第十屆全國少數(shù)民族語言文字信息處理學術(shù)研討會論文集[C];2005年
10 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達式在分詞算法中的應用[A];第三屆學生計算語言學研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 彭福祥 張鈞;ASP.NET基本數(shù)值處理技巧[N];計算機世界;2006年
2 廣東 子衿;認識Linux中的符號[N];電腦報;2004年
3 本報記者 那罡;簡化端點防護 保護知識產(chǎn)權(quán)[N];中國計算機報;2011年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 胡圣明;基于內(nèi)存自動機與模式的動態(tài)引擎構(gòu)造技術(shù)研究[D];西安電子科技大學;2009年
2 徐建國;網(wǎng)絡化制造系統(tǒng)中虛擬加工若干關(guān)鍵技術(shù)研究[D];南京理工大學;2007年
3 錢忠勝;基于模型的Web應用測試用例生成方法[D];上海大學;2008年
4 孫偉;XML數(shù)據(jù)庫查詢優(yōu)化及相關(guān)技術(shù)研究[D];哈爾濱工程大學;2006年
5 馬海濤;Active XML數(shù)據(jù)管理基礎問題研究[D];哈爾濱工業(yè)大學;2009年
6 周科松;全文檢索與GIS一體化及在應急管理中的應用研究[D];華東師范大學;2009年
7 劉攀;基于FSM的測試用例生成和測試優(yōu)化[D];上海大學;2011年
8 田聰;命題投影時序邏輯的判定性、復雜性、表達性及模型檢測[D];西安電子科技大學;2010年
9 韓召偉;幾類基于量子邏輯的自動機的代數(shù)及邏輯刻畫[D];陜西師范大學;2011年
10 舒新峰;投影時序邏輯的完備公理系統(tǒng)與形式驗證[D];西安電子科技大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王飛龍;PBE技術(shù)在文本搜索中的應用[D];哈爾濱理工大學;2007年
2 溫源;基于FPGA的正則表達式匹配引擎的設計[D];哈爾濱工程大學;2009年
3 劉一蘭;基于SNMP MIB編譯器的實現(xiàn)及其生成器技術(shù)的研究[D];華中師范大學;2004年
4 王小朋;基于代理的元搜索引擎的研究[D];遼寧工程技術(shù)大學;2005年
5 張娜;基于正則表達式的深度包檢測研究[D];華東師范大學;2007年
6 佘石泉;編程題自動閱卷技術(shù)的研究與實現(xiàn)[D];中南大學;2007年
7 楊建鋒;虛擬學習社區(qū)中學習資源自動生成系統(tǒng)的設計與實現(xiàn)[D];西北大學;2009年
8 張志安;WEB主題信息采集系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2009年
9 劉玲;一種通用Web信息抽取系統(tǒng)的研究與實現(xiàn)[D];西南石油大學;2007年
10 周錦姝;基于Web和信息抽取技術(shù)的自動術(shù)語翻譯[D];天津大學;2007年
,本文編號:1032666
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1032666.html