基于搜索引擎的郵址搜集軟件開發(fā)
本文關(guān)鍵詞:基于搜索引擎的郵址搜集軟件開發(fā)
更多相關(guān)文章: 搜索引擎 郵址提取 HtmlParser框架 正則表達(dá)式
【摘要】:在百度、谷歌等現(xiàn)有搜索引擎基礎(chǔ)上,利用HtmlParser開源框架,用Java語言開發(fā)了一種基于搜索引擎關(guān)鍵字的郵址搜集軟件。提取郵址的過程包括頁面鏈接的獲取和頁面郵址的提取。在獲取頁面鏈接階段,首先拼接初始鏈接,然后獲取分頁鏈接,之后再利用HtmlParser解析深層鏈接。在頁面郵址提取階段,則利用正則表達(dá)式匹配頁面源碼獲取郵箱地址。
【作者單位】: 浙江理工大學(xué);
【關(guān)鍵詞】: 搜索引擎 郵址提取 HtmlParser框架 正則表達(dá)式
【分類號(hào)】:TP391.3
【正文快照】: 1引言隨著互聯(lián)網(wǎng)信息數(shù)據(jù)量迅猛增長,利用搜索引擎檢索到的結(jié)果中往往混雜許多無用的信息,不能滿足用戶精準(zhǔn)提取信息的需求。因此,把搜索引擎與信息提取技術(shù)結(jié)合起來,開發(fā)出了一種基于搜索引擎的郵址搜集軟件。簡單來說,郵址搜集軟件是建立在現(xiàn)有的通用搜索引擎如百度、谷歌等
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張文典;LAG—一個(gè)詞法分析程序的生成程序[J];小型微型計(jì)算機(jī)系統(tǒng);1985年08期
2 Gary Chan;Java咖啡館(9)——一個(gè)壓縮歸檔實(shí)用軟件[J];電腦愛好者;2004年19期
3 張?zhí)?;基于正則表達(dá)式技術(shù)的數(shù)據(jù)驗(yàn)證及應(yīng)用[J];甘肅科技縱橫;2006年04期
4 項(xiàng)潤華;段紅勇;柳漢雄;;正則表達(dá)式的使用以及在VC6.0的應(yīng)用[J];洛陽工業(yè)高等?茖W(xué)校學(xué)報(bào);2006年05期
5 梁里寧;;正則表達(dá)式在SQL Server 2000中的實(shí)現(xiàn)與應(yīng)用[J];科技廣場;2008年01期
6 李國晶;王景強(qiáng);;淺析正則表達(dá)式[J];科技資訊;2010年04期
7 劉小平;;在Visual C++ 6.0中使用Boost正則表達(dá)式庫[J];信息與電腦(理論版);2010年03期
8 張申媛;;正則表達(dá)式的實(shí)現(xiàn)[J];科技創(chuàng)新導(dǎo)報(bào);2010年20期
9 胡海星;;DEL命令問題——2001年12期編程擂臺(tái)題解[J];程序員;2002年02期
10 趙興濤;王斌君;劉舒;;正則表達(dá)式在文檔自動(dòng)識(shí)別中的應(yīng)用[J];中國人民公安大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 王輝;丁明君;楊進(jìn);;正則表達(dá)式在企業(yè)信息管理開發(fā)中的應(yīng)用[A];2010年MIS/S&A學(xué)術(shù)交流會(huì)議論文集(中國造船工程學(xué)會(huì)學(xué)術(shù)論文集)[C];2010年
2 袁真;;構(gòu)造正則表達(dá)式的幾種NFA算法的分析和比較[A];2006年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年
3 何雪松;;Matlab和C#聯(lián)合編程在雨滴譜儀數(shù)據(jù)處理中的應(yīng)用[A];第十五屆全國云降水與人工影響天氣科學(xué)會(huì)議論文集(Ⅱ)[C];2008年
4 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
5 鐘濤;陳群秀;;基于層式有限狀態(tài)自動(dòng)機(jī)的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 周顥;劉振華;趙保華;;構(gòu)造型的D~2FA生成算法[A];中國通信學(xué)會(huì)通信軟件技術(shù)委員會(huì)2009年學(xué)術(shù)會(huì)議論文集[C];2009年
7 宿敬肖;;基于Java-Web開發(fā)的后臺(tái)程序與界面分離技術(shù)[A];冶金企業(yè)自動(dòng)化、信息化與創(chuàng)新——全國冶金自動(dòng)化信息網(wǎng)建網(wǎng)30周年論文集[C];2007年
8 溫俊;陽國貴;;XML文檔集公共模式獲取技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
9 賈彥民;吳健;;藏文文本斷行在OpenOffice.org辦公套件中的實(shí)現(xiàn)[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
10 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達(dá)式在分詞算法中的應(yīng)用[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前3條
1 彭福祥 張鈞;ASP.NET基本數(shù)值處理技巧[N];計(jì)算機(jī)世界;2006年
2 廣東 子衿;認(rèn)識(shí)Linux中的符號(hào)[N];電腦報(bào);2004年
3 本報(bào)記者 那罡;簡化端點(diǎn)防護(hù) 保護(hù)知識(shí)產(chǎn)權(quán)[N];中國計(jì)算機(jī)報(bào);2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 胡圣明;基于內(nèi)存自動(dòng)機(jī)與模式的動(dòng)態(tài)引擎構(gòu)造技術(shù)研究[D];西安電子科技大學(xué);2009年
2 徐建國;網(wǎng)絡(luò)化制造系統(tǒng)中虛擬加工若干關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2007年
3 錢忠勝;基于模型的Web應(yīng)用測試用例生成方法[D];上海大學(xué);2008年
4 孫偉;XML數(shù)據(jù)庫查詢優(yōu)化及相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2006年
5 馬海濤;Active XML數(shù)據(jù)管理基礎(chǔ)問題研究[D];哈爾濱工業(yè)大學(xué);2009年
6 周科松;全文檢索與GIS一體化及在應(yīng)急管理中的應(yīng)用研究[D];華東師范大學(xué);2009年
7 劉攀;基于FSM的測試用例生成和測試優(yōu)化[D];上海大學(xué);2011年
8 田聰;命題投影時(shí)序邏輯的判定性、復(fù)雜性、表達(dá)性及模型檢測[D];西安電子科技大學(xué);2010年
9 韓召偉;幾類基于量子邏輯的自動(dòng)機(jī)的代數(shù)及邏輯刻畫[D];陜西師范大學(xué);2011年
10 舒新峰;投影時(shí)序邏輯的完備公理系統(tǒng)與形式驗(yàn)證[D];西安電子科技大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王飛龍;PBE技術(shù)在文本搜索中的應(yīng)用[D];哈爾濱理工大學(xué);2007年
2 溫源;基于FPGA的正則表達(dá)式匹配引擎的設(shè)計(jì)[D];哈爾濱工程大學(xué);2009年
3 劉一蘭;基于SNMP MIB編譯器的實(shí)現(xiàn)及其生成器技術(shù)的研究[D];華中師范大學(xué);2004年
4 王小朋;基于代理的元搜索引擎的研究[D];遼寧工程技術(shù)大學(xué);2005年
5 張娜;基于正則表達(dá)式的深度包檢測研究[D];華東師范大學(xué);2007年
6 佘石泉;編程題自動(dòng)閱卷技術(shù)的研究與實(shí)現(xiàn)[D];中南大學(xué);2007年
7 楊建鋒;虛擬學(xué)習(xí)社區(qū)中學(xué)習(xí)資源自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西北大學(xué);2009年
8 張志安;WEB主題信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2009年
9 劉玲;一種通用Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];西南石油大學(xué);2007年
10 周錦姝;基于Web和信息抽取技術(shù)的自動(dòng)術(shù)語翻譯[D];天津大學(xué);2007年
,本文編號(hào):1032666
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1032666.html