基于搜索引擎的郵箱地址自動提取系統(tǒng)開發(fā)
[Abstract]:Information extraction technology has become one of the current research hotspots, and the so-called Rich Data Poor Information problem in the return information of search engines is urgently needed to be solved. It is undoubtedly very interesting and valuable to combine the two technologies. This paper combines the familiar search engine with information extraction technology and develops a search engine based mailbox address extraction system. It effectively solves the common problems such as low accuracy, low user autonomy and low selectivity in common mailbox searchers, and the results will be extracted repeatedly before and after two times. The main contents and innovations of this paper are as follows: firstly, through the URL address splicing technology, the return data of each major search engine is called to obtain the source data. After the user submits the keywords and the search engine starting page which needs to be processed, according to the url address structure of the data home page returned by the search engine, the URL link address of the front page is spliced out. Compared with the previous research, this paper realizes the automatic page-turning extraction, that is to achieve the "next page" link address acquisition. In addition, in order to increase the self-selection of users in Email system, users can limit the number of pages to be processed according to their needs. Secondly, the HTMLParser package parses the html pages and extracts the Email addresses by using regular expressions. In order to obtain more and more comprehensive information, this paper uses HTMLParser to extract the URL link address in the web page. According to their own needs, users can choose the level of web pages to be handled. Thirdly, in order to further improve the user's self-selectivity, users can choose to filter the domain name of mail server in the final search results (such as 163.com.com 126.comedu.cn) according to their own needs. In addition, in order to avoid the information extracted this time will not be repeated extraction next time, choose to save the results in the Access database. The extracted results can also be manually selected to be saved in a text file format. Finally, the system is tested, the problems are improved, and the system results are analyzed and evaluated. It is found that the system is stable and can run normally for 15 hours (from 8:00 to 23:00). Enough to meet actual needs. Moreover, the recall rate and accuracy rate are more than 94%, which is higher than that achieved by the existing mailbox address searcher.
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 PowerKey;;搜索黑客的10條絕密筆錄[J];電腦愛好者;2009年24期
2 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期
3 ;關(guān)鍵詞搜索[J];每周電腦報;2000年38期
4 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期
5 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報;2001年01期
6 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實踐;2002年06期
7 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學(xué)研究;2002年05期
8 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期
9 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國信息導(dǎo)報;2003年03期
10 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對專題[J];網(wǎng)絡(luò)與信息;2003年07期
相關(guān)會議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年
相關(guān)重要報紙文章 前10條
1 特約作者 高博;谷歌Instant重新定義搜索引擎[N];電腦報;2010年
2 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年
3 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年
4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年
5 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年
6 陳珊;浙江移動推出手機搜索引擎服務(wù)[N];人民郵電;2005年
7 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年
8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年
9 本報記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年
10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年
2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年
3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年
5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年
7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年
8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年
9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年
10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年
本文編號:2312826
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2312826.html