基于搜索引擎的郵箱地址自動提取系統(tǒng)開發(fā)

發(fā)布時間：2018-11-05 17:42

【摘要】：信息抽取技術已成為當前的研究熱點之一，而對搜索引擎返回信息中存在的所謂的Rich Data Poor Information問題也是亟待解決的，若將兩者相結合無疑是件很有趣又有實際價值的事情。本文就把為大家所熟知熟用的搜索引擎與信息提取技術相結合，開發(fā)出了一種基于搜索引擎的郵箱地址提取系統(tǒng)。有效的解決了常見郵箱搜索器中普遍存在的精確度不高、用戶自主選擇性低、前后兩次結果會被重復提取等問題。本文的主要工作內容及創(chuàng)新點如下：首先，通過URL地址拼接技術，調用各大搜索引擎的返回數(shù)據(jù)獲取源數(shù)據(jù)。用戶提交關鍵字和需要處理的搜索引擎起始頁面后，根據(jù)搜索引擎返回數(shù)據(jù)首頁的url地址結構，拼接出首頁的URL鏈接地址。對比于之前的研究，本文實現(xiàn)了自動翻頁提取，即實現(xiàn)對“下一頁”鏈接地址的獲取。此外，為了增加Email系統(tǒng)中用戶的自主選擇性，用戶可以根據(jù)需要，對要處理的網(wǎng)頁頁數(shù)范圍進行限制。其次，HTMLParser包對html網(wǎng)頁進行解析，利用正則表達式并對Email地址進行提取。為了獲取更多更全面的信息，本文利用HTMLParser對網(wǎng)頁內部的URL鏈接地址進行了深層提取。用戶可以根據(jù)自己的需要，，選擇需要處理的網(wǎng)頁層數(shù)級別。再次，為了進一步提高用戶的自主選擇性，用戶可以根據(jù)自身需要，選擇對最后搜索結果中郵件服務器域名（如163.com、126.com、edu.cn等等）進行過濾。此外為了避免本次提取到的信息下次不會被重復提取，選擇將結果保存在Access數(shù)據(jù)庫中。抽取的結果也可以手動選擇以文本文件的格式保存。最后，對系統(tǒng)進行了測試工作，針對出現(xiàn)的問題進行了改善，并對系統(tǒng)結果做了分析和評價，發(fā)現(xiàn)系統(tǒng)穩(wěn)定性良好，可正常運行15小時（早8:00至23:00），足以滿足實際需要。而且召回率和準確率都在94%以上，這比現(xiàn)存的郵箱地址搜索器實現(xiàn)的結果都要高。
[Abstract]:Information extraction technology has become one of the current research hotspots, and the so-called Rich Data Poor Information problem in the return information of search engines is urgently needed to be solved. It is undoubtedly very interesting and valuable to combine the two technologies. This paper combines the familiar search engine with information extraction technology and develops a search engine based mailbox address extraction system. It effectively solves the common problems such as low accuracy, low user autonomy and low selectivity in common mailbox searchers, and the results will be extracted repeatedly before and after two times. The main contents and innovations of this paper are as follows: firstly, through the URL address splicing technology, the return data of each major search engine is called to obtain the source data. After the user submits the keywords and the search engine starting page which needs to be processed, according to the url address structure of the data home page returned by the search engine, the URL link address of the front page is spliced out. Compared with the previous research, this paper realizes the automatic page-turning extraction, that is to achieve the "next page" link address acquisition. In addition, in order to increase the self-selection of users in Email system, users can limit the number of pages to be processed according to their needs. Secondly, the HTMLParser package parses the html pages and extracts the Email addresses by using regular expressions. In order to obtain more and more comprehensive information, this paper uses HTMLParser to extract the URL link address in the web page. According to their own needs, users can choose the level of web pages to be handled. Thirdly, in order to further improve the user's self-selectivity, users can choose to filter the domain name of mail server in the final search results (such as 163.com.com 126.comedu.cn) according to their own needs. In addition, in order to avoid the information extracted this time will not be repeated extraction next time, choose to save the results in the Access database. The extracted results can also be manually selected to be saved in a text file format. Finally, the system is tested, the problems are improved, and the system results are analyzed and evaluated. It is found that the system is stable and can run normally for 15 hours (from 8:00 to 23:00). Enough to meet actual needs. Moreover, the recall rate and accuracy rate are more than 94%, which is higher than that achieved by the existing mailbox address searcher.
【學位授予單位】：浙江理工大學
【學位級別】：碩士
【學位授予年份】：2013
【分類號】：TP391.3

【相似文獻】

相關期刊論文前10條

1 PowerKey;;搜索黑客的10條絕密筆錄[J];電腦愛好者;2009年24期

2 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡與信息;1999年09期

3 ;關鍵詞搜索[J];每周電腦報;2000年38期

4 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學之友;2000年07期

5 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術學院學報;2001年01期

6 周毅華;從搜索引擎的分類看其應用技巧[J];圖書館理論與實踐;2002年06期

7 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學研究;2002年05期

8 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期

9 林中;GOOGLE搜索引擎的關鍵詞檢索[J];中國信息導報;2003年03期

10 封劍待封喉;吸星大法“搜”天下笑傲網(wǎng)絡任我行——搜索引擎絕對專題[J];網(wǎng)絡與信息;2003年07期

相關會議論文前10條

1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年

2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年

3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集（研究報告篇）[C];2001年

4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年

5 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年

6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年

7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年

8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年

9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年

10 楊萌;李春麗;朱明;;網(wǎng)絡搜索技術下的編輯工作[A];學報編輯論叢（第十一集）[C];2003年

相關重要報紙文章前10條

1 特約作者高博;谷歌Instant重新定義搜索引擎[N];電腦報;2010年

2 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

3 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年

4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

5 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務咨詢中心常燕杰;搜索，還是門戶[N];中國計算機報;2005年

6 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年

7 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年

8 金朝力;搜索引擎火拼搜索質量[N];北京商報;2006年

9 本報記者　趙曉輝孟昭麗;搜索引擎駛入“避風港”[N];中國證券報;2006年

10 孫t;搜索引擎驚喜侵權官司止于“避風港”？[N];第一財經(jīng)日報;2006年

相關博士學位論文前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年

3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年

4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年

7 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年

8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年

9 鄭文良;基于簡單本體的農業(yè)P2P搜索引擎關鍵技術研究[D];沈陽農業(yè)大學;2013年

10 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院（遙感應用研究所）;2003年

相關碩士學位論文前10條

1 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年

2 王春花;基于Nutch的農業(yè)搜索引擎檢索結果排序策略的研究[D];西北農林科技大學;2010年

3 李雷;基于Nutch的農業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年

4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學;2005年

5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年

6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學;2010年

7 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年

8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學院;2003年

9 田生偉;基于涉農詞典的搜索引擎的研究與實踐[D];新疆大學;2004年

10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學;2010年

本文編號：2312826

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2312826.html

上一篇：胰腺癌差異蛋白質組學研究
下一篇：自動更新的本體概念語義相似度計算

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于搜索引擎的郵箱地址自動提取系統(tǒng)開發(fā)