天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于搜索引擎的郵箱地址自動提取系統(tǒng)開發(fā)

發(fā)布時間:2018-11-05 17:42
【摘要】:信息抽取技術(shù)已成為當(dāng)前的研究熱點之一,而對搜索引擎返回信息中存在的所謂的Rich Data Poor Information問題也是亟待解決的,若將兩者相結(jié)合無疑是件很有趣又有實際價值的事情。 本文就把為大家所熟知熟用的搜索引擎與信息提取技術(shù)相結(jié)合,開發(fā)出了一種基于搜索引擎的郵箱地址提取系統(tǒng)。有效的解決了常見郵箱搜索器中普遍存在的精確度不高、用戶自主選擇性低、前后兩次結(jié)果會被重復(fù)提取等問題。 本文的主要工作內(nèi)容及創(chuàng)新點如下: 首先,通過URL地址拼接技術(shù),調(diào)用各大搜索引擎的返回數(shù)據(jù)獲取源數(shù)據(jù)。用戶提交關(guān)鍵字和需要處理的搜索引擎起始頁面后,根據(jù)搜索引擎返回數(shù)據(jù)首頁的url地址結(jié)構(gòu),拼接出首頁的URL鏈接地址。對比于之前的研究,本文實現(xiàn)了自動翻頁提取,即實現(xiàn)對“下一頁”鏈接地址的獲取。此外,為了增加Email系統(tǒng)中用戶的自主選擇性,用戶可以根據(jù)需要,對要處理的網(wǎng)頁頁數(shù)范圍進行限制。 其次,HTMLParser包對html網(wǎng)頁進行解析,利用正則表達式并對Email地址進行提取。為了獲取更多更全面的信息,本文利用HTMLParser對網(wǎng)頁內(nèi)部的URL鏈接地址進行了深層提取。用戶可以根據(jù)自己的需要,,選擇需要處理的網(wǎng)頁層數(shù)級別。 再次,為了進一步提高用戶的自主選擇性,用戶可以根據(jù)自身需要,選擇對最后搜索結(jié)果中郵件服務(wù)器域名(如163.com、126.com、edu.cn等等)進行過濾。此外為了避免本次提取到的信息下次不會被重復(fù)提取,選擇將結(jié)果保存在Access數(shù)據(jù)庫中。抽取的結(jié)果也可以手動選擇以文本文件的格式保存。 最后,對系統(tǒng)進行了測試工作,針對出現(xiàn)的問題進行了改善,并對系統(tǒng)結(jié)果做了分析和評價,發(fā)現(xiàn)系統(tǒng)穩(wěn)定性良好,可正常運行15小時(早8:00至23:00),足以滿足實際需要。而且召回率和準(zhǔn)確率都在94%以上,這比現(xiàn)存的郵箱地址搜索器實現(xiàn)的結(jié)果都要高。
[Abstract]:Information extraction technology has become one of the current research hotspots, and the so-called Rich Data Poor Information problem in the return information of search engines is urgently needed to be solved. It is undoubtedly very interesting and valuable to combine the two technologies. This paper combines the familiar search engine with information extraction technology and develops a search engine based mailbox address extraction system. It effectively solves the common problems such as low accuracy, low user autonomy and low selectivity in common mailbox searchers, and the results will be extracted repeatedly before and after two times. The main contents and innovations of this paper are as follows: firstly, through the URL address splicing technology, the return data of each major search engine is called to obtain the source data. After the user submits the keywords and the search engine starting page which needs to be processed, according to the url address structure of the data home page returned by the search engine, the URL link address of the front page is spliced out. Compared with the previous research, this paper realizes the automatic page-turning extraction, that is to achieve the "next page" link address acquisition. In addition, in order to increase the self-selection of users in Email system, users can limit the number of pages to be processed according to their needs. Secondly, the HTMLParser package parses the html pages and extracts the Email addresses by using regular expressions. In order to obtain more and more comprehensive information, this paper uses HTMLParser to extract the URL link address in the web page. According to their own needs, users can choose the level of web pages to be handled. Thirdly, in order to further improve the user's self-selectivity, users can choose to filter the domain name of mail server in the final search results (such as 163.com.com 126.comedu.cn) according to their own needs. In addition, in order to avoid the information extracted this time will not be repeated extraction next time, choose to save the results in the Access database. The extracted results can also be manually selected to be saved in a text file format. Finally, the system is tested, the problems are improved, and the system results are analyzed and evaluated. It is found that the system is stable and can run normally for 15 hours (from 8:00 to 23:00). Enough to meet actual needs. Moreover, the recall rate and accuracy rate are more than 94%, which is higher than that achieved by the existing mailbox address searcher.
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【相似文獻】

相關(guān)期刊論文 前10條

1 PowerKey;;搜索黑客的10條絕密筆錄[J];電腦愛好者;2009年24期

2 張繼剛;搜索引擎使用技巧[J];網(wǎng)絡(luò)與信息;1999年09期

3 ;關(guān)鍵詞搜索[J];每周電腦報;2000年38期

4 陳冰;;餓狼一樣的網(wǎng)站提交工具——“提交餓狼”[J];科學(xué)之友;2000年07期

5 許斗;從Google看新一代搜索引擎的發(fā)展趨向[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報;2001年01期

6 周毅華;從搜索引擎的分類看其應(yīng)用技巧[J];圖書館理論與實踐;2002年06期

7 鄒小筑;搜索引擎的選擇與使用技巧[J];圖書館學(xué)研究;2002年05期

8 林燕;Google搜索引擎的搜索功能與使用技巧[J];河北科技圖苑;2003年05期

9 林中;GOOGLE搜索引擎的關(guān)鍵詞檢索[J];中國信息導(dǎo)報;2003年03期

10 封劍待封喉;吸星大法“搜”天下 笑傲網(wǎng)絡(luò)任我行——搜索引擎絕對專題[J];網(wǎng)絡(luò)與信息;2003年07期

相關(guān)會議論文 前10條

1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年

2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年

3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年

5 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學(xué)會2008年年會論文集[C];2008年

6 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學(xué)術(shù)會議論文集[C];2005年

7 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計與實現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年

8 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年

9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術(shù)[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計算學(xué)術(shù)會議(PCC'06)論文集[C];2006年

10 楊萌;李春麗;朱明;;網(wǎng)絡(luò)搜索技術(shù)下的編輯工作[A];學(xué)報編輯論叢(第十一集)[C];2003年

相關(guān)重要報紙文章 前10條

1 特約作者 高博;谷歌Instant重新定義搜索引擎[N];電腦報;2010年

2 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年

3 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年

4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年

5 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年

6 陳珊;浙江移動推出手機搜索引擎服務(wù)[N];人民郵電;2005年

7 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年

8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年

9 本報記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報;2006年

10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財經(jīng)日報;2006年

相關(guān)博士學(xué)位論文 前10條

1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年

2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

9 鄭文良;基于簡單本體的農(nóng)業(yè)P2P搜索引擎關(guān)鍵技術(shù)研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

相關(guān)碩士學(xué)位論文 前10條

1 薛云;Internet上元搜索引擎的研究與設(shè)計[D];太原理工大學(xué);2003年

2 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

3 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年

4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學(xué);2005年

5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學(xué);2010年

6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學(xué);2010年

7 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學(xué)院;2003年

9 田生偉;基于涉農(nóng)詞典的搜索引擎的研究與實踐[D];新疆大學(xué);2004年

10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學(xué);2010年



本文編號:2312826

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2312826.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c19cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲天堂精品一区二区| 国内精品伊人久久久av高清| 欧美丰满大屁股一区二区三区 | 亚洲熟妇熟女久久精品| 大香蕉精品视频一区二区| 99热中文字幕在线精品| 日本道播放一区二区三区| 夜夜嗨激情五月天精品| 亚洲精品国产第一区二区多人| 日韩美成人免费在线视频| 嫩草国产福利视频一区二区| 欧美日韩少妇精品专区性色| 五月婷婷综合激情啪啪| 欧美精品亚洲精品一区| 国产综合一区二区三区av| 色偷偷亚洲女人天堂观看| 亚洲欧洲在线一区二区三区| 国产内射在线激情一区| 五月天婷亚洲天婷综合网| 五月综合激情婷婷丁香| 国产精品免费无遮挡不卡视频| 日韩欧美黄色一级视频| 又色又爽又无遮挡的视频| 麻豆精品视频一二三区 | 久久国产亚洲精品赲碰热| 欧美亚洲另类久久久精品| 91爽人人爽人人插人人爽| 麻豆剧果冻传媒一二三区| 国产一区二区三区av在线| 国产又粗又猛又大爽又黄| 大屁股肥臀熟女一区二区视频| 亚洲一区二区精品福利| 中文字幕欧美精品人妻一区| 高中女厕偷拍一区二区三区| 免费性欧美重口味黄色| 亚洲欧美天堂精品在线| 一区二区三区亚洲天堂| 少妇高潮呻吟浪语91| 亚洲一区二区三区av高清| 日本女优一色一伦一区二区三区| 不卡视频免费一区二区三区|