面向Web挖掘的主題網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)
本文選題:Web挖掘 切入點:主題網(wǎng)絡(luò)爬蟲 出處:《西安電子科技大學(xué)》2012年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的信息資源以網(wǎng)絡(luò)為媒介呈現(xiàn)在人們面前,而通過搜索引擎獲取生活、生產(chǎn)所需的信息資料也開始成為人們掌握資訊的主流方式之一。但是由于Web信息資源的爆炸式增長及其半結(jié)構(gòu)化、實時性、異構(gòu)性和離散性等的特點,如何對Web資源進(jìn)行挖掘分析、提取人們需要的特定主題的信息,已經(jīng)成為一項重要的研究課題。 本文的研究內(nèi)容是基于企業(yè)競爭情報、面向Web挖掘的主題式搜索,在介紹了課題的研究背景和現(xiàn)狀之后,著重討論了Web挖掘和主題搜索引擎的核心技術(shù)。具體的研究工作如下: 主題網(wǎng)絡(luò)爬蟲:綜合分析了現(xiàn)有搜索引擎的網(wǎng)絡(luò)搜索算法,改進(jìn)了相關(guān)的搜索策略,提出了一種非貪婪遺傳搜索算法。 Web文檔分析:本文利用HTML Tidy工具將Web文檔轉(zhuǎn)換為其對應(yīng)的樹型結(jié)構(gòu),然后根據(jù)用戶的需求利用不同的遍歷算法提取相關(guān)的信息;爬蟲系統(tǒng)對網(wǎng)頁的正文內(nèi)容進(jìn)行提取和分詞之后,,采用經(jīng)過改進(jìn)的特征項權(quán)重計算方法建立文本的特征向量。 主題相關(guān)性評價:在利用向量空間模型對網(wǎng)頁正文內(nèi)容進(jìn)行主題相關(guān)性評價的基礎(chǔ)上,系統(tǒng)結(jié)合超鏈接的錨文本、自身字符串和它所在的網(wǎng)頁對其進(jìn)行了主題相關(guān)性的計算。 在以上研究內(nèi)容的基礎(chǔ)上,設(shè)計并實現(xiàn)了基于企業(yè)競爭情報的主題網(wǎng)絡(luò)爬蟲系統(tǒng)。
[Abstract]:With the rapid development of the Internet, more and more information resources appear in front of people through the network, and get life through the search engine. But due to the explosive growth of Web information resources and its characteristics of semi-structured, real-time, heterogeneity and discreteness, and so on, the production of information materials has become one of the main methods of people to master information, but due to the explosive growth of Web information resources and its characteristics of semi-structured, real-time, heterogeneity and discreteness. How to mine and analyze Web resources and extract the information of specific topics that people need has become an important research topic. The research content of this paper is based on enterprise competitive intelligence, the topic search oriented to Web mining, after introducing the research background and present situation of the subject, The core technologies of Web mining and subject search engine are discussed emphatically. The specific research work is as follows:. Topic crawler: a non-greedy genetic search algorithm is proposed by synthetically analyzing the existing search engine network search algorithms and improving the relevant search strategies. Web document analysis: this paper uses HTML Tidy tools to transform Web document into its corresponding tree structure, and then uses different traversal algorithms to extract relevant information according to the user's needs. After extracting and segmenting the text of the web page, the improved method of calculating the weight of the feature item is used to establish the feature vector of the text. Subject relevance evaluation: on the basis of the vector space model to evaluate the theme correlation of the text of the web page, combining the anchor text of the hyperlink, its own string and the web page in which it is located, the theme correlation is calculated. On the basis of the above research, a subject web crawler system based on enterprise competitive intelligence is designed and implemented.
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋如順,姜乃松;基于Web的遠(yuǎn)程考試系統(tǒng)設(shè)計與實現(xiàn)[J];計算機(jī)工程;1999年06期
2 王紅霞,姚家亮;利用ASP構(gòu)建新型信息系統(tǒng)的方法與實現(xiàn)[J];計算機(jī)應(yīng)用;1999年09期
3 鄧勁生,張銀福;面向?qū)ο蟮亩嗝襟w信息WEB發(fā)布[J];計算機(jī)應(yīng)用研究;1999年09期
4 刁興春,李赤紅;Intranet環(huán)境下事務(wù)處理的理論研究和實現(xiàn)[J];小型微型計算機(jī)系統(tǒng);1999年06期
5 高昆;基于ASP的WEB站點開發(fā)技術(shù)分析[J];北華大學(xué)學(xué)報(社會科學(xué)版);1999年05期
6 王清心,胡建華;經(jīng)貿(mào)數(shù)據(jù)庫的WEB集成發(fā)布[J];昆明理工大學(xué)學(xué)報;1999年02期
7 李晶,朱秋萍;Web頁制作中的動態(tài)表現(xiàn)技術(shù)[J];計算機(jī)工程;2000年06期
8 劉波,代亞非,杜躍進(jìn);遠(yuǎn)程協(xié)同教學(xué)系統(tǒng)中課程搜索子系統(tǒng)設(shè)計[J];計算機(jī)應(yīng)用;2000年06期
9 武莊,劉友丹;基于Web的企業(yè)內(nèi)部質(zhì)量審核系統(tǒng)設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用研究;2000年05期
10 梁開健,劉新民;基于ASP的圖書館Web數(shù)據(jù)庫開發(fā)[J];高校圖書館工作;2000年04期
相關(guān)會議論文 前10條
1 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機(jī)學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
2 安倫;周斌;賈焰;;在線Web挖掘中的計算資源動態(tài)平衡[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
3 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務(wù)技術(shù)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
4 李利波;劉明利;;一種改進(jìn)的無回溯反向Web服務(wù)動態(tài)組合方法[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
5 游爭光;劉建勛;唐明董;;分布式Web服務(wù)測試系統(tǒng)的設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機(jī)學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
6 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導(dǎo)航知識[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
7 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
8 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年
10 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪問控制技術(shù)研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
相關(guān)重要報紙文章 前10條
1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年
2 本報記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年
3 彭敏;企業(yè)級Web2.0迎來應(yīng)用高潮[N];電腦商報;2009年
4 本報記者 毛江華;安啟華聯(lián)手賽門鐵克 掘金Web安全[N];計算機(jī)世界;2009年
5 閆冰;“推”出Web交付新天地[N];網(wǎng)絡(luò)世界;2009年
6 趙曉濤;中國成全球Web安全新看點[N];網(wǎng)絡(luò)世界;2009年
7 邊歆;動態(tài)阻斷Web2.0威脅[N];網(wǎng)絡(luò)世界;2009年
8 泰樂公司首席技術(shù)官兼執(zhí)行副總裁Vikram Saksena;學(xué)習(xí)Web 3.0 做聰明的“管道工”[N];通信產(chǎn)業(yè)報;2009年
9 ;Web2.0工具使用須謹(jǐn)慎[N];網(wǎng)絡(luò)世界;2009年
10 Anchiva中國區(qū)總經(jīng)理 李松;Web安全選型三個標(biāo)準(zhǔn)[N];網(wǎng)絡(luò)世界;2008年
相關(guān)博士學(xué)位論文 前10條
1 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年
2 朱俊武;基于本體的Web服務(wù)語義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年
3 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
4 魏登萍;語義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2011年
5 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
6 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
7 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年
8 陳世展;服務(wù)網(wǎng)絡(luò):基于語義和社會化關(guān)系的Web服務(wù)計算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年
9 胡佳;語義Web服務(wù)自動組合及驗證的研究[D];天津大學(xué);2010年
10 王輝;面向互聯(lián)網(wǎng)的Web服務(wù)基礎(chǔ)設(shè)施構(gòu)建和應(yīng)用[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 周浩;面向網(wǎng)絡(luò)輿情分析的Web數(shù)據(jù)源獲取關(guān)鍵技術(shù)研究[D];西安理工大學(xué);2010年
2 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術(shù)研究[D];杭州電子科技大學(xué);2012年
3 侯曉帆;基于云計算的Web教育爬蟲[D];東北師范大學(xué);2011年
4 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實現(xiàn)[D];西安電子科技大學(xué);2009年
5 楊新英;基于網(wǎng)絡(luò)爬蟲的Web應(yīng)用程序漏洞掃描器的研究與實現(xiàn)[D];電子科技大學(xué);2010年
6 唐黎;Deep Web頁面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
7 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
8 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年
9 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽工業(yè)大學(xué);2012年
10 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國海洋大學(xué);2011年
本文編號:1664713
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1664713.html