基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究
本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)已經(jīng)發(fā)展到web2.0時(shí)代,并且開(kāi)始邁向web3.0,搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)上獲取信息不可替代的渠道。在這種時(shí)代背景下,如何更有效的利用搜索引擎,發(fā)掘更有價(jià)值或者特定領(lǐng)域的信息是擺在眼前的問(wèn)題。本系統(tǒng)就是在這種背景下研究如何獲取客戶來(lái)源渠道以及特定客戶信息。 本系統(tǒng)是銷(xiāo)售團(tuán)隊(duì)智能管理系統(tǒng)中的子模塊,,是專門(mén)為該銷(xiāo)售系統(tǒng)里的客戶查找模塊提供客戶資源的。該模塊主要功能是為用戶提供來(lái)源于互聯(lián)網(wǎng)的公司客戶信息,這也是該軟件與傳統(tǒng)銷(xiāo)售軟件區(qū)別之一。傳統(tǒng)上這些公司客戶信息要么是來(lái)源于自己歷年積累的客戶信息,要么就是來(lái)源于網(wǎng)上的黃頁(yè)網(wǎng)站(如阿里巴巴和慧聰網(wǎng)等),但總的來(lái)說(shuō)包含的有效公司信息還是比較有限的。如今搜索引擎已經(jīng)是人們獲取信息最重要的來(lái)源,有效利用該資源獲取信息,就顯得尤為重要。如今有多種搜索引擎,對(duì)本文來(lái)說(shuō)每一種搜索引擎都是從互聯(lián)網(wǎng)獲取信息的重要通道,所以本著盡可能多的獲取信息渠道的目的,本文引入元搜索引擎的概念,即整合多種搜索引擎。用戶在元搜索引擎上輸入某個(gè)關(guān)鍵字,相當(dāng)于在多種搜索引擎上同時(shí)輸入該關(guān)鍵字并進(jìn)行檢索。本系統(tǒng)不僅便于用戶操作,還能盡量多的搜索到用戶所需要的信息。為了避免信息重復(fù),本系統(tǒng)還實(shí)現(xiàn)了篩選過(guò)濾信息的功能。在此基礎(chǔ)上,為了進(jìn)一步得到更多的客戶信息,本文利用用戶輸入的關(guān)鍵字進(jìn)行擴(kuò)展處理。本文利用了知網(wǎng)這一本體對(duì)搜索的領(lǐng)域關(guān)鍵詞領(lǐng)域進(jìn)行統(tǒng)一建模。本體是表示領(lǐng)域知識(shí)的代表,也是語(yǔ)義網(wǎng)中的重要部分,語(yǔ)義網(wǎng)被認(rèn)為是新一代網(wǎng)絡(luò),即web3.0,本文在研究web3.0的搜索引擎上如何獲取用戶所需要的信息進(jìn)行了探索。本文的研究還包括搜索引擎上爬取信息的工具—網(wǎng)絡(luò)爬蟲(chóng)(也叫網(wǎng)絡(luò)蜘蛛)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取完搜索引擎上公司相關(guān)信息大致分為三類(lèi):公司網(wǎng)站信息、平臺(tái)網(wǎng)站信息和無(wú)關(guān)項(xiàng)信息。其中公司網(wǎng)站信息是我們需要的,平臺(tái)信息是部分需要的,最后的無(wú)關(guān)項(xiàng)信息是直接可以忽略掉的。為了把網(wǎng)絡(luò)爬蟲(chóng)得到的網(wǎng)站信息分成上述三類(lèi)信息,本文采用了文本分類(lèi)領(lǐng)域經(jīng)常使用的算法,樸素貝葉斯算法和K最近鄰算法(KNN)。根據(jù)上述兩種算法思想,首先進(jìn)行文本預(yù)處理,即把半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這里主要利用IKAnalyzer包的中文的分詞處理過(guò)程為主。之后就要統(tǒng)計(jì)每個(gè)中文詞語(yǔ)在某個(gè)類(lèi)(即上述三個(gè)類(lèi))里出現(xiàn)的頻次、該類(lèi)里包含的中文詞語(yǔ)總數(shù)和訓(xùn)練樣本中所有中文詞語(yǔ)的總數(shù)。為了適應(yīng)KNN算法,還需要計(jì)算每個(gè)文檔的TF*IDF值,即詞頻和逆文檔頻率之積。然后對(duì)文本預(yù)處理過(guò)的數(shù)據(jù)進(jìn)行隨機(jī)的測(cè)試集和訓(xùn)練集劃分,即針對(duì)特征詞進(jìn)行訓(xùn)練集和測(cè)試集的劃分。隨后把訓(xùn)練集數(shù)據(jù)用在上述算法公式進(jìn)行訓(xùn)練,最后使用測(cè)試集數(shù)據(jù)再驗(yàn)證算法的分類(lèi)效果。 通過(guò)分析上述理論實(shí)現(xiàn)出來(lái)的分類(lèi)算法的效果,本文在特定領(lǐng)域搜索知識(shí)上取得了較好的結(jié)果,其算法分類(lèi)出來(lái)的平均精確度超過(guò)80%,基本能滿足需求,并且能延伸和借鑒到其他以爬取互聯(lián)網(wǎng)相關(guān)信息為研究的課題上。
【關(guān)鍵詞】:web3.0 網(wǎng)絡(luò)爬蟲(chóng) 本體 K鄰近算法 樸素貝葉斯算法
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-14
- 1.1 本文來(lái)源及研究意義10-11
- 1.2 本文面臨的研究難點(diǎn)11-12
- 1.3 本文主要工作12
- 1.4 本文組織結(jié)構(gòu)12-14
- 第二章 基于 web 3.0 的關(guān)鍵詞擴(kuò)展技術(shù)14-21
- 2.1 web 3.0 含義14-15
- 2.2 語(yǔ)義網(wǎng)15-18
- 2.2.1 語(yǔ)義網(wǎng)概念15-16
- 2.2.2 語(yǔ)義網(wǎng)體系架構(gòu)16-18
- 2.3 本體18-19
- 2.3.1 本體的來(lái)歷18
- 2.3.2 本體建模18-19
- 2.3.3 本體分類(lèi)19
- 2.4 基于本體的關(guān)鍵詞擴(kuò)展19-21
- 第三章 面向元搜索的網(wǎng)絡(luò)爬蟲(chóng)21-30
- 3.1 網(wǎng)絡(luò)爬蟲(chóng)概念21
- 3.2 網(wǎng)絡(luò)爬蟲(chóng)的爬取策略21-23
- 3.3 網(wǎng)絡(luò)爬蟲(chóng)體系結(jié)構(gòu)23-26
- 3.4 網(wǎng)絡(luò)爬蟲(chóng)的工具或程序26-28
- 3.5 元搜索網(wǎng)絡(luò)爬蟲(chóng)28-30
- 第四章 網(wǎng)頁(yè)分類(lèi)算法30-35
- 4.1 樸素貝葉斯算法概述30-31
- 4.2 KNN 算法概述31-32
- 4.3 網(wǎng)頁(yè)分類(lèi)算法32-35
- 第五章 基于 web3.0 網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn)及效果35-51
- 5.1 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)35-47
- 5.1.1 基于 HOWNET 關(guān)鍵詞擴(kuò)展36-39
- 5.1.2 基于元搜索的網(wǎng)絡(luò)爬蟲(chóng)工具39-42
- 5.1.3 分類(lèi)算法設(shè)計(jì)42-47
- 5.2 實(shí)驗(yàn)樣本數(shù)據(jù)來(lái)源47-49
- 5.3 實(shí)現(xiàn)效果49-51
- 第六章 總結(jié)與展望51-53
- 6.1 總結(jié)51
- 6.2 展望51-53
- 參考文獻(xiàn)53-55
- 作者簡(jiǎn)介55-56
- 致謝56
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李湘媛;;Web3.0時(shí)代互聯(lián)網(wǎng)發(fā)展研究[J];中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
2 張耀天;何正友;趙靜;張鵬;李明;桂建廷;;基于粗糙集理論和樸素貝葉斯網(wǎng)絡(luò)的電網(wǎng)故障診斷方法[J];電網(wǎng)技術(shù);2007年01期
3 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類(lèi)器[J];哈爾濱工程大學(xué)學(xué)報(bào);2003年01期
4 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略研究[J];計(jì)算機(jī)工程與科學(xué);2008年03期
5 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
7 汪鵬;;Ontology知識(shí)表示的藝術(shù)[J];計(jì)算機(jī)教育;2004年07期
8 楊建林;;基于本體的文本信息檢索研究[J];情報(bào)理論與實(shí)踐;2006年05期
9 陳向東;余錦鳳;;一種基于本體的知識(shí)組織工具[J];情報(bào)理論與實(shí)踐;2006年06期
10 李潔;丁穎;;語(yǔ)義網(wǎng)關(guān)鍵技術(shù)概述[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年08期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 姜亮;基于語(yǔ)義網(wǎng)技術(shù)的機(jī)械設(shè)計(jì)方法和技術(shù)研究[D];大連理工大學(xué);2009年
本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):262479
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/262479.html