天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究

發(fā)布時(shí)間:2017-03-23 00:02

  本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)已經(jīng)發(fā)展到web2.0時(shí)代,并且開(kāi)始邁向web3.0,搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)上獲取信息不可替代的渠道。在這種時(shí)代背景下,如何更有效的利用搜索引擎,發(fā)掘更有價(jià)值或者特定領(lǐng)域的信息是擺在眼前的問(wèn)題。本系統(tǒng)就是在這種背景下研究如何獲取客戶來(lái)源渠道以及特定客戶信息。 本系統(tǒng)是銷(xiāo)售團(tuán)隊(duì)智能管理系統(tǒng)中的子模塊,,是專門(mén)為該銷(xiāo)售系統(tǒng)里的客戶查找模塊提供客戶資源的。該模塊主要功能是為用戶提供來(lái)源于互聯(lián)網(wǎng)的公司客戶信息,這也是該軟件與傳統(tǒng)銷(xiāo)售軟件區(qū)別之一。傳統(tǒng)上這些公司客戶信息要么是來(lái)源于自己歷年積累的客戶信息,要么就是來(lái)源于網(wǎng)上的黃頁(yè)網(wǎng)站(如阿里巴巴和慧聰網(wǎng)等),但總的來(lái)說(shuō)包含的有效公司信息還是比較有限的。如今搜索引擎已經(jīng)是人們獲取信息最重要的來(lái)源,有效利用該資源獲取信息,就顯得尤為重要。如今有多種搜索引擎,對(duì)本文來(lái)說(shuō)每一種搜索引擎都是從互聯(lián)網(wǎng)獲取信息的重要通道,所以本著盡可能多的獲取信息渠道的目的,本文引入元搜索引擎的概念,即整合多種搜索引擎。用戶在元搜索引擎上輸入某個(gè)關(guān)鍵字,相當(dāng)于在多種搜索引擎上同時(shí)輸入該關(guān)鍵字并進(jìn)行檢索。本系統(tǒng)不僅便于用戶操作,還能盡量多的搜索到用戶所需要的信息。為了避免信息重復(fù),本系統(tǒng)還實(shí)現(xiàn)了篩選過(guò)濾信息的功能。在此基礎(chǔ)上,為了進(jìn)一步得到更多的客戶信息,本文利用用戶輸入的關(guān)鍵字進(jìn)行擴(kuò)展處理。本文利用了知網(wǎng)這一本體對(duì)搜索的領(lǐng)域關(guān)鍵詞領(lǐng)域進(jìn)行統(tǒng)一建模。本體是表示領(lǐng)域知識(shí)的代表,也是語(yǔ)義網(wǎng)中的重要部分,語(yǔ)義網(wǎng)被認(rèn)為是新一代網(wǎng)絡(luò),即web3.0,本文在研究web3.0的搜索引擎上如何獲取用戶所需要的信息進(jìn)行了探索。本文的研究還包括搜索引擎上爬取信息的工具—網(wǎng)絡(luò)爬蟲(chóng)(也叫網(wǎng)絡(luò)蜘蛛)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取完搜索引擎上公司相關(guān)信息大致分為三類(lèi):公司網(wǎng)站信息、平臺(tái)網(wǎng)站信息和無(wú)關(guān)項(xiàng)信息。其中公司網(wǎng)站信息是我們需要的,平臺(tái)信息是部分需要的,最后的無(wú)關(guān)項(xiàng)信息是直接可以忽略掉的。為了把網(wǎng)絡(luò)爬蟲(chóng)得到的網(wǎng)站信息分成上述三類(lèi)信息,本文采用了文本分類(lèi)領(lǐng)域經(jīng)常使用的算法,樸素貝葉斯算法和K最近鄰算法(KNN)。根據(jù)上述兩種算法思想,首先進(jìn)行文本預(yù)處理,即把半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這里主要利用IKAnalyzer包的中文的分詞處理過(guò)程為主。之后就要統(tǒng)計(jì)每個(gè)中文詞語(yǔ)在某個(gè)類(lèi)(即上述三個(gè)類(lèi))里出現(xiàn)的頻次、該類(lèi)里包含的中文詞語(yǔ)總數(shù)和訓(xùn)練樣本中所有中文詞語(yǔ)的總數(shù)。為了適應(yīng)KNN算法,還需要計(jì)算每個(gè)文檔的TF*IDF值,即詞頻和逆文檔頻率之積。然后對(duì)文本預(yù)處理過(guò)的數(shù)據(jù)進(jìn)行隨機(jī)的測(cè)試集和訓(xùn)練集劃分,即針對(duì)特征詞進(jìn)行訓(xùn)練集和測(cè)試集的劃分。隨后把訓(xùn)練集數(shù)據(jù)用在上述算法公式進(jìn)行訓(xùn)練,最后使用測(cè)試集數(shù)據(jù)再驗(yàn)證算法的分類(lèi)效果。 通過(guò)分析上述理論實(shí)現(xiàn)出來(lái)的分類(lèi)算法的效果,本文在特定領(lǐng)域搜索知識(shí)上取得了較好的結(jié)果,其算法分類(lèi)出來(lái)的平均精確度超過(guò)80%,基本能滿足需求,并且能延伸和借鑒到其他以爬取互聯(lián)網(wǎng)相關(guān)信息為研究的課題上。
【關(guān)鍵詞】:web3.0 網(wǎng)絡(luò)爬蟲(chóng) 本體 K鄰近算法 樸素貝葉斯算法
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 緒論10-14
  • 1.1 本文來(lái)源及研究意義10-11
  • 1.2 本文面臨的研究難點(diǎn)11-12
  • 1.3 本文主要工作12
  • 1.4 本文組織結(jié)構(gòu)12-14
  • 第二章 基于 web 3.0 的關(guān)鍵詞擴(kuò)展技術(shù)14-21
  • 2.1 web 3.0 含義14-15
  • 2.2 語(yǔ)義網(wǎng)15-18
  • 2.2.1 語(yǔ)義網(wǎng)概念15-16
  • 2.2.2 語(yǔ)義網(wǎng)體系架構(gòu)16-18
  • 2.3 本體18-19
  • 2.3.1 本體的來(lái)歷18
  • 2.3.2 本體建模18-19
  • 2.3.3 本體分類(lèi)19
  • 2.4 基于本體的關(guān)鍵詞擴(kuò)展19-21
  • 第三章 面向元搜索的網(wǎng)絡(luò)爬蟲(chóng)21-30
  • 3.1 網(wǎng)絡(luò)爬蟲(chóng)概念21
  • 3.2 網(wǎng)絡(luò)爬蟲(chóng)的爬取策略21-23
  • 3.3 網(wǎng)絡(luò)爬蟲(chóng)體系結(jié)構(gòu)23-26
  • 3.4 網(wǎng)絡(luò)爬蟲(chóng)的工具或程序26-28
  • 3.5 元搜索網(wǎng)絡(luò)爬蟲(chóng)28-30
  • 第四章 網(wǎng)頁(yè)分類(lèi)算法30-35
  • 4.1 樸素貝葉斯算法概述30-31
  • 4.2 KNN 算法概述31-32
  • 4.3 網(wǎng)頁(yè)分類(lèi)算法32-35
  • 第五章 基于 web3.0 網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn)及效果35-51
  • 5.1 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)35-47
  • 5.1.1 基于 HOWNET 關(guān)鍵詞擴(kuò)展36-39
  • 5.1.2 基于元搜索的網(wǎng)絡(luò)爬蟲(chóng)工具39-42
  • 5.1.3 分類(lèi)算法設(shè)計(jì)42-47
  • 5.2 實(shí)驗(yàn)樣本數(shù)據(jù)來(lái)源47-49
  • 5.3 實(shí)現(xiàn)效果49-51
  • 第六章 總結(jié)與展望51-53
  • 6.1 總結(jié)51
  • 6.2 展望51-53
  • 參考文獻(xiàn)53-55
  • 作者簡(jiǎn)介55-56
  • 致謝56

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李湘媛;;Web3.0時(shí)代互聯(lián)網(wǎng)發(fā)展研究[J];中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期

2 張耀天;何正友;趙靜;張鵬;李明;桂建廷;;基于粗糙集理論和樸素貝葉斯網(wǎng)絡(luò)的電網(wǎng)故障診斷方法[J];電網(wǎng)技術(shù);2007年01期

3 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類(lèi)器[J];哈爾濱工程大學(xué)學(xué)報(bào);2003年01期

4 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略研究[J];計(jì)算機(jī)工程與科學(xué);2008年03期

5 龐劍鋒,卜東波,白碩;基于向量空間模型的文本自動(dòng)分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2001年09期

6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

7 汪鵬;;Ontology知識(shí)表示的藝術(shù)[J];計(jì)算機(jī)教育;2004年07期

8 楊建林;;基于本體的文本信息檢索研究[J];情報(bào)理論與實(shí)踐;2006年05期

9 陳向東;余錦鳳;;一種基于本體的知識(shí)組織工具[J];情報(bào)理論與實(shí)踐;2006年06期

10 李潔;丁穎;;語(yǔ)義網(wǎng)關(guān)鍵技術(shù)概述[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年08期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 姜亮;基于語(yǔ)義網(wǎng)技術(shù)的機(jī)械設(shè)計(jì)方法和技術(shù)研究[D];大連理工大學(xué);2009年


  本文關(guān)鍵詞:基于web3.0網(wǎng)絡(luò)爬蟲(chóng)自主學(xué)習(xí)技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):262479

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/262479.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76c93***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
又大又长又粗又黄国产| 亚洲欧洲精品一区二区三区 | 美女激情免费在线观看| 国产精品一区二区传媒蜜臀| 富婆又大又白又丰满又紧又硬| 手机在线不卡国产视频| 99精品国产一区二区青青| 午夜国产精品福利在线观看| 国产精品一区二区视频| 日韩日韩欧美国产精品| 精品少妇一区二区视频| 欧美字幕一区二区三区| av在线免费播放一区二区| 日韩人妻欧美一区二区久久| 丰满人妻少妇精品一区二区三区| 久久精品中文字幕人妻中文| 高清不卡视频在线观看| 中文文精品字幕一区二区| 日本不卡一本二本三区| 不卡视频在线一区二区三区| 精品精品国产自在久久高清| 中文字幕一区久久综合| 午夜精品在线视频一区| 高潮日韩福利在线观看| 厕所偷拍一区二区三区视频| 亚洲清纯一区二区三区| 精品丝袜一区二区三区性色| 丝袜av一区二区三区四区五区| 免费观看成人免费视频| 亚洲欧美日韩在线看片| 沐浴偷拍一区二区视频| 亚洲av熟女国产一区二区三区站| 亚洲精品偷拍一区二区三区 | 国产精品一区二区传媒蜜臀| 日韩三极片在线免费播放| 中文字幕人妻一区二区免费 | 尹人大香蕉中文在线播放| 午夜激情视频一区二区| 视频一区中文字幕日韩| 男女一进一出午夜视频| av一区二区三区天堂|