針對(duì)互聯(lián)網(wǎng)公共服務(wù)的搜索引擎關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:針對(duì)互聯(lián)網(wǎng)公共服務(wù)的搜索引擎關(guān)鍵技術(shù)研究
更多相關(guān)文章: 互聯(lián)網(wǎng)公共服務(wù) 搜索引擎 網(wǎng)絡(luò)爬蟲 文本建模
【摘要】:進(jìn)入21世紀(jì),面向服務(wù)架構(gòu)(SOA)被視作是企業(yè)應(yīng)用開發(fā)中的重要架構(gòu)而得到長(zhǎng)足的發(fā)展。起初,SOA僅僅是作為企業(yè)內(nèi)部應(yīng)用的架構(gòu)模式,各應(yīng)用通過服務(wù)的提供與消費(fèi)來降低耦合。隨著互聯(lián)網(wǎng)的高速發(fā)展,有相當(dāng)多的社區(qū)和公共組織將其業(yè)務(wù)以服務(wù)的形式發(fā)布到互聯(lián)網(wǎng)上。這類互聯(lián)網(wǎng)公共服務(wù)并不像Web Service規(guī)范下有著嚴(yán)格的描述規(guī)則,而是由服務(wù)提供者自行編寫一篇HTML文檔進(jìn)行描述。為了能夠有效發(fā)現(xiàn)并檢索這些服務(wù),本文對(duì)面向互聯(lián)網(wǎng)公共服務(wù)的搜索引擎技術(shù)進(jìn)行了深入的研究。針對(duì)互聯(lián)網(wǎng)公共服務(wù)的發(fā)現(xiàn)、索引、檢索三大問題,本文主要研究工作及關(guān)鍵技術(shù)包括:(1)互聯(lián)網(wǎng)公共服務(wù)發(fā)現(xiàn)爬蟲的研究。互聯(lián)網(wǎng)公共服務(wù)發(fā)現(xiàn)爬蟲解決了互聯(lián)網(wǎng)公共服務(wù)的發(fā)現(xiàn)問題,它通過互聯(lián)網(wǎng)公共服務(wù)描述文檔來發(fā)現(xiàn)服務(wù)。針對(duì)互聯(lián)網(wǎng)公共服務(wù)描述文檔多由網(wǎng)頁(yè)腳本生成的特點(diǎn),本文基于瀏覽器內(nèi)核改進(jìn)了簡(jiǎn)單網(wǎng)絡(luò)爬蟲并提出了服務(wù)參數(shù)返回值示例過濾方法,解決了文檔內(nèi)容獲取不準(zhǔn)確的問題。為了使網(wǎng)絡(luò)爬蟲能識(shí)別互聯(lián)網(wǎng)公共服務(wù)描述文檔,考察了多種分類算法,測(cè)定了最合適的算法及參數(shù)。(2)互聯(lián)網(wǎng)公共服務(wù)索引技術(shù)的研究;ヂ(lián)網(wǎng)公共服務(wù)索引技術(shù)解決了互聯(lián)網(wǎng)公共服務(wù)的索引問題,同時(shí)給互聯(lián)網(wǎng)公共服務(wù)的檢索問題提供支撐。本文采用的是詞-文檔矩陣作為互聯(lián)網(wǎng)公共服務(wù)的索引機(jī)制。針對(duì)搜索引擎環(huán)境下詞-文檔矩陣為一個(gè)稀疏矩陣的問題,本文改進(jìn)了詞-文檔矩陣,設(shè)計(jì)了一種壓縮存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu),減少了存儲(chǔ)空間消耗。同時(shí),本文針對(duì)該壓縮存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)了壓縮詞-文檔矩陣的轉(zhuǎn)置算法,仍然能夠保證搜索時(shí)的性能。(3)用戶搜索請(qǐng)求處理與執(zhí)行的研究。用戶搜索請(qǐng)求處理與執(zhí)行解決了互聯(lián)網(wǎng)公共服務(wù)的搜索問題。本文通過分詞、匹配、結(jié)果合并排序三個(gè)步驟處理用戶以自然語(yǔ)言提出的搜索請(qǐng)求。其中在結(jié)果合并排序階段,本文改進(jìn)了基于TF-IDF值和值的方法,設(shè)計(jì)了基于TF-IDF值均值以及標(biāo)準(zhǔn)差的排序方法,與普通搜索引擎的結(jié)果排序方法相比,能夠更加準(zhǔn)確地返回戶需要的互聯(lián)網(wǎng)公共服務(wù)。(4)在上述研究成果的基礎(chǔ)上,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向互聯(lián)網(wǎng)公共服務(wù)的搜索引擎原型系統(tǒng)APISE,并利用APISE從互聯(lián)網(wǎng)抓取的實(shí)驗(yàn)數(shù)據(jù),對(duì)本文關(guān)鍵技術(shù)及解決方案進(jìn)行了實(shí)驗(yàn)驗(yàn)證,驗(yàn)證了本文成果能夠幫助用戶方便、快捷、準(zhǔn)確地找到所需的互聯(lián)網(wǎng)公共服務(wù)API。
【關(guān)鍵詞】:互聯(lián)網(wǎng)公共服務(wù) 搜索引擎 網(wǎng)絡(luò)爬蟲 文本建模
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 引言9-14
- 1.1 研究背景9
- 1.2 互聯(lián)網(wǎng)公共服務(wù)研究現(xiàn)狀9-12
- 1.2.1 互聯(lián)網(wǎng)Web Service9-10
- 1.2.2 語(yǔ)義Web10
- 1.2.3 文本分析10-11
- 1.2.4 百度apistore11
- 1.2.5 apis.io11
- 1.2.6 小結(jié)11-12
- 1.3 本文工作概述12
- 1.3.1 研究目標(biāo)與內(nèi)容12
- 1.3.2 技術(shù)方案與關(guān)鍵技術(shù)概述12
- 1.3.3 研究成果12
- 1.4 本文組織結(jié)構(gòu)12-14
- 第二章 相關(guān)理論與關(guān)鍵技術(shù)14-23
- 2.1 互聯(lián)網(wǎng)公共服務(wù)描述文檔14-15
- 2.2 中文分詞方法15-16
- 2.2.1 最大正向匹配法和最大逆向匹配法15
- 2.2.2 正向迭代最細(xì)粒度切分算法15
- 2.2.3 ICTCLAS15-16
- 2.3 文本特征提取16-17
- 2.3.1 詞頻-逆文檔頻率(TF-IDF)16-17
- 2.3.2 互信息法17
- 2.4 文檔分類方法17-19
- 2.4.1 支持向量機(jī)(SVM)17-19
- 2.4.2 樸素貝葉斯19
- 2.4.3 k近鄰19
- 2.5 網(wǎng)頁(yè)索引技術(shù)19-21
- 2.5.1 倒排索引20
- 2.5.2 詞-文檔矩陣20-21
- 2.6 字典索引結(jié)構(gòu)21
- 2.6.1 B+樹21
- 2.6.2 Log-Structure Merge樹(LSM樹)21
- 2.7 搜索引擎評(píng)價(jià)指標(biāo)21-22
- 2.8 本章小結(jié)22-23
- 第三章 互聯(lián)網(wǎng)公共服務(wù)搜索引擎的關(guān)鍵技術(shù)實(shí)現(xiàn)23-33
- 3.1 互聯(lián)網(wǎng)公共服務(wù)發(fā)現(xiàn)網(wǎng)絡(luò)爬蟲23-27
- 3.1.1 基于瀏覽器內(nèi)核的網(wǎng)絡(luò)爬蟲23-24
- 3.1.2 互聯(lián)網(wǎng)公共服務(wù)描述文檔預(yù)處理算法24-25
- 3.1.3 互聯(lián)網(wǎng)公共服務(wù)描述文檔分類器的訓(xùn)練25-27
- 3.2 互聯(lián)網(wǎng)公共服務(wù)描述文檔索引27-30
- 3.2.1 詞-文檔矩陣的壓縮與轉(zhuǎn)置27-29
- 3.2.2 互聯(lián)網(wǎng)公共服務(wù)描述文檔索引生成與維護(hù)29-30
- 3.3 用戶搜索請(qǐng)求處理30-32
- 3.4 本章小結(jié)32-33
- 第四章 APISE架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)33-36
- 4.1 APISE架構(gòu)設(shè)計(jì)33-34
- 4.2 APISE系統(tǒng)組件實(shí)現(xiàn)34-35
- 4.2.1 數(shù)據(jù)存儲(chǔ)組件34
- 4.2.2 互聯(lián)網(wǎng)公共服務(wù)發(fā)現(xiàn)網(wǎng)絡(luò)爬蟲34
- 4.2.3 互聯(lián)網(wǎng)公共服務(wù)描述文檔索引組件34
- 4.2.4 用戶搜索請(qǐng)求處理組件34-35
- 4.2.5 用戶界面35
- 4.3 本章小結(jié)35-36
- 第五章 APISE和關(guān)鍵技術(shù)評(píng)價(jià)36-44
- 5.1 實(shí)驗(yàn)運(yùn)行環(huán)境36
- 5.2 簡(jiǎn)單網(wǎng)絡(luò)爬蟲與基于瀏覽器內(nèi)核的網(wǎng)絡(luò)爬蟲性能對(duì)比36-37
- 5.3 互聯(lián)網(wǎng)公共服務(wù)描述文檔分類器訓(xùn)練與驗(yàn)證37-40
- 5.3.1 訓(xùn)練樣本集的獲取37-38
- 5.3.2 分類器的訓(xùn)練與驗(yàn)證38-39
- 5.3.3 小結(jié)39-40
- 5.4 APISE檢索效果評(píng)價(jià)40-43
- 5.5 本章小結(jié)43-44
- 第六章 總結(jié)與展望44-46
- 6.1 論文主要工作總結(jié)44
- 6.2 后續(xù)工作展望44-46
- 致謝46-47
- 參考文獻(xiàn)47-49
- 附錄一 互聯(lián)網(wǎng)公共服務(wù)文檔示例49-53
- 附錄二 攻讀碩士學(xué)位期間發(fā)表論文情況53
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
4 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
5 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
7 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
8 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
9 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2012年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陶俊文;基于Heritrix框架的專業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲系統(tǒng)[D];華南理工大學(xué);2015年
2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲的汽車行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長(zhǎng)安大學(xué);2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究[D];中央民族大學(xué);2015年
5 周思華;股票系統(tǒng)之熱門話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
6 丁杰;基于網(wǎng)絡(luò)爬蟲的虛假網(wǎng)頁(yè)主動(dòng)智能檢測(cè)[D];華北電力大學(xué);2015年
7 唐華棟;網(wǎng)頁(yè)防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2015年
,本文編號(hào):655317
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/655317.html