服務(wù)的信息抓取和分析模塊的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-10-16 14:01
本文關(guān)鍵詞:服務(wù)的信息抓取和分析模塊的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: RESTful服務(wù) 樸素貝葉斯 爬蟲 信息提取 主題分析
【摘要】:隨著Web服務(wù)的發(fā)展不斷深入,RESTful Web服務(wù)憑借其輕量級、擴(kuò)展性等優(yōu)勢得到了飛速發(fā)展,但由于大多數(shù)RESTful服務(wù)文檔只是普通的HTML頁面,使得如何有效識別和抓取RESTful服務(wù)成為服務(wù)發(fā)現(xiàn)領(lǐng)域面臨的一個(gè)重要研究問題。同時(shí),移動應(yīng)用市場也在飛速擴(kuò)張,并具有應(yīng)用數(shù)量大、用戶覆蓋廣等特點(diǎn),但由于移動應(yīng)用信息的紛繁復(fù)雜,面臨著難以提取和分析移動應(yīng)用信息以及用戶評論信息的問題。 在這樣的背景下,本文設(shè)計(jì)并實(shí)現(xiàn)了服務(wù)的信息抓取和分析模塊,包括基于服務(wù)爬蟲引擎的服務(wù)抓取子模塊和基于網(wǎng)頁信息提取和主題分析的服務(wù)信息分析子模塊兩個(gè)部分,能夠完成對RESTful服務(wù)和移動應(yīng)用信息的識別、抓取和分析。 本文首先介紹了國內(nèi)外對服務(wù)的抓取和分析問題的研究現(xiàn)狀,并詳細(xì)介紹了服務(wù)爬蟲、RESTful服務(wù)識別、網(wǎng)頁信息提取和用戶評論主題分析等相關(guān)領(lǐng)域的技術(shù)知識。然后對服務(wù)的抓取和信息分析模塊的需求進(jìn)行了分析,并對RESTful服務(wù)的識別和移動應(yīng)用的用戶評論主題分析進(jìn)行了深入的研究。本文提出了基于樸素貝葉斯分類器和向量空間模型的RESTful服務(wù)識別方法,能夠分別分析網(wǎng)頁的文本內(nèi)容和結(jié)構(gòu)特征并綜合得到識別結(jié)果,實(shí)驗(yàn)驗(yàn)證了本文的識別方法能夠得到較高的準(zhǔn)確率和召回率。針對移動應(yīng)用的用戶評論主題分析問題,本文采用基于情感分類和LDA主題模型的主題提取方法,提取出正面評論和負(fù)面評論的熱門評論主題以及主題詞,并通過實(shí)驗(yàn)驗(yàn)證了本文的主題建模方法能夠得到較好的建模效果。接下來本文給出了服務(wù)的信息抓取與分析模塊的總體設(shè)計(jì),并詳細(xì)介紹了各個(gè)子模塊的功能和處理流程,通過集成測試驗(yàn)證了本模塊能夠滿足本課題的需求。最后對本文的工作進(jìn)行了總結(jié)并展望下一步的工作。
【關(guān)鍵詞】:RESTful服務(wù) 樸素貝葉斯 爬蟲 信息提取 主題分析
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.09
【目錄】:
- 摘要4-5
- ABSTRACT5-7
- 目錄7-10
- 第1章 引言10-15
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-12
- 1.3 論文主要工作12-13
- 1.4 論文結(jié)構(gòu)13-14
- 1.5 本章小結(jié)14-15
- 第2章 相關(guān)技術(shù)15-22
- 2.1 RESTful服務(wù)的識別15-17
- 2.1.1 樸素貝葉斯分類器15-16
- 2.1.2 向量空間模型16-17
- 2.2 服務(wù)的抓取17-18
- 2.3 服務(wù)信息的提取18-19
- 2.4 用戶評論的分析19-21
- 2.4.1 LDA主題模型20-21
- 2.4.2 情感分類21
- 2.5 本章小結(jié)21-22
- 第3章 需求分析22-26
- 3.1 服務(wù)信息的抓取和分析模塊的需求的提出22-23
- 3.2 服務(wù)信息的抓取與分析模塊的功能性需求23-25
- 3.2.1 服務(wù)的抓取子模塊的功能性需求23-24
- 3.2.2 服務(wù)信息的分析子模塊的功能性需求24-25
- 3.3 服務(wù)信息的抓取與分析模塊的非功能性需求25
- 3.4 本章小結(jié)25-26
- 第4章 RESTful服務(wù)識別方法26-40
- 4.1 RESTful服務(wù)識別方法設(shè)計(jì)26-28
- 4.2 RESTful服務(wù)分類器訓(xùn)練28-31
- 4.2.1 基于網(wǎng)頁結(jié)構(gòu)的特征詞庫生成30-31
- 4.3 RESTful服務(wù)分類器識別31-34
- 4.4 實(shí)驗(yàn)結(jié)果及評價(jià)34-39
- 4.4.1 數(shù)據(jù)集34-35
- 4.4.2 參數(shù)調(diào)整實(shí)驗(yàn)35-38
- 4.4.3 對比實(shí)驗(yàn)38-39
- 4.5 本章小結(jié)39-40
- 第5章 App用戶評論主題分析方法40-53
- 5.1 App用戶評論主題分析方法設(shè)計(jì)40-41
- 5.2 用戶評論的情感分類41-43
- 5.2.1 基于樸素貝葉斯分類器的情感分類方法41-42
- 5.2.2 基于SentiWordNet的情感分類方法42-43
- 5.3 用戶評論的主題提取43-46
- 5.3.1 基于LDA主題模型的主題提取方法43-45
- 5.3.2 主題及主題詞篩選方法45
- 5.3.3 主題模型的評估45-46
- 5.4 實(shí)驗(yàn)結(jié)果及評價(jià)46-52
- 5.4.1 數(shù)據(jù)集46-47
- 5.4.2 情感分類對比實(shí)驗(yàn)47-49
- 5.4.3 主題提取實(shí)驗(yàn)49-52
- 5.5 本章小結(jié)52-53
- 第6章 服務(wù)信息的抓取與分析模塊設(shè)計(jì)與實(shí)現(xiàn)53-75
- 6.1 總體設(shè)計(jì)53-54
- 6.2 服務(wù)的抓取子模塊54-58
- 6.2.1 RESTful服務(wù)識別模塊55-57
- 6.2.2 移動應(yīng)用的URL鏈接過濾模塊57
- 6.2.3 用戶評論的抓取模塊57-58
- 6.3 服務(wù)信息的分析子模塊58-63
- 6.3.1 移動應(yīng)用的信息提取模塊59-60
- 6.3.2 移動應(yīng)用的用戶評論分析模塊60-63
- 6.4 關(guān)鍵模塊說明63-74
- 6.4.1 RESTful服務(wù)識別子模塊63-67
- 6.4.2 移動應(yīng)用頁面信息提取子模塊67-70
- 6.4.3 移動應(yīng)用用戶評論主題分析子模塊70-73
- 6.4.4 服務(wù)信息存儲和信息分析存儲子模塊73-74
- 6.5 本章小結(jié)74-75
- 第7章 集成測試75-82
- 7.1 測試環(huán)境說明75
- 7.2 測試數(shù)據(jù)來源75-76
- 7.3 測試用例說明76-81
- 7.3.1 RESTful服務(wù)的識別與抓取76-77
- 7.3.2 移動應(yīng)用頁面的抓取77-78
- 7.3.3 移動應(yīng)用的用戶評論的抓取78-79
- 7.3.4 移動應(yīng)用頁面的信息提取79-80
- 7.3.5 移動應(yīng)用的用戶評論的主題分析80-81
- 7.4 測試結(jié)果分析81
- 7.5 本章小結(jié)81-82
- 第8章 結(jié)束語82-83
- 8.1 論文工作總結(jié)82
- 8.2 未來工作展望82-83
- 參考文獻(xiàn)83-85
- 附錄85-86
- 致謝86-87
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄87
- 攻讀碩士學(xué)位期間的主要工作87
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前8條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識與技術(shù);2012年25期
3 詹毅;;樸素貝葉斯算法和SVM算法在Web文本分類中的效率分析[J];成都大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
4 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
5 王輝;王暉昱;左萬利;;觀點(diǎn)挖掘綜述[J];計(jì)算機(jī)應(yīng)用研究;2009年01期
6 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動化學(xué)報(bào);2009年12期
7 余傳明;張小青;陳雷;;基于LDA模型的評論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報(bào)理論與實(shí)踐;2010年05期
8 帖晶;方慶安;;一種基于線性回歸的非結(jié)構(gòu)化WEB服務(wù)識別方法[J];軟件;2011年05期
,本文編號:1043055
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1043055.html
最近更新
教材專著