天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 社科論文 > 圖書檔案論文 >

互聯(lián)網(wǎng)輿情信息獲取與分析研究

發(fā)布時(shí)間:2020-04-30 13:13
【摘要】: 本文對(duì)互聯(lián)網(wǎng)輿情信息的獲取和分析做了較深入的討論。利用Rhino腳本解析引擎,有效地解決了互聯(lián)網(wǎng)中JavaScript動(dòng)態(tài)網(wǎng)頁(yè)的獲取問(wèn)題。同時(shí),結(jié)合基于向量空間的文本分類方法和基于語(yǔ)義的文本分類方法,對(duì)傳統(tǒng)的文本傾向性分析進(jìn)行改進(jìn),有效地提高了準(zhǔn)確率和普適性。 本文首先討論了JavaScript動(dòng)態(tài)網(wǎng)頁(yè)的獲取,回顧了網(wǎng)頁(yè)獲取領(lǐng)域的已有成果,列舉了網(wǎng)頁(yè)獲取領(lǐng)域的基本知識(shí),包括HTML語(yǔ)言、HTTP協(xié)議以及URL統(tǒng)一資源定位符等基本概念,以及動(dòng)態(tài)網(wǎng)頁(yè)方面的相關(guān)知識(shí)。同時(shí)指出了,隨著網(wǎng)頁(yè)技術(shù)的快速發(fā)展,網(wǎng)頁(yè)獲取技術(shù)需要做相應(yīng)的改進(jìn)。 在回顧網(wǎng)頁(yè)獲取領(lǐng)域已有成果的基礎(chǔ)上,本文針對(duì)其中的鏈接獲取機(jī)制做了詳細(xì)的說(shuō)明。盡管傳統(tǒng)的網(wǎng)頁(yè)獲取技術(shù)可以利用HTML語(yǔ)言的一些特點(diǎn),提取出網(wǎng)頁(yè)中包含的鏈接地址,然而由于網(wǎng)頁(yè)技術(shù)的發(fā)展,越來(lái)越多的網(wǎng)頁(yè)將鏈接地址隱藏在網(wǎng)頁(yè)腳本中。鑒于此,本文通過(guò)認(rèn)真分析,認(rèn)為需要在網(wǎng)頁(yè)獲取技術(shù)中增加腳本解析環(huán)節(jié)。通過(guò)本文的測(cè)試驗(yàn)證,證明了增加腳本解析環(huán)節(jié)后,可以有效地提高網(wǎng)頁(yè)的獲取率。 接著,本文還討論了網(wǎng)頁(yè)文本傾向性問(wèn)題的研究,回顧了文本分類領(lǐng)域的已有成果,列舉了文本分類領(lǐng)域中的幾個(gè)重要知識(shí),包括文本分詞,文本表示,特征選擇,以及分類方法。指出了隨著技術(shù)的發(fā)展,文本傾向性分析將是文本分類的一個(gè)重要發(fā)展方向。 在回顧文本分類領(lǐng)域已有成果的基礎(chǔ)上,本文針對(duì)其中的分類方法做了詳細(xì)說(shuō)明。盡管現(xiàn)有的分類技術(shù)可以有效地將文本分為體育、娛樂(lè)、政治等類別,但是還不能有效地根據(jù)文本作者想表達(dá)的情感特征進(jìn)行分類。本文通過(guò)認(rèn)真分析,認(rèn)為在基于向量空間模型的分類方法中可以適當(dāng)?shù)亟梃b基于語(yǔ)義的分類方法中的權(quán)重設(shè)置方法。通過(guò)本文的測(cè)試驗(yàn)證,本文提出的綜合的方法,可以有效地對(duì)文本進(jìn)行傾向性分類。
【圖文】:

源代碼,網(wǎng)頁(yè),社區(qū),頁(yè)面


圖 5- 2 凱迪社區(qū)網(wǎng)頁(yè)初始源代碼Figure 5- 2 Original Code of Web Page from KaiDi Forum接著,將該網(wǎng)頁(yè)地址作為本文程序的輸入,經(jīng)過(guò)本文方法的處理后,可以看到以下結(jié)果,如圖 5- 3 所示?梢园l(fā)現(xiàn)原先出現(xiàn)腳本的地方,出現(xiàn)段標(biāo)準(zhǔn)的 HTML 代碼,而該段代碼就是一個(gè)標(biāo)準(zhǔn)的超級(jí)鏈接,此時(shí)就可以HTML 標(biāo)記識(shí)別方法提取頁(yè)面中的 URL 信息了,也就可以獲取頁(yè)面內(nèi)的帖題鏈接。

網(wǎng)頁(yè),代碼


圖 5- 2 凱迪社區(qū)網(wǎng)頁(yè)初始源代碼Figure 5- 2 Original Code of Web Page from KaiDi Forum接著,將該網(wǎng)頁(yè)地址作為本文程序的輸入,經(jīng)過(guò)本文方法的處理后,可以看到以下結(jié)果,如圖 5- 3 所示?梢园l(fā)現(xiàn)原先出現(xiàn)腳本的地方,出現(xiàn)段標(biāo)準(zhǔn)的 HTML 代碼,而該段代碼就是一個(gè)標(biāo)準(zhǔn)的超級(jí)鏈接,,此時(shí)就可以HTML 標(biāo)記識(shí)別方法提取頁(yè)面中的 URL 信息了,也就可以獲取頁(yè)面內(nèi)的帖題鏈接。
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP312.2;G250.73

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 葛斌;蔣林承;肖延?xùn)|;史宗麟;郭絲路;;網(wǎng)絡(luò)論壇意見(jiàn)領(lǐng)袖挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年22期

2 王曉艷;梁晉春;郭曉霞;姚穎穎;汪瑛;;基于互聯(lián)網(wǎng)的數(shù)字媒體內(nèi)容輿情分析系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2011年08期

3 劉金亮;蘇琳;石云;;基于Nutch的垂直搜索技術(shù)研究[J];電腦知識(shí)與技術(shù);2011年24期

4 ;[J];;年期

5 ;[J];;年期

6 ;[J];;年期

7 ;[J];;年期

8 ;[J];;年期

9 ;[J];;年期

10 ;[J];;年期

相關(guān)會(huì)議論文 前3條

1 周國(guó)民;丘耘;鄭彥妍;曾枝連;樊景超;;基于SDD算法的特定網(wǎng)頁(yè)采集技術(shù)[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

2 劉艷民;;中文網(wǎng)頁(yè)分類方法的研究[A];2009年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2009年

3 張凱;李魁;張剛;王斌;;基于站點(diǎn)的Web信息采集器研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前3條

1 ;評(píng)測(cè)公告[N];中國(guó)計(jì)算機(jī)報(bào);2004年

2 四川 陳偉;用“Ctrl+C”組合鍵復(fù)制加密的網(wǎng)頁(yè)[N];電腦報(bào);2004年

3 記者 徐建;宣城暢通網(wǎng)絡(luò)輿情解民意[N];安徽日?qǐng)?bào);2008年

相關(guān)碩士學(xué)位論文 前10條

1 金曉鷗;互聯(lián)網(wǎng)輿情信息獲取與分析研究[D];上海交通大學(xué);2008年

2 賈春鑫;面向主題的雙約束網(wǎng)頁(yè)采集方法的研究和實(shí)現(xiàn)[D];上海交通大學(xué);2011年

3 白紅霞;支持JavaScript解析的網(wǎng)頁(yè)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東北大學(xué);2008年

4 楊超;基于網(wǎng)格的大規(guī)模網(wǎng)頁(yè)采集技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

5 朱志寧;基于Web的企業(yè)競(jìng)爭(zhēng)情報(bào)智能搜集平臺(tái)中頁(yè)面分析存儲(chǔ)的研究[D];昆明理工大學(xué);2006年

6 肖偉;基于語(yǔ)義的BLOG社區(qū)文本傾向性分析[D];上海交通大學(xué);2007年

7 管敏杰;WEB文本挖掘系統(tǒng)[D];浙江工商大學(xué);2007年

8 張曉峰;并行網(wǎng)頁(yè)抓取系統(tǒng)設(shè)計(jì)[D];北京交通大學(xué);2007年

9 李麗莉;網(wǎng)絡(luò)信息監(jiān)控分析系統(tǒng)的研究與設(shè)計(jì)[D];江西師范大學(xué);2008年

10 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年



本文編號(hào):2645805

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2645805.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6c24f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com