互聯(lián)網(wǎng)上少數(shù)民族信息統(tǒng)計分析的關(guān)鍵技術(shù)研究
本文選題:聚焦搜索 + 輿情監(jiān)控; 參考:《中央民族大學(xué)》2012年碩士論文
【摘要】:隨著網(wǎng)絡(luò)的迅速發(fā)展,互聯(lián)網(wǎng)已成為海量信息的載體。搜索引擎的出現(xiàn)為人們使用互聯(lián)網(wǎng)提供了較好的便利性,同時也成為研究網(wǎng)站用戶行為的有效工具。近年來伴隨著網(wǎng)絡(luò)的興起,民族問題是困擾我國發(fā)展的一大障礙,其在互聯(lián)網(wǎng)中的傳播也愈來愈突出。如何運用已有搜索引擎對互聯(lián)網(wǎng)中民族問題的傳播進(jìn)行監(jiān)督成為目前網(wǎng)絡(luò)輿情監(jiān)控的一大課題。本文著重對網(wǎng)絡(luò)中民族問題特定信息提取面臨的關(guān)鍵技術(shù)進(jìn)行研究。 本文首先介紹了聚焦搜索引擎及相關(guān)關(guān)鍵技術(shù)發(fā)展概況及原理,重點介紹了常見的網(wǎng)頁分類算法、網(wǎng)頁關(guān)鍵信息提取及抓取策略,為本文所設(shè)計的基于搜索引擎的聚焦爬蟲算法及實現(xiàn)提供理論基礎(chǔ)。搜索引擎搜索結(jié)果并不能完全與用戶的需求匹配,且在某些情況下給出的搜索信息量明顯不足。因此對搜索引擎搜索結(jié)果進(jìn)行進(jìn)一步聚焦搜索具有一定的價值。 互聯(lián)網(wǎng)中信息主要以HTML頁面形式出現(xiàn),而HTML具有明顯的分類特點。網(wǎng)頁代碼中大量的信息與搜索信息關(guān)聯(lián)度很低,使得優(yōu)化網(wǎng)頁代碼搜索機(jī)制顯得極其重要。由于搜索的目的性較強(qiáng),使得搜索的要求,如對特定事件中網(wǎng)頁的共同特點,具有明顯的結(jié)構(gòu)化,因此選用空間向量對網(wǎng)頁代碼進(jìn)行簡化,并基于向量空問模型對問題進(jìn)行算法設(shè)計。 算法首先將模型分為兩大模塊,百度搜索模塊和聚焦搜索模塊。百度搜索模塊通過算法實現(xiàn)對搜索詞在百度搜索引擎上進(jìn)行抓取搜索結(jié)果對應(yīng)的URL等信息,得到相應(yīng)的初始URL隊列;聚焦搜索模塊實現(xiàn)以此初始URL隊列作為起點,基于空間向量模型通過KNN分類算法在網(wǎng)絡(luò)中實現(xiàn)聚焦爬蟲搜索,得到相應(yīng)的搜索結(jié)果。 最后本文完成對算法的初步實現(xiàn),并對結(jié)果進(jìn)行簡要統(tǒng)計分析。通過搜索結(jié)果中所含信息的特點與社會中影響網(wǎng)絡(luò)傳播的事件進(jìn)行分析,得到搜索結(jié)果與社會中敏感信息來源匹配,證明搜索結(jié)果的可操作性和有效性,為算法實現(xiàn)的進(jìn)一步優(yōu)化提供數(shù)據(jù)支持。
[Abstract]:With the rapid development of network, the Internet has become the carrier of mass information. The appearance of search engine provides a good convenience for people to use the Internet, and it has also become an effective tool to study the behavior of web users. In recent years, with the rise of the network, the national problem is a major obstacle to the development of our country, which is in the Internet. The spread is also becoming more and more prominent. How to use the existing search engines to spread ethnic issues in Internet supervision has become an important subject of the current network public opinion monitoring. This paper focuses on the network in the information extraction of ethnic problems the key technology research.
This paper first introduces the development and principle of focused search engine and related key technologies, and focuses on the common web page classification algorithm, the key information extraction and grasping strategy of web pages, which provides a theoretical basis for the search engine based focused crawler algorithm and implementation. The search engine search results can not be completely used. The needs of users, and in some cases, the amount of search information is obviously insufficient. So the search engine search results to further focus has a certain value to search.
The information in the Internet appears mainly in the form of HTML pages, while HTML has obvious classification characteristics. A large number of information in the web code is very low in association with search information. It makes it extremely important to optimize the search mechanism of the web page. It has obvious structure, so the space vector is used to simplify the web code, and the algorithm is designed based on vector space query model.
The algorithm first divides the model into two modules, the Baidu search module and the focus search module. The Baidu search module achieves the corresponding initial URL queue through the algorithm, which is corresponding to the search results of the search results on the Baidu search engine, and the focus search module realizes the initial URL queue as the starting point and is based on the space. The inter vector model realizes the focused crawler search in the network through the KNN classification algorithm, and obtains the corresponding search results.
Finally, the preliminary realization of the algorithm is completed, and the results are briefly analyzed. Through the analysis of the characteristics of the information contained in the search results and the events that affect the network propagation in the society, the search results are matched with the sensitive information sources in the society, which proves the maneuverability and effectiveness of the search results, which is the advance of the algorithm. Step optimization provides data support.
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP393.09
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李紹華;Web查詢的關(guān)系數(shù)據(jù)庫模型[J];計算機(jī)應(yīng)用;1999年08期
2 李紹華;Web超樹模型與數(shù)據(jù)的重構(gòu)[J];計算機(jī)應(yīng)用研究;1999年08期
3 趙仁鎧,候蕾;World Wide Web概述[J];現(xiàn)代計算機(jī);1999年06期
4 林慶福,余金山,吳金龍;基于Java的HTTP服務(wù)器的實現(xiàn)[J];福建電腦;2003年01期
5 孫琨,曹勇;利用CGI技術(shù)實現(xiàn)WEB服務(wù)器與DBF數(shù)據(jù)庫文件的連接[J];計算機(jī)系統(tǒng)應(yīng)用;1998年09期
6 吳林,郭翔;Java的多媒體編程方法實例[J];電腦編程技巧與維護(hù);1998年02期
7 呂強(qiáng),郭蕾,貢正仙,楊季文;一個Web抓取器的實現(xiàn)[J];微機(jī)發(fā)展;2001年01期
8 李澤軍;JAVA網(wǎng)絡(luò)通訊方式的探討[J];企業(yè)技術(shù)開發(fā);2004年03期
9 卿小兵,譚劍;一臺NT服務(wù)器上實現(xiàn)多臺Web服務(wù)器功能[J];計算機(jī)系統(tǒng)應(yīng)用;1999年07期
10 涂育紅,張穎江;Internet主頁后臺采集器的研究與實現(xiàn)[J];湖北工學(xué)院學(xué)報;1999年Z1期
相關(guān)會議論文 前10條
1 宋巍;張宇;謝毓彬;高漢東;劉挺;李生;;利用URL類別改進(jìn)查詢主題分類[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁防篡改系統(tǒng)實現(xiàn)方法研究[A];2011年中國氣象學(xué)會氣象通信與信息技術(shù)委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
3 林磊;劉燕兵;譚建龍;郭莉;;一種基于MPHF和Bloom Filter的URL查找算法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
4 袁志堅;賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
5 蔡麗萍;李茂青;;一種基于模糊聚類的日志挖掘方法及應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
6 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
7 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁和超鏈的分類[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
8 李戰(zhàn)勝;杜亞軍;齊冬梅;;個人Web搜索服務(wù)系統(tǒng)的研究[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
9 蔡黎;趙軍;;Automatic Identification of User Intent Based on Click Through Data[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
10 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2000年
相關(guān)重要報紙文章 前10條
1 山東 楊鑫芳;網(wǎng)絡(luò)釣魚與URL欺騙[N];電子報;2009年
2 黎哮蒼;百度“交友型”網(wǎng)頁發(fā)布暫未見IM蹤影[N];第一財經(jīng)日報;2008年
3 本報記者 那罡;新應(yīng)用為URL過濾系統(tǒng)帶來新挑戰(zhàn)[N];中國計算機(jī)報;2009年
4 記者 董福;中國萬網(wǎng)正式提供中文域名解析和URL轉(zhuǎn)發(fā)技術(shù)服務(wù)[N];北京科技報;2001年
5 黃璞琳;有償顯示信息應(yīng)具有廣告識別性[N];中國工商報;2011年
6 新疆維吾爾自治區(qū)煙草公司 張勇;網(wǎng)絡(luò)釣魚如何防范?[N];計算機(jī)世界;2010年
7 特約記者 張寧;網(wǎng)絡(luò)“亂收費”[N];電腦報;2002年
8 本報記者 邊歆;趕潮SaaS[N];網(wǎng)絡(luò)世界;2007年
9 ;瞄準(zhǔn)下一步的3721[N];網(wǎng)絡(luò)世界;2000年
10 本報記者 張彤;分類控制 精細(xì)優(yōu)化[N];網(wǎng)絡(luò)世界;2010年
相關(guān)博士學(xué)位論文 前10條
1 張健毅;大規(guī)模反釣魚識別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
2 陸銘;WEB2.0網(wǎng)絡(luò)熱點發(fā)現(xiàn)與個性化檢索研究[D];中國科學(xué)技術(shù)大學(xué);2012年
3 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
4 朱志國;Web用戶使用模式與興趣挖掘方法研究[D];大連理工大學(xué);2010年
5 徐軍;面向金融信息檢索的體裁分類與情感分析技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
6 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
7 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
8 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
9 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年
10 段曼妮;圖像挖掘在圖像檢索中的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 馮勝;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重研究[D];重慶大學(xué);2010年
2 王運松;互聯(lián)網(wǎng)上少數(shù)民族信息統(tǒng)計分析的關(guān)鍵技術(shù)研究[D];中央民族大學(xué);2012年
3 周佩穎;惡意的URL捕獲分析系統(tǒng)[D];電子科技大學(xué);2010年
4 吳昊;主題爬蟲URL分析模型與調(diào)度技術(shù)研究[D];哈爾濱工程大學(xué);2011年
5 林勐;交易型網(wǎng)頁界面的編排設(shè)計研究[D];山東輕工業(yè)學(xué)院;2012年
6 王星;新聞網(wǎng)頁抽取技術(shù)的研究與實現(xiàn)[D];河北工業(yè)大學(xué);2011年
7 王躍紅;基于云安全的惡意URL動態(tài)掃描系統(tǒng)的設(shè)計與測試[D];北京郵電大學(xué);2010年
8 穆浩英;TrojanUrlDetector:一種基于統(tǒng)計分析的木馬URL檢測系統(tǒng)[D];西安電子科技大學(xué);2010年
9 王先平;面向海量URL數(shù)據(jù)存取的快速文件系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2010年
10 唐蕓蕓;基于云安全的惡意URL動態(tài)掃描引擎的設(shè)計與測試[D];北京郵電大學(xué);2012年
,本文編號:2045386
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2045386.html