基于智能網(wǎng)關(guān)的用戶(hù)Web信息采集與分析系統(tǒng)
本文選題:Web信息采集 + 關(guān)鍵詞提取 ; 參考:《山東大學(xué)》2016年碩士論文
【摘要】:信息時(shí)代的到來(lái)使互聯(lián)網(wǎng)成為個(gè)人及家庭最重要的信息來(lái)源,越來(lái)越多的用戶(hù)通過(guò)各種智能終端設(shè)備接入互聯(lián)網(wǎng),這種信息獲取和交流的方式已逐漸成為當(dāng)今時(shí)代的主流。緊隨而來(lái)的各種快捷便利的服務(wù)軟件使各大互聯(lián)網(wǎng)公司逐漸意識(shí)到用戶(hù)信息作為一種戰(zhàn)略資產(chǎn)具有極高的經(jīng)濟(jì)價(jià)值。因此,把握海量數(shù)據(jù)背景下的用戶(hù)Web信息,分析用戶(hù)行為習(xí)慣無(wú)論是對(duì)學(xué)術(shù)研究的推動(dòng)還是對(duì)企業(yè)客戶(hù)資源的維系和發(fā)展都是具有著重要的意義。目前,分析用戶(hù)行為的數(shù)據(jù)主要來(lái)源是服務(wù)器用戶(hù)日志和瀏覽器cookie。前者是用戶(hù)訪問(wèn)目標(biāo)網(wǎng)站時(shí),網(wǎng)站記錄用戶(hù)相關(guān)行為,按特定格式生成服務(wù)器日志;后者則通過(guò)網(wǎng)站上加掛的腳本將用戶(hù)信息發(fā)送給后臺(tái)服務(wù)器端。這兩種方法都依賴(lài)特定的網(wǎng)站,比較理想的情況是用戶(hù)訪問(wèn)不同網(wǎng)站時(shí)都能拿到用戶(hù)的訪問(wèn)數(shù)據(jù),而路由器作為家庭網(wǎng)絡(luò)鏈接和數(shù)據(jù)分發(fā)的中心,在家庭組網(wǎng)中占據(jù)著至關(guān)重要的位置。針對(duì)路由器的這種優(yōu)勢(shì),本論文設(shè)計(jì)并實(shí)現(xiàn)了一種基于智能路由器的用戶(hù)Web信息采集和分析系統(tǒng),重點(diǎn)解決了用戶(hù)信息采集方式的局限性和采集信息的片面性問(wèn)題。該系統(tǒng)分為網(wǎng)關(guān)和后臺(tái)兩部分,網(wǎng)關(guān)側(cè)完成用戶(hù)ID和瀏覽網(wǎng)址的提取與傳輸,后臺(tái)服務(wù)器接收網(wǎng)關(guān)側(cè)采集的數(shù)據(jù)后,主要完成相應(yīng)Web界面的正文和關(guān)鍵詞的提取、頁(yè)面瀏覽時(shí)間統(tǒng)計(jì)、子鏈接爬取與相關(guān)度計(jì)算以及文本主題分類(lèi)等信息的采集與分析。本論文創(chuàng)新點(diǎn)主要包括以下五個(gè)方面:(1)分析了系統(tǒng)應(yīng)用的特有環(huán)境要求和應(yīng)用場(chǎng)景,結(jié)合新聞主題類(lèi)和商品購(gòu)物類(lèi)網(wǎng)站的網(wǎng)頁(yè)結(jié)構(gòu)特點(diǎn),提出了文本密度與多特征值相結(jié)合的Web正文抽取算法,既提高了網(wǎng)頁(yè)正文的抽取速度又保證了抽取的準(zhǔn)確率。(2)提出一種基于統(tǒng)計(jì)、結(jié)構(gòu)、語(yǔ)言分析相結(jié)合的TF-IDF文本關(guān)鍵詞提取算法,該算法考慮了詞長(zhǎng)、詞跨度等特征對(duì)關(guān)鍵詞提取的影響,克服了傳統(tǒng)TF-IDF提取算法完全基于詞頻統(tǒng)計(jì)的缺陷。(3)設(shè)計(jì)了一種網(wǎng)絡(luò)爬蟲(chóng)的主題爬取策略,基于提出的文本關(guān)鍵詞提取算法和VSM文本相似度計(jì)量原理,實(shí)現(xiàn)了兩層網(wǎng)頁(yè)的子鏈接爬取與相關(guān)度計(jì)算。(4)提出一種卡方值加權(quán)的貝葉斯分類(lèi)算法,該算法更加強(qiáng)調(diào)在文本分類(lèi)過(guò)程中類(lèi)別與特征之間的相關(guān)性關(guān)系,提高了文本分類(lèi)的準(zhǔn)確率。(5)提出一套用戶(hù)Web信息采集與分析系統(tǒng)的整體設(shè)計(jì)方案,并通過(guò)編寫(xiě)程序完成整個(gè)系統(tǒng)實(shí)現(xiàn),最后在基于OpenWrt智能路由的家庭局域網(wǎng)內(nèi)測(cè)試了該方案的可行性。
[Abstract]:With the advent of the information age, the Internet has become the most important source of information for individuals and families. More and more users connect to the Internet through various intelligent terminal devices. This way of information acquisition and communication has gradually become the mainstream of the times. All kinds of fast and convenient service software make the major Internet companies realize that user information has high economic value as a strategic asset. Therefore, it is of great significance to grasp the user Web information under the background of massive data and analyze the behavior habits of users, whether it is the promotion of academic research or the maintenance and development of enterprise customer resources. At present, the main sources of data for analyzing user behavior are server user log and browser cookie. The former is when the user visits the target website, the website records the user's related behavior and generates the server log according to the specific format; the latter sends the user information to the background server through the script added on the website. Both approaches rely on specific sites, ideally where users can access data when they visit different sites, while routers act as a hub for home network links and data distribution. In the home network occupies the vital position. Aiming at the advantages of routers, this paper designs and implements a user Web information acquisition and analysis system based on intelligent router, which focuses on solving the limitation of user information collection and the one-sidedness of collecting information. The system is divided into two parts: gateway and background. The gateway side completes the extraction and transmission of user ID and browsing web site. After receiving the data collected from the gateway side, the background server mainly completes the extraction of the text and key words of the corresponding Web interface. Page browsing time statistics, sub-link crawling and correlation calculation, text topic classification and other information collection and analysis. The innovation of this paper mainly includes the following five aspects: 1) analyzing the special environmental requirements and application scenarios of the system application, combining the web structure characteristics of the news subject category and the commodity shopping website. In this paper, a Web text extraction algorithm combining text density with multiple eigenvalues is proposed, which not only improves the extraction speed of web pages, but also ensures the accuracy of extraction. This algorithm combines language analysis with TF-IDF text keyword extraction algorithm, which takes into account the influence of word length, word span and other features on keyword extraction. This paper overcomes the shortcoming of traditional TF-IDF extraction algorithm based entirely on word frequency statistics. It designs a topic crawling strategy for web crawlers, based on the proposed text keyword extraction algorithm and the principle of VSM text similarity measurement. In this paper, we implement sub-link crawling and correlation calculation of two-layer web pages. We propose a chi-square weighted Bayesian classification algorithm, which emphasizes the correlation between category and feature in the process of text classification. Improve the accuracy of text classification. (5) put forward a set of user Web information collection and analysis system overall design scheme, and complete the whole system by writing a program. Finally, the feasibility of the scheme is tested in the home LAN based on OpenWrt intelligent routing.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP274
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧福慶;信息理論與實(shí)踐的新成果──簡(jiǎn)評(píng)《信息采集》[J];求是學(xué)刊;1996年01期
2 劉燕德;周衍華;趙文星;劉德力;;數(shù)字化果園信息采集方法的研究進(jìn)展[J];中國(guó)農(nóng)機(jī)化學(xué)報(bào);2014年02期
3 陳予雯;;信用體系下的個(gè)人信息采集與共享新探[J];內(nèi)江科技;2006年07期
4 劉家真;許潔;;建立基于共享的政務(wù)信息采集機(jī)制的對(duì)策建議[J];信息化建設(shè);2007年07期
5 姜麗華;張宏斌;;基于Agent的個(gè)性化信息采集與處理系統(tǒng)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2007年07期
6 王嵩;王兵;;鐵路集裝箱運(yùn)輸信息采集的研究與設(shè)計(jì)[J];鐵路計(jì)算機(jī)應(yīng)用;2008年07期
7 喻國(guó)明;;中國(guó)媒體奧運(yùn)報(bào)道該打“高分”[J];新聞與寫(xiě)作;2008年09期
8 孫曉明;;艦船數(shù)據(jù)信息采集方法研究[J];科技信息;2009年12期
9 單杰;;淺談農(nóng)業(yè)信息采集與開(kāi)發(fā)[J];黑龍江科技信息;2009年30期
10 李雪竹;宋子?xùn)|;;信息采集協(xié)議的時(shí)效性分析[J];宿州學(xué)院學(xué)報(bào);2013年03期
相關(guān)會(huì)議論文 前10條
1 李靜;張建;李淼;胡澤林;楊巍;張浩東;;便攜式農(nóng)田信息采集與管理系統(tǒng)的設(shè)計(jì)[A];紀(jì)念中國(guó)農(nóng)業(yè)工程學(xué)會(huì)成立30周年暨中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2009年學(xué)術(shù)年會(huì)(CSAE 2009)論文集[C];2009年
2 譚亮;王榮成;;基于船舶網(wǎng)絡(luò)的信息采集性能分析與系統(tǒng)優(yōu)化[A];2008年MIS/S&A學(xué)術(shù)交流會(huì)議論文集[C];2008年
3 周洪清;;客戶(hù)動(dòng)銷(xiāo)信息采集工作的思考[A];湖北省煙草學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文集[C];2007年
4 劉麗麗;;一種用于加油站信息采集的中控機(jī)設(shè)計(jì)[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
5 蔡義華;劉剛;;便攜式農(nóng)田信息采集與無(wú)線傳輸系統(tǒng)研究[A];紀(jì)念中國(guó)農(nóng)業(yè)工程學(xué)會(huì)成立30周年暨中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2009年學(xué)術(shù)年會(huì)(CSAE 2009)論文集[C];2009年
6 王坤;郭起云;郭光;;大數(shù)據(jù)時(shí)代檔案信息采集新思路[A];2013年海峽兩岸檔案暨縮微學(xué)術(shù)交流會(huì)論文集[C];2013年
7 羅海勇;李錦濤;趙方;朱珍民;林權(quán);;溫室無(wú)線測(cè)控網(wǎng)絡(luò)信息采集分系統(tǒng)設(shè)計(jì)研究[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年
8 陳渝光;施海;游四海;廖仕利;;基于車(chē)載網(wǎng)絡(luò)的多模態(tài)信息采集[A];四川省電工技術(shù)學(xué)會(huì)第九屆學(xué)術(shù)年會(huì)論文集[C];2008年
9 高錦超;柯賡;;基于網(wǎng)絡(luò)的地理信息采集和管理系統(tǒng)[A];'2005數(shù)字江蘇論壇電子政務(wù)與地理信息技術(shù)論文專(zhuān)輯[C];2005年
10 陳凌;張陽(yáng)陽(yáng);陳宏;劉紅漫;;《電光與控制》發(fā)行工作中的問(wèn)題及解決辦法[A];第7屆中國(guó)科技期刊青年編輯學(xué)術(shù)研討會(huì)暨中國(guó)科技期刊的經(jīng)營(yíng)與發(fā)展論壇文集[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 李琳 盧慶紅;縉云聘請(qǐng)百名“蜜蜂”式信息采集員[N];麗水日?qǐng)?bào);2007年
2 沈雪;福泉把派出所基礎(chǔ)信息采集納入“政府工程”[N];人民公安報(bào);2007年
3 劉明軍 夏俊濤;河南潢川:種好基礎(chǔ)信息采集“試驗(yàn)田”[N];人民公安報(bào);2009年
4 王宇航邋陳建琦;云南蒙自:標(biāo)準(zhǔn)化信息采集室實(shí)現(xiàn)“無(wú)縫隙”覆蓋[N];人民公安報(bào);2008年
5 記者 陳磊;陜西年內(nèi)將建成500個(gè)標(biāo)準(zhǔn)化刑偵信息采集室[N];人民公安報(bào);2010年
6 記者 阮仕喜;陜西上半年將建成500個(gè)刑偵信息采集室[N];人民公安報(bào);2011年
7 何英彩;冊(cè)亨公安提前二月完成基礎(chǔ)信息采集錄入任務(wù)[N];黔西南日?qǐng)?bào);2008年
8 吳蘇 楊一弘;推進(jìn)信息采集 筑牢基礎(chǔ)環(huán)節(jié)[N];黑龍江經(jīng)濟(jì)報(bào);2010年
9 李曉楠、楊勇;8650部隊(duì)信息采集員制度拓寬民主渠道[N];人民武警報(bào);2011年
10 本報(bào)首席記者 彭文輝 本報(bào)記者 方曉;信息采集:“三網(wǎng)”建設(shè)取得實(shí)效的生命線[N];宜春日?qǐng)?bào);2013年
相關(guān)博士學(xué)位論文 前2條
1 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
2 賈自艷;Web信息智能獲取若干關(guān)鍵問(wèn)題研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
相關(guān)碩士學(xué)位論文 前10條
1 歐莉;能源在線監(jiān)測(cè)系統(tǒng)中電力信息采集器的設(shè)計(jì)與實(shí)現(xiàn)[D];東華理工大學(xué);2016年
2 彭壽鈞;基于智能網(wǎng)關(guān)的用戶(hù)Web信息采集與分析系統(tǒng)[D];山東大學(xué);2016年
3 俞浩亮;互聯(lián)網(wǎng)不良信息采集抽取及識(shí)別技術(shù)研究[D];昆明理工大學(xué);2016年
4 馮乙新;智能交通氣象信息精細(xì)化監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[D];南京信息工程大學(xué);2016年
5 司晨;城市規(guī)劃管理信息采集的問(wèn)題與對(duì)策研究[D];云南大學(xué);2016年
6 周文杰;基于iOS的棉蚜蟲(chóng)害信息采集與主動(dòng)服務(wù)系統(tǒng)研發(fā)[D];石河子大學(xué);2016年
7 楊凡;面向移動(dòng)設(shè)備的信息采集和處理研究與實(shí)現(xiàn)[D];西北大學(xué);2012年
8 董飛;用電信息采集一體化建設(shè)研究[D];大連海事大學(xué);2011年
9 張巧珍;基于價(jià)值鏈的企業(yè)信息采集研究[D];華中師范大學(xué);2013年
10 王凌霄;身份證閱讀器信息采集與處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年
,本文編號(hào):1861475
本文鏈接:http://sikaile.net/jingjilunwen/jiliangjingjilunwen/1861475.html