天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于WEB挖掘的網(wǎng)頁主題標簽系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2018-04-19 01:11

  本文選題:Web網(wǎng)頁 + 主題標簽; 參考:《北京郵電大學(xué)》2017年碩士論文


【摘要】:隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)上的信息呈爆炸式增長。這大大豐富了用戶獲取信息的渠道,但也使得Web信息呈現(xiàn)出駁雜和冗余的特點,給用戶快速精確定位自己感興趣的信息帶來了一定困難。Web2.0時代的到來,使標簽成為一種互聯(lián)網(wǎng)信息組織方式。目前,一些研究者通過文木分類、文摘自動生成等技術(shù)來對Web網(wǎng)頁進行標引,從而提高用戶檢索的效率和準確率。但是這種粗粒度的Web網(wǎng)頁關(guān)鍵信息提取和標引仍然無法滿足用戶對信息查找的需求,它忽略了網(wǎng)頁自身的特點。另外,不同類型的網(wǎng)頁采用統(tǒng)一的處理方式,使得輸出結(jié)果準確度不高,缺乏具體應(yīng)用場景具體分析的功能。因此,利用合理的技術(shù)和網(wǎng)頁信息組織方式幫助用戶獲取有價值的信息,成為Web網(wǎng)頁主題標簽提取亟需解決的問題。本文采用自然語言標引方式對Web網(wǎng)頁進行分析和研究,提出了構(gòu)建Web網(wǎng)頁主題標簽的解決方案,并完成相應(yīng)的網(wǎng)頁主題標簽系統(tǒng)。其中,主要研究內(nèi)容和成果包括:1)實現(xiàn)了網(wǎng)頁主題標簽的提取。本文利用Web文本挖掘技術(shù),同時結(jié)合網(wǎng)頁自身特點,設(shè)計了網(wǎng)頁主題標簽提取的流程,并實現(xiàn)了數(shù)據(jù)準備、網(wǎng)頁信息抽取、文本預(yù)處理、網(wǎng)頁主題標簽構(gòu)建等功能模塊;2)研究了三種應(yīng)用場景下的網(wǎng)頁標簽構(gòu)建技術(shù)。分別對關(guān)鍵詞提取方法和命名實體識別技術(shù)進行了研究,并在此基礎(chǔ)上,針對有正文信息的網(wǎng)頁、需要識別特殊信息的網(wǎng)頁和無正文信息的網(wǎng)頁分別實現(xiàn)了多特征融合關(guān)鍵詞提取、命名實體識別和基于TF的關(guān)鍵詞提取方法,并將其應(yīng)用到不同類型網(wǎng)頁的主題標簽構(gòu)建中;3)不同分類網(wǎng)頁的主題標簽提取方案研究。通過對新聞類、視頻類和電商類網(wǎng)頁特點進行分析及對比,提出了其各自合適的網(wǎng)頁主題標簽提取方案。首先需要抽取能夠代表網(wǎng)頁中心思想的文本內(nèi)容,然后根據(jù)其特點采取合適的網(wǎng)頁標簽構(gòu)建技術(shù)生成網(wǎng)頁主題標簽,最后進行可視化展示。4)提出了系統(tǒng)的應(yīng)用方案。本文利用網(wǎng)頁主題標簽提取為用戶提供數(shù)據(jù)分析能力,實現(xiàn)批量URL的分析。對批量URL進行分析后,用戶可直觀地看到數(shù)據(jù)分析結(jié)果,這樣可以幫助用戶發(fā)掘數(shù)據(jù)背后隱含的價值和意義,并客觀地認識和理解數(shù)據(jù);谏鲜鲅芯績(nèi)容和成果,本文構(gòu)建并實現(xiàn)了基于Web文本挖掘的網(wǎng)頁主題標簽系統(tǒng),該系統(tǒng)能夠?qū)eb網(wǎng)頁進行挖掘分析,從而為網(wǎng)頁生成具有一定準確性的主題標簽,實現(xiàn)網(wǎng)頁信息的有效組織和管理,以便用戶有效獲取所需的知識。
[Abstract]:With the rapid development of Internet, the information on the Internet is increasing explosively.This greatly enriches the channels for users to obtain information, but also makes the Web information present the characteristics of complexity and redundancy, which brings some difficulties to the users to locate the information they are interested in quickly and accurately. The arrival of the era of Web 2.0.Make tagging a way of organizing information on the Internet.At present, some researchers use the techniques of document classification and automatic generation of abstracts to index Web pages, so as to improve the efficiency and accuracy of user retrieval.However, this coarse-grained Web page key information extraction and indexing still can not meet the needs of users to find information, it ignores the characteristics of the page itself.In addition, different types of web pages adopt a unified processing method, which makes the output accuracy is not high, and lacks the function of specific analysis of specific application scenarios.Therefore, the use of reasonable technology and web information organization to help users to obtain valuable information, Web page topic label extraction needs to be solved.In this paper, the natural language indexing method is used to analyze and study the Web web pages, and a solution to construct the Web web page theme tags is proposed, and the corresponding web page theme label system is completed.Among them, the main research contents and results include: 1) to achieve the extraction of page theme tags.In this paper, we use Web text mining technology, and combine the characteristics of web pages, design the process of page topic label extraction, and realize the data preparation, page information extraction, text preprocessing.This paper studies the construction technology of web page label in three application scenarios.The methods of keyword extraction and named entity recognition are studied respectively, and on this basis, for web pages with text information,Web pages that need to recognize special information and pages without text information have realized multi-feature fusion keyword extraction, named entity recognition and TF based keyword extraction methods, respectively.It is applied to the topic label construction of different web pages.Through the analysis and comparison of the features of news, video and ecommerce web pages, this paper puts forward their own suitable schemes for extracting the theme tags of their web pages.Firstly, it is necessary to extract the text content which can represent the central idea of the web page, and then according to its characteristics, we adopt the appropriate technology of page label construction to generate the web page theme label. Finally, we present a systematic application scheme.In this paper, we use topic label extraction to provide users with data analysis ability and realize batch URL analysis.After analyzing the batch URL, the user can see the result of the data analysis intuitively, which can help the user to discover the hidden value and meaning behind the data, and to understand and understand the data objectively.Based on the above research contents and achievements, this paper constructs and implements a topic label system based on Web text mining. The system can mine and analyze Web pages, thus generating a certain accuracy of topic labels for web pages.Realize the effective organization and management of web information, so that users can obtain the required knowledge effectively.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.092;TP391.1

【參考文獻】

相關(guān)期刊論文 前10條

1 張莉婧;李業(yè)麗;曾慶濤;雷嘉麗;楊鵬;;基于改進TextRank的關(guān)鍵詞抽取算法[J];北京印刷學(xué)院學(xué)報;2016年04期

2 余珊珊;蘇錦鈿;李鵬飛;;基于改進的TextRank的自動摘要提取方法[J];計算機科學(xué);2016年06期

3 顧益軍;夏天;;融合LDA與TextRank的關(guān)鍵詞抽取研究[J];現(xiàn)代圖書情報技術(shù);2014年Z1期

4 金瑛;;國外關(guān)于社會標簽的研究進展[J];圖書館學(xué)研究;2014年12期

5 王星;劉偉;;基于引文的中文學(xué)術(shù)文獻自動標引方法研究[J];圖書情報工作;2014年03期

6 龐寧;;基于網(wǎng)頁特征的特征詞提取技術(shù)[J];西南民族大學(xué)學(xué)報(自然科學(xué)版);2014年01期

7 夏天;;詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J];現(xiàn)代圖書情報技術(shù);2013年09期

8 張琰;王強;安萍;;基于Web文本挖掘相關(guān)技術(shù)的研究[J];科協(xié)論壇(下半月);2012年09期

9 丁世飛;齊丙娟;譚紅艷;;支持向量機理論與算法研究綜述[J];電子科技大學(xué)學(xué)報;2011年01期

10 孫鎮(zhèn);王惠臨;;命名實體識別研究進展綜述[J];現(xiàn)代圖書情報技術(shù);2010年06期

相關(guān)碩士學(xué)位論文 前10條

1 鐘旭東;網(wǎng)頁分類中的標簽權(quán)重自動優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2015年

2 趙媛心;Web服務(wù)標簽挖掘模塊的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2015年

3 毛新武;基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取研究[D];北京林業(yè)大學(xué);2013年

4 王偉;Web挖掘技術(shù)及其在互聯(lián)網(wǎng)中的應(yīng)用研究[D];山東大學(xué);2013年

5 王曉飛;基于主題特征的Web信息挖掘模型的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

6 張宏兵;Web文本挖掘技術(shù)在網(wǎng)頁推薦中的應(yīng)用研究[D];南京理工大學(xué);2013年

7 張聰聰;面向互聯(lián)網(wǎng)網(wǎng)站標注的標簽庫的研究[D];北京郵電大學(xué);2013年

8 伍菲;面向主題型的網(wǎng)頁分類技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年

9 盧健;面向文本的主題挖掘技術(shù)與實現(xiàn)[D];濟南大學(xué);2010年

10 胡靜;基于Web的中文文本挖掘技術(shù)的研究及實現(xiàn)[D];中南大學(xué);2009年

,

本文編號:1770910

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1770910.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b3a8a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲人午夜精品射精日韩| 欧美一区日韩二区亚洲三区 | 99久热只有精品视频免费看| 亚洲伦理中文字幕在线观看| 亚洲天堂有码中文字幕视频| 欧美激情床戏一区二区三| 色婷婷激情五月天丁香| 欧美精品一区二区水蜜桃| 少妇在线一区二区三区| 午夜视频成人在线观看| 69久久精品亚洲一区二区| 夫妻性生活黄色录像视频| 日韩一区二区三区在线日| 男女一进一出午夜视频| 九九热这里只有精品视频| 91欧美亚洲精品在线观看| 亚洲性日韩精品一区二区| 日韩一区二区三区18| 亚洲男人的天堂就去爱| 99久久精品国产麻豆| 夫妻性生活真人动作视频| 99久久国产精品成人观看| 99热九九在线中文字幕| 国产成人精品午夜福利av免费| 国产毛片不卡视频在线| 亚洲最大福利在线观看| 亚洲欧洲成人精品香蕉网| 激情中文字幕在线观看| 欧美黑人在线精品极品| 妻子的新妈妈中文字幕| 亚洲中文在线观看小视频| 亚洲最大福利在线观看| 老熟女露脸一二三四区| 激情内射亚洲一区二区三区| 国产成人高清精品尤物| 日韩在线免费看中文字幕| 人妻一区二区三区在线| 久久经典一区二区三区| 国产成人免费激情视频| 韩国激情野战视频在线播放| 97人妻精品一区二区三区免|