基于網頁結構的Web信息提取系統(tǒng)的設計與實現(xiàn)

發(fā)布時間：2018-06-12 21:11

本文選題：DOM + 信息提取��；參考：《吉林大學》2011年碩士論文

【摘要】：隨著網絡及其應用的不斷普及,Internet已經成為世界上最大的信息庫,但這些信息對用戶來說并非都是有用的,這些有用的信息通常夾雜在大量無關的結構和文字中,這些無關的結構和文字嚴重影響了用戶獲取網頁主題信息的效率,也導致Web的可用性的降低。網絡信息提取和集成系統(tǒng)的作用是提取Internet網上的數(shù)據,將其集成到XML或者關系數(shù)據庫中,從而為用戶提供數(shù)據檢索、數(shù)據挖掘和OLAP等其他信息服務。但是,HTML網頁中的數(shù)據并非結構化的,并且網頁中包含了大量和網頁數(shù)據無關的HTML標簽、圖片、flash廣告等、這就給信息集成系統(tǒng)集成數(shù)據帶來了不小的困難,為解決這一困難,相關學者做了大量研究,隨之出現(xiàn)了網頁主題信息提取相關技術,通過刪除網頁中冗余網頁標簽和于主題信息無關的圖片、flash廣告等,提取出網頁的真正主題內容,可以明顯地降低網頁大小并增加信息的有用性,從而能提高信息集成系統(tǒng)的效率和準確性,也為后續(xù)的數(shù)據檢索、數(shù)據挖掘、OLAP等數(shù)據服務奠定了基礎。因此,網頁主題信息提取在理論和應用上都有著十分重要的研究意義和應用價值,并成為近些年來信息系統(tǒng)領域的研究熱點之一。本文通過大量的研究,發(fā)現(xiàn)目前的網頁主題信息提取方法都有著這樣或那樣的缺點和不足,因此,本文提出了一種新的網頁主題信息提取方法,該方法基于STU-DOM模型,提出了基于該模型的頁面結構過濾和分塊算法以及基于主題相關度的剪枝,并根據此算法設計和實現(xiàn)了網頁主題信息提取系統(tǒng)。基于分塊理論,設計了STU樹模型和STU-DOM模型。STU-DOM模型能夠有效地描述網頁的結構、內容和分塊布局,提高了算法的準確性、可靠性和可擴展性�；赟TU-DOM模型,提出了HTML結構過濾和分塊算法,以及基于主題相關度的剪枝算法。這些算法可以自動地從異構網頁中提取出主題信息,有較高的準確性和通用性。提出并實現(xiàn)了一些優(yōu)化策略:改進了分塊粒度,設計了虛詞表和關鍵詞表,加權計算主題相關度。通過優(yōu)化顯著提高了算法的效率和準確性,降低了網頁信息冗余度。實驗測試表明,本文提出的方法能夠自動、準確、快速地提取出網頁的主題信息,而且不改變網頁的內容、結構和布局,因此有較高的研究意義和應用價值。
[Abstract]:With the increasing popularity of the Internet and its applications, the Internet has become the largest information base in the world, but this information is not always useful to users. These irrelevant structures and text seriously affect the efficiency of the user to obtain the information on the topic of the web page, and also lead to the decrease of the usability of the Web. The function of network information extraction and integration system is to extract data from Internet and integrate it into XML or relational database, thus providing users with other information services such as data retrieval, data mining and OLAP. However, the data in HTML pages are not structured, and the web pages contain a large number of HTML tags, pictures and flash advertisements that are independent of the page data, which makes it difficult for information integration systems to integrate data. Related scholars have done a lot of research, and then appeared the relevant technology of web page subject information extraction, by deleting redundant page tags and image flash advertising, the real theme content of the page is extracted. It can significantly reduce the size of web pages and increase the usefulness of information, thus improving the efficiency and accuracy of the information integration system. It also lays the foundation for subsequent data retrieval, data mining and other data services such as OLAP. Therefore, the topic information extraction of web pages has important research significance and application value in theory and application, and has become one of the research hotspots in the field of information system in recent years. Through a lot of research, this paper finds that the current methods of extracting topic information of web pages have some shortcomings and shortcomings. Therefore, a new method of extracting topic information of web pages is proposed in this paper, which is based on STU-Dom model. A page structure filtering and blocking algorithm based on this model and pruning based on topic correlation are proposed. According to this algorithm, a web page topic information extraction system is designed and implemented. Based on block theory, STU tree model and STU-Dom model. STU-Dom model can effectively describe the structure, content and block layout of web pages, and improve the accuracy, reliability and scalability of the algorithm. Based on STU-Dom model, HTML structure filtering and blocking algorithm and pruning algorithm based on topic correlation are proposed. These algorithms can automatically extract topic information from heterogeneous web pages, and have high accuracy and versatility. Some optimization strategies are put forward and implemented, such as improving block granularity, designing function word table and keyword table, and calculating the correlation degree of topic weighted. By optimizing the algorithm, the efficiency and accuracy of the algorithm are improved significantly, and the redundancy of web page information is reduced. The experimental results show that the proposed method can automatically, accurately and quickly extract the subject information of the web page without changing the content, structure and layout of the web page, so it has high research significance and application value.
【學位授予單位】：吉林大學
【學位級別】：碩士
【學位授予年份】：2011
【分類號】：TP393.09

【相似文獻】

相關期刊論文前10條

1 宋如順,姜乃松;基于Web的遠程考試系統(tǒng)設計與實現(xiàn)[J];計算機工程;1999年06期

2 王紅霞,姚家亮;利用ASP構建新型信息系統(tǒng)的方法與實現(xiàn)[J];計算機應用;1999年09期

3 鄧勁生,張銀福;面向對象的多媒體信息WEB發(fā)布[J];計算機應用研究;1999年09期

4 刁興春,李赤紅;Intranet環(huán)境下事務處理的理論研究和實現(xiàn)[J];小型微型計算機系統(tǒng);1999年06期

5 高昆;基于ASP的WEB站點開發(fā)技術分析[J];北華大學學報(社會科學版);1999年05期

6 王清心,胡建華;經貿數(shù)據庫的WEB集成發(fā)布[J];昆明理工大學學報;1999年02期

7 李晶,朱秋萍;Web頁制作中的動態(tài)表現(xiàn)技術[J];計算機工程;2000年06期

8 劉波,代亞非,杜躍進;遠程協(xié)同教學系統(tǒng)中課程搜索子系統(tǒng)設計[J];計算機應用;2000年06期

9 武莊,劉友丹;基于Web的企業(yè)內部質量審核系統(tǒng)設計與實現(xiàn)[J];計算機應用研究;2000年05期

10 梁開健,劉新民;基于ASP的圖書館Web數(shù)據庫開發(fā)[J];高校圖書館工作;2000年04期

相關會議論文前10條

1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個性化服務技術[A];第十九屆全國數(shù)據庫學術會議論文集（技術報告篇）[C];2002年

2 李利波;劉明利;;一種改進的無回溯反向Web服務動態(tài)組合方法[A];2011年全國通信安全學術會議論文集[C];2011年

3 游爭光;劉建勛;唐明董;;分布式Web服務測試系統(tǒng)的設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年

4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個性化導航知識[A];第十七屆全國數(shù)據庫學術會議論文集（研究報告篇）[C];2000年

5 ;基于廣義對話的Web用戶的聚類(英文)[A];第十七屆全國數(shù)據庫學術會議論文集（研究報告篇）[C];2000年

6 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據庫學術會議論文集（研究報告篇）[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國控制會議論文集[C];2008年

8 胡建強;周斌;尹剛;鄒鵬;;基于角色的Web服務訪問控制技術研究[A];第二十屆全國數(shù)據庫學術會議論文集（技術報告篇）[C];2003年

9 黃建波;丁揚;方芳;;基于代理服務器的Web加速的實現(xiàn)[A];2010通信理論與技術新發(fā)展——第十五屆全國青年通信學術會議論文集（上冊）[C];2010年

10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務搜索引擎設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年

相關重要報紙文章前10條

1 趙曉濤;Web安全服務為王[N];網絡世界;2008年

2 本報記者趙曉濤;Web安全：歷史的命題[N];網絡世界;2008年

3 彭敏;企業(yè)級Web2.0迎來應用高潮[N];電腦商報;2009年

4 本報記者毛江華;安啟華聯(lián)手賽門鐵克掘金Web安全[N];計算機世界;2009年

5 閆冰;“推”出Web交付新天地[N];網絡世界;2009年

6 趙曉濤;中國成全球Web安全新看點[N];網絡世界;2009年

7 邊歆;動態(tài)阻斷Web2.0威脅[N];網絡世界;2009年

8 泰樂公司首席技術官兼執(zhí)行副總裁Vikram Saksena;學習Web 3.0 做聰明的“管道工”[N];通信產業(yè)報;2009年

9 ;Web2.0工具使用須謹慎[N];網絡世界;2009年

10 Anchiva中國區(qū)總經理李松;Web安全選型三個標準[N];網絡世界;2008年

相關博士學位論文前10條

1 張建武;面向Web應用的安全評測技術研究[D];北京郵電大學;2012年

2 朱俊武;基于本體的Web服務語義支撐技術研究[D];南京航空航天大學;2008年

3 李常寶;基于索引的web服務發(fā)現(xiàn)研究[D];北京郵電大學;2011年

4 魏登萍;語義Web服務發(fā)現(xiàn)中匹配策略的研究與實現(xiàn)[D];國防科學技術大學;2011年

5 許笑;分布式Web信息采集關鍵技術研究[D];哈爾濱工業(yè)大學;2011年

6 楊卉;Web文本觀點挖掘及隱含情感傾向的研究[D];吉林大學;2011年

7 黃雪娟;語義Web服務及其合成方法的研究[D];武漢大學;2009年

8 王秀峰;Web導航中用戶認知特征及行為研究[D];南京大學;2013年

9 馬建斌;中文Web信息作者同一認定技術研究[D];河北農業(yè)大學;2010年

10 陳世展;服務網絡：基于語義和社會化關系的Web服務計算基礎設施[D];天津大學;2010年

相關碩士學位論文前10條

1 高楊;基于Web標準的網頁界面藝術個性化的研究與實現(xiàn)[D];北京林業(yè)大學;2010年

2 唐黎;Deep Web頁面結構分析與核心內容提取研究[D];重慶大學;2011年

3 吳新勇;基于需求群組的Web服務調度模型研究[D];上海交通大學;2011年

4 徐衛(wèi);Web新聞熱點發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];華中科技大學;2011年

5 姜本臣;基于嵌入式Web服務器應用技術的研究[D];沈陽工業(yè)大學;2012年

6 楊培穎;Web頁面語義信息提取方法的研究[D];東北大學;2008年

7 溫梨梨;基于零拷貝的Web服務器技術研究[D];中國海洋大學;2011年

8 焦燕廷;一種基于領域本體的語義Web服務匹配和組合方法[D];山東科技大學;2011年

9 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲技術研究[D];杭州電子科技大學;2012年

10 趙春娟;Web服務組合方法的研究與實現(xiàn)[D];天津理工大學;2011年

，

本文編號：2011102

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2011102.html

上一篇：當代中國女性時尚服飾文化的裸露之風
下一篇：基于媒體公益廣告視覺傳達的探索——從“社會主義核心價值觀”主題公益廣告說起

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網頁結構的Web信息提取系統(tǒng)的設計與實現(xiàn)