天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于維基百科的Web網(wǎng)頁數(shù)據(jù)質(zhì)量評估系統(tǒng)

發(fā)布時間:2018-05-05 02:08

  本文選題:Web數(shù)據(jù)質(zhì)量 + 支持向量機��; 參考:《南京郵電大學》2014年碩士論文


【摘要】:近幾年來,Web信息資源呈爆炸性增長,Web網(wǎng)上充斥著大量重復(fù)、篡改、虛假的信息。用戶在瀏覽網(wǎng)頁時,往往會迷失在信息的海洋中,無法得知其所獲取的信息是否精確、完整。數(shù)據(jù)質(zhì)量評估是解決該問題的關(guān)鍵環(huán)節(jié)。 本文在調(diào)研了國內(nèi)外網(wǎng)頁質(zhì)量評估技術(shù)的基礎(chǔ)上,結(jié)合機器學習、信息抽取等相關(guān)知識,提出了一種以維基網(wǎng)頁作為參照基準,對用戶輸入源網(wǎng)頁進行評估的方法。該方法主要步驟為:首先針對用戶輸入的一個網(wǎng)頁鏈接,抽取網(wǎng)頁關(guān)鍵字,到維基百科進行網(wǎng)頁采集。隨后用機器學習的方式對維基網(wǎng)頁進行質(zhì)量鑒別,并對通過鑒別的網(wǎng)頁進行信息抽取,以語義三元組的形式存儲。最后利用語義三元組,,以比照的形式對源網(wǎng)頁進行多維度的質(zhì)量分析。 本方法具有以下優(yōu)點:第一,通過集成維基百科相關(guān)網(wǎng)頁作為基準,充分利用了群眾的集體智慧,能較好地反映出源網(wǎng)頁的質(zhì)量缺陷。第二,使用了支持向量機對維基網(wǎng)頁進行質(zhì)量鑒別,并以LDA模型進行主題相關(guān)度鑒別,為源網(wǎng)頁提供了高質(zhì)量、高相關(guān)度的參照網(wǎng)頁。第三,傳統(tǒng)的網(wǎng)頁評估方法主要是非語義的,在本文的源網(wǎng)頁質(zhì)量評估中,采用了語義的方法,充分挖掘了網(wǎng)頁的語義信息。理論分析和實驗對比證明了本方法的可行性和有效性。
[Abstract]:In recent years, the information resources of Web are increasing explosively. There are a lot of repeated, tampered and false information on the Web. Users are often lost in the ocean of information when they browse the web, so they can not know whether the information they get is accurate and complete. Data quality evaluation is the key to solve this problem. Based on the research of the domestic and foreign web page quality assessment technology, combined with machine learning, information extraction and other related knowledge, this paper puts forward a method of user input source page evaluation based on Wikimedia page as reference. The main steps of the method are as follows: firstly, the key words are extracted from a web page link input by the user, and then the web page is collected to Wikipedia. Then we use machine learning to identify the quality of Wikimeaks and extract information from the authenticated pages to store them as semantic triples. Finally, semantic triples are used to analyze the multi-dimensional quality of the source pages. The method has the following advantages: first, by integrating Wikipedia related pages as a benchmark, the collective wisdom of the masses is fully utilized, and the quality defects of the source pages can be well reflected. Secondly, support vector machine (SVM) is used to identify the quality of Wikimeaks, and the LDA model is used to identify the relevance of the subject, which provides the reference pages with high quality and high correlation for the source pages. Thirdly, the traditional methods of web page evaluation are mainly non-semantic. In this paper, the semantic method is used to fully excavate the semantic information of web pages. The theoretical analysis and experimental results show that the method is feasible and effective.
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092

【相似文獻】

相關(guān)期刊論文 前10條

1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁信息[J];電腦知識與技術(shù);2004年13期

2 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計算機工程;2004年12期

3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁推薦模型[J];清華大學學報(自然科學版);2004年09期

4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁藝術(shù)設(shè)計[J];中國電化教育;2004年09期

5 賈海龍,任玉珍;網(wǎng)頁藝術(shù)設(shè)計[J];新鄉(xiāng)師范高等專科學校學報;2005年05期

6 劉肖冰;淺談網(wǎng)頁藝術(shù)設(shè)計[J];安陽師范學院學報;2005年05期

7 孫迎春;;網(wǎng)頁設(shè)計研究[J];南平師專學報;2005年03期

8 文濤;網(wǎng)頁的視覺傳達設(shè)計與分析[J];沈陽教育學院學報;2005年01期

9 宋春暉;網(wǎng)頁設(shè)計中的美學應(yīng)用分析[J];海南師范學院學報(自然科學版);2005年01期

10 張秀虎;;淺談網(wǎng)頁的訪問權(quán)限[J];教育信息化;2005年17期

相關(guān)會議論文 前10條

1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術(shù)交流會優(yōu)秀論文選編[C];2005年

2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術(shù)會議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2005)論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年

8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術(shù)會議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2000年

相關(guān)重要報紙文章 前10條

1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年

2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年

3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年

4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年

5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年

6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年

9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年

10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年

相關(guān)博士學位論文 前10條

1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學;2013年

2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年

4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年

5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學;2008年

6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學;2009年

9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年

10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年

相關(guān)碩士學位論文 前10條

1 高文梁;改進的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學;2009年

2 劉輝;網(wǎng)頁信息過濾系統(tǒng)的研究與設(shè)計[D];蘇州大學;2009年

3 趙胤;海量網(wǎng)頁搜集系統(tǒng)的設(shè)計[D];東北大學 ;2009年

4 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學;2005年

5 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學;2006年

6 張超群;基于網(wǎng)頁分塊技術(shù)的主題爬行[D];吉林大學;2007年

7 張雅潔;網(wǎng)頁視覺基礎(chǔ)設(shè)計與應(yīng)用研究[D];東北師范大學;2007年

8 黃文蓓;基于網(wǎng)頁分割和摘要的小屏幕設(shè)備網(wǎng)頁自適應(yīng)技術(shù)研究與實現(xiàn)[D];華東師范大學;2008年

9 劉華暉;需求概念圖導引下的網(wǎng)頁檢索結(jié)果分析[D];上海交通大學;2011年

10 程歡;網(wǎng)頁中動態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學;2011年



本文編號:1845702

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1845702.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e16b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com