天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于鄰接特征的網(wǎng)頁(yè)主題傳播算法

發(fā)布時(shí)間:2018-11-28 13:38
【摘要】:本文圍繞鄰接特征的選擇、表示和使用進(jìn)行相關(guān)研究,提出了基于鄰接特征的網(wǎng)頁(yè)主題傳播算法。該算法基于網(wǎng)頁(yè)超鏈接構(gòu)建的有向圖模型,針對(duì)網(wǎng)頁(yè)的主題局部性特點(diǎn),實(shí)現(xiàn)了鄰接網(wǎng)頁(yè)的主題傳播,并最終得到各網(wǎng)頁(yè)的主題概率分布。本文的主要工作如下:1)利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集,經(jīng)網(wǎng)頁(yè)正文提取、網(wǎng)頁(yè)去重、超鏈接分析等數(shù)據(jù)預(yù)處理后,構(gòu)建基于網(wǎng)頁(yè)超鏈接的有向圖;2)利用潛在狄利克雷分布計(jì)算超鏈接有向圖中網(wǎng)頁(yè)節(jié)點(diǎn)的初始主題概率分布。所得主題概率分布作為網(wǎng)頁(yè)節(jié)點(diǎn)的特征表示,一方面可以起到降維作用;另一方面可以用來(lái)衡量網(wǎng)頁(yè)間的語(yǔ)義相似度;3)針對(duì)鄰接特征的表示和引入問(wèn)題,本文提出了虛擬節(jié)點(diǎn)和虛擬鏈接的概念。虛擬節(jié)點(diǎn)由目標(biāo)頁(yè)面的雙親頁(yè)面轉(zhuǎn)化而來(lái),并包含所有指向目標(biāo)網(wǎng)頁(yè)超鏈接的擴(kuò)展錨文本信息。虛擬鏈接可以將目標(biāo)網(wǎng)頁(yè)的其他鄰接特征以人為鏈接的形式引入到模型當(dāng)中。通過(guò)虛擬節(jié)點(diǎn)和虛擬連接,本文實(shí)現(xiàn)了網(wǎng)頁(yè)鄰接特征的有效表示和引入;4)針對(duì)網(wǎng)頁(yè)主題局部性特點(diǎn),本文提出了基于鄰接特征的網(wǎng)頁(yè)主題傳播算法,該算法基于網(wǎng)頁(yè)超鏈接構(gòu)建的有向圖模型,實(shí)現(xiàn)了鄰接網(wǎng)頁(yè)的主題傳播,并最終生成各網(wǎng)頁(yè)的主題概率分布。實(shí)驗(yàn)表明,在困惑度指標(biāo)下,相較于網(wǎng)頁(yè)的初始主題概率分布,基于鄰接特征的網(wǎng)頁(yè)主題傳播算法對(duì)于網(wǎng)頁(yè)主題概率分布的計(jì)算有明顯提升。
[Abstract]:This paper focuses on the selection, representation and use of adjacent features, and proposes a topic propagation algorithm based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks of web pages. According to the local characteristics of web pages, the topic propagation of adjacent web pages is realized, and the topic probability distribution of each web page is obtained. The main work of this paper is as follows: 1) the web crawler is used to collect the Internet data. After the data preprocessing, such as page text extraction, web page removal and hyperlink analysis, a directed graph based on the web page hyperlink is constructed. 2) using the potential Delikley distribution to calculate the initial topic probability distribution of the webpage nodes in hyperlink digraphs. As the feature representation of web nodes, the topic probability distribution can reduce the dimension, on the other hand, it can be used to measure the semantic similarity between web pages. 3) the concept of virtual node and virtual link is proposed in this paper. The virtual node is transformed from the parent page of the target page and contains all extended anchor text information pointing to the target page hyperlink. Virtual link can introduce other adjacent features of the target web page into the model. Through virtual nodes and virtual connections, this paper realizes the effective representation and introduction of the adjacent features of web pages. 4) according to the local characteristics of web pages, this paper proposes an algorithm of topic propagation based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks, and realizes the topic propagation of adjacent web pages. Finally, the topic probability distribution of each web page is generated. The experimental results show that, compared with the initial topic probability distribution of the web pages, the algorithm based on the adjacent features can significantly improve the calculation of the probability distribution of the page topics under the confusion index.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP393.092;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 朱秀英,姜躍勝;如何在一張圖片中創(chuàng)建多個(gè)超鏈接[J];計(jì)算機(jī)時(shí)代;2000年12期

2 ;改變超鏈接的樣式[J];網(wǎng)絡(luò)與信息;2004年03期

3 陳躍安;;淺議超鏈接技術(shù)在立體教材中的重要意義及方法[J];中國(guó)科教創(chuàng)新導(dǎo)刊;2008年14期

4 ;去掉超鏈接的下劃線[J];計(jì)算機(jī)與網(wǎng)絡(luò);2001年Z1期

5 吳國(guó)柱,李東洋,曾利玲;網(wǎng)絡(luò)超鏈接分析初探[J];圖書(shū)情報(bào)工作;2002年11期

6 楊連君;消除超鏈接的下劃線[J];網(wǎng)絡(luò)與信息;2003年04期

7 史艷麗;網(wǎng)絡(luò)學(xué)科資源導(dǎo)航庫(kù)中的超鏈接研究[J];情報(bào)科學(xué);2004年08期

8 于國(guó)富;;超鏈接以案說(shuō)法[J];中國(guó)計(jì)算機(jī)用戶;2006年21期

9 劉東風(fēng);;淺談超鏈接在出版中的運(yùn)用[J];出版發(fā)行研究;2012年12期

10 袁軍輝;輕松取消"超鏈接"[J];少年電腦世界;2005年02期

相關(guān)會(huì)議論文 前2條

1 崔蓓;;基于超鏈接的地圖場(chǎng)景的設(shè)計(jì)與應(yīng)用[A];2013年度江蘇省測(cè)繪學(xué)會(huì)年會(huì)論文集[C];2013年

2 劉強(qiáng)國(guó);左志宏;董祥千;;基于WEB超鏈接分析算法的研究綜述[A];四川省通信學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集(二)[C];2006年

相關(guān)重要報(bào)紙文章 前10條

1 Softviva;簡(jiǎn)單的超鏈接變色[N];電腦報(bào);2002年

2 靜悄悄;讓一張圖片包含多個(gè)超鏈接[N];電腦報(bào);2003年

3 ;在論壇中自動(dòng)顯示超鏈接[N];計(jì)算機(jī)世界;2006年

4 貴州 保戩;妙用超鏈接管理文檔[N];中國(guó)電腦教育報(bào);2004年

5 福建 上海正午;取消自作聰明的超鏈接[N];電腦報(bào);2003年

6 車(chē)立新;增強(qiáng)課件生命力[N];中國(guó)電腦教育報(bào);2002年

7 盛璐;在一張圖片上也能制作多個(gè)超級(jí)鏈接[N];江蘇經(jīng)濟(jì)報(bào);2003年

8 靜悄悄;在一張圖片上制作多個(gè)超級(jí)鏈接[N];中國(guó)電腦教育報(bào);2003年

9 嚴(yán)瑞;在一張圖片上也能制作多個(gè)超級(jí)鏈接[N];江蘇經(jīng)濟(jì)報(bào);2003年

10 安徽 陳秀峰;實(shí)戰(zhàn)WPS颶風(fēng)(三)[N];電腦報(bào);2004年

相關(guān)博士學(xué)位論文 前1條

1 阮備軍;Web使用挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2004年

相關(guān)碩士學(xué)位論文 前10條

1 李銳;網(wǎng)絡(luò)超鏈接與意識(shí)流的耦合及其數(shù)字化外顯[D];哈爾濱工業(yè)大學(xué);2009年

2 李成;個(gè)性化需要視角下的超鏈接研究[D];湖南師范大學(xué);2016年

3 韓建軍;基于鄰接特征的網(wǎng)頁(yè)主題傳播算法[D];南京大學(xué);2017年

4 宋鈞;對(duì)世界著名公司主頁(yè)中超鏈接部分的語(yǔ)言學(xué)分析[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2000年

5 朱敬華;數(shù)字圖書(shū)館中查詢結(jié)果處理和參考文獻(xiàn)超鏈接方法的研究[D];黑龍江大學(xué);2002年

6 馮雨;顯性、隱性超鏈接對(duì)大學(xué)生英語(yǔ)閱讀過(guò)程及附帶性詞匯習(xí)得影響的對(duì)比研究[D];重慶大學(xué);2014年

7 梁燕;超鏈接的知識(shí)產(chǎn)權(quán)問(wèn)題探析[D];四川大學(xué);2004年

8 周婷婷;超鏈接分析方法及其測(cè)度指標(biāo)研究[D];東北師范大學(xué);2008年

9 張濤;Web教學(xué)資源采集中超鏈接可采集度評(píng)價(jià)研究[D];南京師范大學(xué);2013年

10 郎鳳舉;基于熱點(diǎn)網(wǎng)站內(nèi)容分析的超鏈接提取研究[D];中國(guó)海洋大學(xué);2010年

,

本文編號(hào):2362977

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2362977.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c7fc6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com