基于鄰接特征的網(wǎng)頁(yè)主題傳播算法
[Abstract]:This paper focuses on the selection, representation and use of adjacent features, and proposes a topic propagation algorithm based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks of web pages. According to the local characteristics of web pages, the topic propagation of adjacent web pages is realized, and the topic probability distribution of each web page is obtained. The main work of this paper is as follows: 1) the web crawler is used to collect the Internet data. After the data preprocessing, such as page text extraction, web page removal and hyperlink analysis, a directed graph based on the web page hyperlink is constructed. 2) using the potential Delikley distribution to calculate the initial topic probability distribution of the webpage nodes in hyperlink digraphs. As the feature representation of web nodes, the topic probability distribution can reduce the dimension, on the other hand, it can be used to measure the semantic similarity between web pages. 3) the concept of virtual node and virtual link is proposed in this paper. The virtual node is transformed from the parent page of the target page and contains all extended anchor text information pointing to the target page hyperlink. Virtual link can introduce other adjacent features of the target web page into the model. Through virtual nodes and virtual connections, this paper realizes the effective representation and introduction of the adjacent features of web pages. 4) according to the local characteristics of web pages, this paper proposes an algorithm of topic propagation based on adjacent features. The algorithm is based on the directed graph model constructed by hyperlinks, and realizes the topic propagation of adjacent web pages. Finally, the topic probability distribution of each web page is generated. The experimental results show that, compared with the initial topic probability distribution of the web pages, the algorithm based on the adjacent features can significantly improve the calculation of the probability distribution of the page topics under the confusion index.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱秀英,姜躍勝;如何在一張圖片中創(chuàng)建多個(gè)超鏈接[J];計(jì)算機(jī)時(shí)代;2000年12期
2 ;改變超鏈接的樣式[J];網(wǎng)絡(luò)與信息;2004年03期
3 陳躍安;;淺議超鏈接技術(shù)在立體教材中的重要意義及方法[J];中國(guó)科教創(chuàng)新導(dǎo)刊;2008年14期
4 ;去掉超鏈接的下劃線[J];計(jì)算機(jī)與網(wǎng)絡(luò);2001年Z1期
5 吳國(guó)柱,李東洋,曾利玲;網(wǎng)絡(luò)超鏈接分析初探[J];圖書(shū)情報(bào)工作;2002年11期
6 楊連君;消除超鏈接的下劃線[J];網(wǎng)絡(luò)與信息;2003年04期
7 史艷麗;網(wǎng)絡(luò)學(xué)科資源導(dǎo)航庫(kù)中的超鏈接研究[J];情報(bào)科學(xué);2004年08期
8 于國(guó)富;;超鏈接以案說(shuō)法[J];中國(guó)計(jì)算機(jī)用戶;2006年21期
9 劉東風(fēng);;淺談超鏈接在出版中的運(yùn)用[J];出版發(fā)行研究;2012年12期
10 袁軍輝;輕松取消"超鏈接"[J];少年電腦世界;2005年02期
相關(guān)會(huì)議論文 前2條
1 崔蓓;;基于超鏈接的地圖場(chǎng)景的設(shè)計(jì)與應(yīng)用[A];2013年度江蘇省測(cè)繪學(xué)會(huì)年會(huì)論文集[C];2013年
2 劉強(qiáng)國(guó);左志宏;董祥千;;基于WEB超鏈接分析算法的研究綜述[A];四川省通信學(xué)會(huì)2006年學(xué)術(shù)年會(huì)論文集(二)[C];2006年
相關(guān)重要報(bào)紙文章 前10條
1 Softviva;簡(jiǎn)單的超鏈接變色[N];電腦報(bào);2002年
2 靜悄悄;讓一張圖片包含多個(gè)超鏈接[N];電腦報(bào);2003年
3 ;在論壇中自動(dòng)顯示超鏈接[N];計(jì)算機(jī)世界;2006年
4 貴州 保戩;妙用超鏈接管理文檔[N];中國(guó)電腦教育報(bào);2004年
5 福建 上海正午;取消自作聰明的超鏈接[N];電腦報(bào);2003年
6 車(chē)立新;增強(qiáng)課件生命力[N];中國(guó)電腦教育報(bào);2002年
7 盛璐;在一張圖片上也能制作多個(gè)超級(jí)鏈接[N];江蘇經(jīng)濟(jì)報(bào);2003年
8 靜悄悄;在一張圖片上制作多個(gè)超級(jí)鏈接[N];中國(guó)電腦教育報(bào);2003年
9 嚴(yán)瑞;在一張圖片上也能制作多個(gè)超級(jí)鏈接[N];江蘇經(jīng)濟(jì)報(bào);2003年
10 安徽 陳秀峰;實(shí)戰(zhàn)WPS颶風(fēng)(三)[N];電腦報(bào);2004年
相關(guān)博士學(xué)位論文 前1條
1 阮備軍;Web使用挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 李銳;網(wǎng)絡(luò)超鏈接與意識(shí)流的耦合及其數(shù)字化外顯[D];哈爾濱工業(yè)大學(xué);2009年
2 李成;個(gè)性化需要視角下的超鏈接研究[D];湖南師范大學(xué);2016年
3 韓建軍;基于鄰接特征的網(wǎng)頁(yè)主題傳播算法[D];南京大學(xué);2017年
4 宋鈞;對(duì)世界著名公司主頁(yè)中超鏈接部分的語(yǔ)言學(xué)分析[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2000年
5 朱敬華;數(shù)字圖書(shū)館中查詢結(jié)果處理和參考文獻(xiàn)超鏈接方法的研究[D];黑龍江大學(xué);2002年
6 馮雨;顯性、隱性超鏈接對(duì)大學(xué)生英語(yǔ)閱讀過(guò)程及附帶性詞匯習(xí)得影響的對(duì)比研究[D];重慶大學(xué);2014年
7 梁燕;超鏈接的知識(shí)產(chǎn)權(quán)問(wèn)題探析[D];四川大學(xué);2004年
8 周婷婷;超鏈接分析方法及其測(cè)度指標(biāo)研究[D];東北師范大學(xué);2008年
9 張濤;Web教學(xué)資源采集中超鏈接可采集度評(píng)價(jià)研究[D];南京師范大學(xué);2013年
10 郎鳳舉;基于熱點(diǎn)網(wǎng)站內(nèi)容分析的超鏈接提取研究[D];中國(guó)海洋大學(xué);2010年
,本文編號(hào):2362977
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2362977.html