基于海量互聯(lián)網(wǎng)網(wǎng)頁拓撲結(jié)構(gòu)的作弊鏈接與惡意網(wǎng)頁挖掘
[Abstract]:The World Wide Web provides a large amount of information, and anyone can access it. In order to identify a large number of most valuable information in a web page, the Internet users rely primarily on search engines. The search engine typically classifies a large number of web pages and gives the most relevant web page to the user based on the query relevance and the web page ranking. The user usually accesses the highest ranked web page and ignores the rest. Therefore, in order to attract more Internet user clicks, each web page is highly ranked in a search engine. The search engine is the main method to help users find the desired content. In order to suggest and give the most closely related and most popular web pages for the user's query suggestions, the search engine will assign a ranking to each web page in accordance with certain algorithms that generally increase with the number and ranking of other sites linked to the page. However, cheating-linked attackers have developed several techniques to address these algorithms and improve their own web page ranking. These techniques are typically based on an underground link for collaborative link exchange and a relationship network is established between the cheating link developers to improve their web page ranking in search engine results. In this paper, how to identify the cheating link and the cheating web page for the search engine on the mass Internet nodes and edges, to collect the web pages on the Internet and the hypertext links between them, to construct an Internet topology, The characteristics of the subgraph formed by these cheating links in the whole topology structure are studied and analyzed, and the pointing relation of the cheating links is tracked through the expanded mode, so as to identify the cheating webpage on the Internet. In that study of this paper, we make a comprehensive analysis and summary of the topological structure of the cheating link and the cheating link, and predict the topological structure of the cheating link. And a simple but efficient seed node acquisition and expansion algorithm is proposed in the model. When you expand a seed set, you can find some pages as a set of seeds in the linked farm, and for each new page, if the page has multiple inbound and outbound links from and to, the page is likely to be a subset of the seed set on the same linked farm. You can then expand the seed set by adding a new page. After you get the seed set, you need to expand the steps to find more bad pages in the data set before you can establish a cheating link topology. When an expansion step is performed, if a page points to a pile of bad pages, it is possible that the page itself is bad. Therefore, extend from one page to the linked page, although it follows the inbound link rather than the outbound link. In order to verify the performance of the model proposed in this paper for the web page mining on the Internet, this paper uses the Python crawler module to carry out web-page mining. The experimental data is divided into three groups according to the time-climbing time, and the total amount is 9.5 million pages, which are located in 8452 different domains. The number of the marked cheating pages is 6,208, and the resulting seed nodes are 180. Through three groups of experimental data, the comprehensive accuracy rate of the cheating link and the malicious web page mining model, which is based on the Internet web page topology, is 83.3%, and the purpose of detecting the cheating webpage and linking the farm is basically achieved. And the topological structure of the cheating link and the topological structure of the cheating link topological structure are basically consistent with the predicted topological structure, so that the conjecture of the cheating link topological structure in the paper is basically correct. Further, by tracking the points of the cheating links, finding the cheating web pages they serve, and reporting or publishing the web pages, the chances of reducing the exposure of the cheating web pages in the search engine are reduced, and the Internet security is maintained.
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092
【相似文獻】
相關期刊論文 前10條
1 吳坤華;論分布式計算機系統(tǒng)常見拓撲結(jié)構(gòu)的優(yōu)劣和兩種拓撲結(jié)構(gòu)的綜合[J];龍巖師專學報;1990年02期
2 程代展,,泰化淑,洪奕光;穩(wěn)定反饋空間的拓撲結(jié)構(gòu)[J];自動化學報;1995年03期
3 劉連元;漢字拓撲結(jié)構(gòu)分析(續(xù))[J];電子出版;1995年07期
4 張桂月;走進網(wǎng)絡空間(二)[J];管理信息系統(tǒng);1999年10期
5 吳萍;論職教刊物的拓撲結(jié)構(gòu)問題[J];南昌職業(yè)技術師范學院學報;2000年03期
6 劉紅霞;譚璐;吳翊;;保持拓撲結(jié)構(gòu)的低維嵌入[J];計算機應用與軟件;2007年07期
7 王若輝;;具有子通信拓撲結(jié)構(gòu)的群集模型的建立[J];齊齊哈爾大學學報(自然科學版);2009年03期
8 廖龍俊;;怎樣實現(xiàn)內(nèi)外網(wǎng)同時訪問[J];電腦編程技巧與維護;2012年07期
9 魯斌,何華燦;聯(lián)想思維的超拓撲結(jié)構(gòu)模型[J];小型微型計算機系統(tǒng);2004年06期
10 馮志全;楊波;鄭艷偉;唐好魁;李毅;;圖像拓撲結(jié)構(gòu)的識別及其應用技術研究[J];系統(tǒng)仿真學報;2008年24期
相關會議論文 前10條
1 張國峰;林新;王行仁;;分級多聯(lián)邦系統(tǒng)的樹拓撲結(jié)構(gòu)研究[A];加入WTO和中國科技與可持續(xù)發(fā)展——挑戰(zhàn)與機遇、責任和對策(下冊)[C];2002年
2 呂超;劉爽;王世明;張麗珍;;基于布局拓撲結(jié)構(gòu)的制造系統(tǒng)形性分析摘要[A];中國系統(tǒng)工程學會第十八屆學術年會論文集——A06相關學科與系統(tǒng)工程方法[C];2014年
3 李光輝;馮冬芹;曾松偉;;基于拓撲結(jié)構(gòu)分析的等價性驗證方法[A];第五屆中國測試學術會議論文集[C];2008年
4 俞亞東;黃曉春;;一例具有蜂窩型拓撲結(jié)構(gòu)的二維聚合物直接發(fā)射白光[A];中國化學會第29屆學術年會摘要集——第13分會:晶體工程[C];2014年
5 房立豐;劉安心;常興;武光華;李永;;一平移三轉(zhuǎn)動并聯(lián)穩(wěn)定平臺拓撲結(jié)構(gòu)設計[A];第9屆中國機構(gòu)與機器科學應用國際會議(CCAMMS 2011)暨中國輕工機械協(xié)會科技研討會論文集[C];2011年
6 劉連元;;漢字拓撲結(jié)構(gòu)分析[A];語言文字應用研究論文集(Ⅰ)[C];1995年
7 王長生;;中國公用交互網(wǎng)(中國Internet)的發(fā)展與未來[A];四川省通信學會一九九六年學術年會論文集[C];1996年
8 林新;王行仁;彭曉源;;基于樹拓撲結(jié)構(gòu)的分級多聯(lián)邦系統(tǒng)及其時間管理策略[A];2003年全國系統(tǒng)仿真學術年會論文集[C];2003年
9 胡云崗;陳軍;李志林;趙仁亮;;基于拓撲結(jié)構(gòu)的道路選取方法研究[A];中國測繪學會第八次全國會員代表大會暨2005年綜合性學術年會論文集[C];2005年
10 樂永年;路燕;施宇宏;施伯樂;;基于簇的Web文檔拓撲結(jié)構(gòu)的存儲方案[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
相關重要報紙文章 前3條
1 中科院計算所 羅杰文;P2P網(wǎng)絡的拓撲結(jié)構(gòu)[N];計算機世界;2006年
2 李嘉悅;衛(wèi)星家族新面孔網(wǎng)絡衛(wèi)星[N];北京科技報;2002年
3 胡德榮;中德科學家聯(lián)手分析蛋白質(zhì)拓撲結(jié)構(gòu)和功能[N];健康報;2006年
相關博士學位論文 前10條
1 張青;微米拓撲結(jié)構(gòu)的構(gòu)建及其用于骨和軟骨修復的研究[D];華南理工大學;2015年
2 杜文強;各向異性拓撲結(jié)構(gòu)和剛度細胞培養(yǎng)基底及其在組織工程中的應用[D];中國科學技術大學;2016年
3 李鑫;多節(jié)點拓撲結(jié)構(gòu)下隨機耦合模型研究[D];清華大學;2015年
4 羅桂蘭;嵌入式互聯(lián)網(wǎng)宏觀拓撲結(jié)構(gòu)及統(tǒng)計時間特征研究[D];東北大學;2009年
5 徐峰;互聯(lián)網(wǎng)宏觀拓撲結(jié)構(gòu)中社團特征演化分析及應用[D];東北大學;2009年
6 張文波;Internet宏觀拓撲結(jié)構(gòu)的生命特征研究[D];東北大學;2006年
7 夏瓊;明度對比和拓撲結(jié)構(gòu)在視知覺中的競爭[D];浙江大學;2008年
8 程學旗;信息網(wǎng)絡拓撲結(jié)構(gòu)與內(nèi)容相關性研究[D];中國科學院研究生院(計算技術研究所);2006年
9 張君;Internet路由級拓撲結(jié)構(gòu)之k-核解析及其建模[D];東北大學;2009年
10 郭正彪;大尺度在線社會網(wǎng)絡結(jié)構(gòu)研究[D];華中科技大學;2012年
相關碩士學位論文 前10條
1 王永春;負相容范式中不同質(zhì)拓撲結(jié)構(gòu)刺激間的客體更新[D];陜西師范大學;2015年
2 李健;面向高速鐵路監(jiān)測的WSNs拓撲結(jié)構(gòu)分析[D];山西大學;2015年
3 張濤濤;熱/流均衡的混合型3D NoC拓撲結(jié)構(gòu)設計與映射算法研究[D];南京航空航天大學;2014年
4 張大維;多工器的綜合與設計[D];電子科技大學;2014年
5 雷斐;高階互連網(wǎng)絡拓撲結(jié)構(gòu)的設計與分析[D];國防科學技術大學;2013年
6 陸磊;無重疊視域多攝像機目標跟蹤若干問題研究[D];合肥工業(yè)大學;2015年
7 李丹琳;基于企業(yè)網(wǎng)點的拓撲結(jié)構(gòu)應用研究[D];浙江工業(yè)大學;2014年
8 安婷;基于植株圖像的拓撲結(jié)構(gòu)提取方法研究[D];西北農(nóng)林科技大學;2016年
9 李佳妮;基于拓撲結(jié)構(gòu)的軟件執(zhí)行過程安全加固技術的研究[D];北京理工大學;2016年
10 郭高攀;低壓大功率并網(wǎng)變流器的研制[D];天津工業(yè)大學;2016年
本文編號:2453567
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2453567.html