天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多方向特征集的傳銷預判研究

發(fā)布時間:2022-01-08 23:54
  網(wǎng)絡信息已經(jīng)成為當今社會環(huán)境及網(wǎng)絡環(huán)境的重要影響因素。隨著網(wǎng)絡數(shù)據(jù)流量的大面積覆蓋、網(wǎng)絡技術的陳新?lián)Q代,非法網(wǎng)絡數(shù)據(jù)也在不斷入侵網(wǎng)絡環(huán)境。近年來,傳銷作為一種非法詐騙行為,網(wǎng)絡傳銷將作為未來主要的傳播途徑,通過社交平臺或招聘網(wǎng)站等開放網(wǎng)絡環(huán)境傳播思想,以非法牟利等,對網(wǎng)民乃至網(wǎng)絡環(huán)境已經(jīng)造成一種嚴重的網(wǎng)絡安全威脅。因此,對網(wǎng)絡傳銷數(shù)據(jù)的研究及控制具有十分重要的意義。本文在現(xiàn)有理論技術的基礎上采用自動提取數(shù)據(jù)及數(shù)據(jù)特征分析方法對傳銷數(shù)據(jù)做預判工作,具體如下:第一,提出一種數(shù)字鄰近特征集提取算法,既可擴充現(xiàn)有的特征集庫,也作為了傳銷預判算法的預判依據(jù)因素之一。實驗表明:數(shù)字鄰近特征集算法與現(xiàn)有的特征集有同樣的表征效果,且對于某些背景領域中的數(shù)據(jù),表征效果更好。第二,提出一種基于多方向特征集的傳銷預判算法。該算法以多方向特征集作為預判依據(jù)集,基于詞語相似度的改進算法,將每個文本數(shù)據(jù)特征集通過向量抽象化,與剩余文本數(shù)據(jù)特征集進行相似度計算,將結(jié)果作為預判指標,待測特征集與多方向特征集的特征交集率作為預判傳銷嫌疑的實驗,將兩種指標結(jié)合起來分析,對傳銷數(shù)據(jù)進行預判。其中待測特征集是由待測數(shù)據(jù)作為實... 

【文章來源】:北京工業(yè)大學北京市 211工程院校

【文章頁數(shù)】:72 頁

【學位級別】:碩士

【部分圖文】:

基于多方向特征集的傳銷預判研究


SeleniumRC實現(xiàn)原理圖

實現(xiàn)原理,編碼方式


圖 2-2 WebDriver 實現(xiàn)原理圖Figure 2-2 WebDriver implementation schematic2.1.2 基于 html 標簽限定原理(1)Beautiful Soup 實現(xiàn)原理Beautiful Soup 是 Python 的一個庫,最主要的功能是從網(wǎng)絡平臺中實現(xiàn)數(shù)據(jù)的抓取。BeautifulSoup 提供一些簡單的、Python 式的函數(shù)用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。BeautifulSoup自動會將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為UTF-8 編碼。使用者不需要考慮編碼方式,除非文檔沒有指定一個具體的編碼方式,這時,BeautifulSoup 就不能自動識別編碼方式了。然后,使用者僅僅需要說明一下原始編碼方式就可完成編碼。Beautiful Soup 已成為和 Lxml、Html6lib 一樣有效的 Python 解釋器,為用戶靈活地提供不同的解析策略或較快的處理速度。

對應圖,標簽,符號化,解析算法


圖 2-3 DOM 和標簽對應圖Figure 2-3 DOM and label mapping簽結(jié)構轉(zhuǎn)換為 DOM 樹,如圖 2-4 所示:圖 2-4 DOM 結(jié)構樹Figure 2-4 DOM treeLParser 解析算法包括兩個階段:符號化和構建樹。符號化是詞法

【參考文獻】:
期刊論文
[1]大數(shù)據(jù)思維下網(wǎng)絡傳銷犯罪的偵查[J]. 胡玉明,宋利紅.  廣西警察學院學報. 2017(05)
[2]自動關鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)
[3]基于改進TextRank的關鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬.  北京印刷學院學報. 2016(04)
[4]基于HMM的動作識別結(jié)果可信度計算方法[J]. 王昌海,張建忠,徐敬東,許昱瑋.  通信學報. 2016(05)
[5]基于語義的文檔特征提取研究方法[J]. 姜芳,李國和,岳翔.  計算機科學. 2016(02)
[6]基于特征學習的文本大數(shù)據(jù)內(nèi)容理解及其發(fā)展趨勢[J]. 袁書寒,向陽,鄂世嘉.  大數(shù)據(jù). 2015(03)
[7]網(wǎng)絡大數(shù)據(jù)的文本內(nèi)容分析[J]. 程學旗,蘭艷艷.  大數(shù)據(jù). 2015(03)
[8]詞語相似度算法研究綜述[J]. 李慧.  現(xiàn)代情報. 2015(04)
[9]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美.  情報科學. 2015(01)
[10]結(jié)合內(nèi)容和標簽的Web文本聚類研究[J]. 顧曉雪,章成志.  現(xiàn)代圖書情報技術. 2014(11)



本文編號:3577521

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3577521.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7eca1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com