基于web的中小學(xué)校園安全事件的分類與主題追蹤研究
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:G637.4
【圖文】:
2.1網(wǎng)絡(luò)爬蟲逡逑網(wǎng)絡(luò)爬蟲是基于網(wǎng)頁的鏈接地址進行工作的,從網(wǎng)站的某一個頁面(可以是首頁)逡逑出發(fā),對網(wǎng)頁中的內(nèi)容進行讀取,如果內(nèi)容中包含了其他的鏈接地址,那么在搜索下一逡逑個網(wǎng)頁時就要用到之前的鏈接地址,循環(huán)進行上面的操作,直到這個網(wǎng)站的所有網(wǎng)頁都逡逑被抓取了邋一遍。逡逑網(wǎng)絡(luò)爬蟲的工作流程是首先要對URL隊列進行初始化,在初始化后對種丫?邋URL進逡逑行確定,,獲。鳎澹忭撁婧螅瑥闹谐槿。眨遥滩阉尤腙犃兄,丨nj時將這些貝而放入逡逑網(wǎng)頁庫M。針對N絡(luò)爬蟲的各個策略如深度優(yōu)先策略、廣度優(yōu)先策略等策略可以分析K逡逑8逡逑
通常情況下表示成主題集。主題集與包含在其內(nèi)的眾多關(guān)鍵詞會形成一個指定的多逡逑項式分布,該分布體現(xiàn)出主題與單詞的關(guān)系。主題與詞匯對應(yīng)的多項式分布體現(xiàn)出主題逡逑與單詞的關(guān)系。LDA模型圖形表示形式如圖2-2所示逡逑?逡逑邐詞分邐逡逑邐M逡逑圖2-2邋LDA模型基本工作流程逡逑LDA模型圖表示的含義如下:在文本中存在著多種主題,這些主題中通過某種概率逡逑模型進行選取詞匯,這樣有多個詞以某種概率模型便得到了相對應(yīng)的主題。作為一種非逡逑監(jiān)督機器學(xué)習技術(shù),LDA可以方便識別大規(guī)模文檔集和語料庫中隱藏的主題相關(guān)信息。逡逑13逡逑
算法的核心思想是.?建立中小學(xué)校園安全事件的主題詞表、構(gòu)建校園安全事件的向量空逡逑間模型、利用余弦定理計算校園安全的主題詞表中每一類與待分類文本的相似度。基于逡逑主題詞表的文本分類工作流程圖如圖3-1所示。逡逑建立中。扌@安邐|用向量空間逡逑全事件信息的詞表邐1表示該詞表逡逑V邐I把詞表T中的詞作為逡逑備"—待分類文本的特征逡逑個待分類文本邐0逡逑計算該詞表的每一類逡逑與各個待分類文木的逡逑相f以度邐I逡逑結(jié)束逡逑\邐逡逑圖3-1基于主楲詞表的文本分類工作流程圖逡逑3.1.1中小學(xué)校園安全事件的主題詞表建立逡逑網(wǎng)絡(luò)關(guān)于中小學(xué)生校閱安全事件的信息分布不均勻.因此,需要建立一個關(guān)于中小逡逑學(xué)生校園安全事件相關(guān)信息的詞表。將中小學(xué)校園安全共分為12個類,分別是“教育教逡逑14逡逑
【參考文獻】
相關(guān)期刊論文 前10條
1 梁軍;柴玉梅;原慧斌;高明磊;昝紅英;;基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J];中文信息學(xué)報;2015年05期
2 李風環(huán);鄭德權(quán);趙鐵軍;;基于淺層語義分析的主題事件的時間識別[J];山東大學(xué)學(xué)報(理學(xué)版);2015年11期
3 周慶燕;何利力;胡靖楓;;搜索引擎中網(wǎng)絡(luò)爬蟲策略在煙草行業(yè)中的應(yīng)用研究[J];工業(yè)控制計算機;2014年12期
4 鄒曉輝;孫靜;;LDA主題模型[J];智能計算機與應(yīng)用;2014年05期
5 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學(xué);2013年12期
6 徐媛;吳超;;安全教育學(xué)基礎(chǔ)原理及其體系研究[J];中國安全科學(xué)學(xué)報;2013年09期
7 路永和;李焰鋒;;改進TF-IDF算法的文本特征項權(quán)值計算方法[J];圖書情報工作;2013年03期
8 郭巖;劉春陽;余智華;張瑾;戴媛;;網(wǎng)絡(luò)輿情信息源影響力的評估研究[J];中文信息學(xué)報;2011年03期
9 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計算機工程與應(yīng)用;2011年13期
10 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學(xué)報;2010年06期
相關(guān)博士學(xué)位論文 前1條
1 李梅;文本挖掘中若干關(guān)鍵技術(shù)研究[D];西北農(nóng)林科技大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 韓軍華;一種用于文本理解的高效關(guān)鍵詞抽取算法[D];南京大學(xué);2016年
2 劉斌;文本分類特征提取算法的研究[D];吉林大學(xué);2016年
3 韋強申;領(lǐng)域關(guān)鍵詞抽。航Y(jié)合LDA與Word2Vec[D];貴州師范大學(xué);2016年
4 譚靜;基于向量空間模型的文本相似度算法研究[D];西南石油大學(xué);2015年
5 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
6 管梓辰;我國中小學(xué)校園安全問題研究[D];黑龍江大學(xué);2013年
7 張振峰;基于向量空間模型的文本分類算法研究[D];杭州電子科技大學(xué);2011年
8 何愛元;基于詞典和概率統(tǒng)計的中文分詞算法研究[D];遼寧大學(xué);2011年
9 段育鵬;中小學(xué)校園安全管理問題研究[D];鄭州大學(xué);2010年
10 張美珍;話題檢測與跟蹤算法的研究[D];北京交通大學(xué);2010年
本文編號:2763259
本文鏈接:http://sikaile.net/jiaoyulunwen/chuzhongjiaoyu/2763259.html