天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本語(yǔ)義圖的網(wǎng)頁(yè)分類算法研究

發(fā)布時(shí)間:2020-09-29 18:43
   伴隨互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)網(wǎng)頁(yè)數(shù)量呈爆炸式增長(zhǎng)。作為信息的載體,互聯(lián)網(wǎng)上每時(shí)每刻都在產(chǎn)生大量主題各異的Web網(wǎng)頁(yè)文本,數(shù)據(jù)量巨大,且內(nèi)容越來(lái)越豐富。如何從海量的、動(dòng)態(tài)的信息資源中獲取所需的信息,成為一個(gè)重要的研究課題。Web網(wǎng)頁(yè)分類技術(shù)能夠?qū)崿F(xiàn)對(duì)互聯(lián)網(wǎng)中海量數(shù)據(jù)的快速檢索、過(guò)濾、分類和歸檔,提高人們對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的利用率,降低搜索信息的時(shí)間,是網(wǎng)頁(yè)大數(shù)據(jù)處理的基礎(chǔ)。但基于統(tǒng)計(jì)的網(wǎng)頁(yè)分類方法往往存在忽略詞語(yǔ)語(yǔ)義和網(wǎng)頁(yè)結(jié)構(gòu)信息的問(wèn)題,并且在分類過(guò)程中存在特征向量維度過(guò)高的現(xiàn)象,這會(huì)增加運(yùn)算負(fù)擔(dān),進(jìn)而影響分類效率。為了解決基于統(tǒng)計(jì)的網(wǎng)頁(yè)分類算法存在的問(wèn)題,提出一種基于網(wǎng)頁(yè)文本語(yǔ)義圖的Web網(wǎng)頁(yè)分類算法。該算法通過(guò)搭建網(wǎng)頁(yè)語(yǔ)義圖來(lái)刻畫網(wǎng)頁(yè)語(yǔ)義信息,并在此基礎(chǔ)上進(jìn)行特征權(quán)值計(jì)算,進(jìn)而實(shí)現(xiàn)網(wǎng)頁(yè)分類,提高網(wǎng)頁(yè)分類效率。同時(shí),對(duì)特征選擇算法做出改進(jìn),以進(jìn)一步降低空間維度,增大信息密度。本文做了以下工作:(1)提出LP-TIF特征選擇算法。論文針對(duì)TF-IDF算法中詞頻TF對(duì)網(wǎng)頁(yè)文本內(nèi)部信息表現(xiàn)不足的問(wèn)題,提出一種在詞頻基礎(chǔ)上融合詞性、詞位置等多個(gè)特征來(lái)表現(xiàn)詞語(yǔ)對(duì)網(wǎng)頁(yè)重要性的改進(jìn)方法。然后引入詞袋模式,利用同義詞、相似詞精簡(jiǎn),對(duì)特征空間進(jìn)行整合規(guī)范,進(jìn)一步降低空間維度。(2)提出網(wǎng)頁(yè)文本語(yǔ)義圖搭建方法。論文提出一種兼顧詞語(yǔ)相似性和文本相關(guān)性的網(wǎng)頁(yè)語(yǔ)義圖搭建方法。使用特征詞詞袋集作為語(yǔ)義圖節(jié)點(diǎn)集,先利用詞語(yǔ)相似性為語(yǔ)義圖搭建相似邊,然后提出一種新的基于共現(xiàn)詞度量詞語(yǔ)相關(guān)性的方法搭建相關(guān)邊,最后對(duì)邊進(jìn)行合并,完成語(yǔ)義圖搭建。(3)提出WordRank權(quán)值計(jì)算方法。論文在圖結(jié)構(gòu)的基礎(chǔ)上,引入PageRank節(jié)點(diǎn)排序算法對(duì)特征節(jié)點(diǎn)權(quán)重進(jìn)行計(jì)算,并結(jié)合文本語(yǔ)義圖作為加權(quán)有向圖的特點(diǎn),針對(duì)節(jié)點(diǎn)權(quán)重和語(yǔ)義邊權(quán)重對(duì)算法做出適應(yīng)性改進(jìn),提出WordRank權(quán)重計(jì)算方法。最后分別對(duì)特征選擇算法和基于網(wǎng)頁(yè)文本語(yǔ)義圖的網(wǎng)頁(yè)分類算法的有效性進(jìn)行驗(yàn)證。實(shí)驗(yàn)表明,相較于TF-IDF算法,基于LP-TIF和詞袋的特征選擇算法可有效降低空間維度,提高算法時(shí)間效率。并且,基于文本語(yǔ)義圖的網(wǎng)頁(yè)分類算法不僅能夠很好的提高分類準(zhǔn)確率,還可以優(yōu)化網(wǎng)頁(yè)分類效果,提高算法的穩(wěn)定性。
【學(xué)位單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP393.092;TP391.1
【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)外研究現(xiàn)狀
        1.2.2 國(guó)內(nèi)研究現(xiàn)狀
    1.3 論文主要工作及組織結(jié)構(gòu)
第2章 相關(guān)基礎(chǔ)知識(shí)
    2.1 網(wǎng)頁(yè)分類簡(jiǎn)述
        2.1.1 文本分類
        2.1.2 網(wǎng)頁(yè)分類概述
    2.2 網(wǎng)頁(yè)分類相關(guān)知識(shí)
        2.2.1 網(wǎng)頁(yè)預(yù)處理
        2.2.2 網(wǎng)頁(yè)特征選擇
        2.2.3 網(wǎng)頁(yè)向量表示
    2.3 網(wǎng)頁(yè)語(yǔ)義圖相關(guān)知識(shí)
        2.3.1 圖模型簡(jiǎn)介
        2.3.2 語(yǔ)義詞典
        2.3.3 關(guān)聯(lián)規(guī)則
    2.4 本章小結(jié)
第3章 基于LP-TIF和詞袋的特征選擇
    3.1 PL-TIF特征選擇
        3.1.1 候選詞集
        3.1.2 詞性因子(POS)
        3.1.3 詞位置因子(LOC)
        3.1.4 LP-TIF特征選擇
        3.1.5 LP-TIF算法描述
    3.2 基于詞袋的特征選擇
        3.2.1 詞袋的概念
        3.2.2 詞袋的計(jì)算
        3.2.3 特征詞集的詞袋打包
        3.2.4 特征詞集的詞袋合并
        3.2.5 特征詞袋集算法描述
    3.3 特征選擇算法描述
    3.4 本章小結(jié)
第4章 基于網(wǎng)頁(yè)文本語(yǔ)義圖的權(quán)值計(jì)算
    4.1 網(wǎng)頁(yè)語(yǔ)義圖簡(jiǎn)介
    4.2 網(wǎng)頁(yè)語(yǔ)義圖邊搭建
        4.2.1 節(jié)點(diǎn)詞的相似性
        4.2.2 相似邊搭建
        4.2.3 節(jié)點(diǎn)詞的共現(xiàn)性
        4.2.4 相關(guān)邊搭建
    4.3 網(wǎng)頁(yè)語(yǔ)義圖模型搭建
        4.3.1 網(wǎng)頁(yè)語(yǔ)義圖整合
        4.3.2 網(wǎng)頁(yè)語(yǔ)義圖搭建算法描述
    4.4 基于網(wǎng)頁(yè)語(yǔ)義圖的權(quán)重計(jì)算
        4.4.1 PageRank算法
        4.4.2 WordRank基于邊權(quán)重的改進(jìn)
        4.4.3 WordRank基于節(jié)點(diǎn)權(quán)重的改進(jìn)
        4.4.4 WordRank權(quán)重算法描述
    4.5 本章小結(jié)
第5章 實(shí)驗(yàn)分析
    5.1 性能評(píng)價(jià)和實(shí)驗(yàn)環(huán)境
        5.1.1 性能評(píng)價(jià)指標(biāo)
        5.1.2 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集
    5.2 基于語(yǔ)義圖的網(wǎng)頁(yè)分類算法評(píng)估實(shí)驗(yàn)
        5.2.1 基于文本語(yǔ)義圖的網(wǎng)頁(yè)分類系統(tǒng)框架
        5.2.2基于語(yǔ)義圖網(wǎng)頁(yè)分類有效性實(shí)驗(yàn)
    5.3特征選擇有效性評(píng)估實(shí)驗(yàn)
        5.3.1 特征選擇降維效果
        5.3.2 特征選擇有效性評(píng)估
    5.4 本章小結(jié)
第6章 總結(jié)與展望
    6.1 主要結(jié)論
    6.2 研究展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
中文詳細(xì)摘要

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉景云;;追尋網(wǎng)頁(yè)上“閃動(dòng)”的音樂(lè)[J];電腦知識(shí)與技術(shù)(經(jīng)驗(yàn)技巧);2017年12期

2 老萬(wàn);;加快網(wǎng)頁(yè)文件的加載速度[J];電腦愛(ài)好者;2015年12期

3 吳陽(yáng)陽(yáng);封化民;胡雪;楊發(fā)智;;網(wǎng)頁(yè)文件信息隱藏技術(shù)安全性研究[J];北京電子科技學(xué)院學(xué)報(bào);2014年04期

4 啟動(dòng);;淺談網(wǎng)頁(yè)文件引用[J];網(wǎng)絡(luò)與信息;2006年05期

5 張啟宇;朱玲;車忠志;;網(wǎng)頁(yè)文件元數(shù)據(jù)的自動(dòng)提取[J];電腦與電信;2008年04期

6 柳林;輕松保存網(wǎng)頁(yè)文件五法[J];電腦愛(ài)好者;2003年17期

7 陸莉;;隱蔽網(wǎng)頁(yè)資源的挖掘利用探究[J];福建圖書館理論與實(shí)踐;2008年03期

8 ;Script精簡(jiǎn)專家——ScriptCleaner[J];網(wǎng)絡(luò)與信息;2003年03期

9 黃小花;;淺析網(wǎng)頁(yè)的頭部?jī)?nèi)容[J];電腦與電信;2019年05期

10 孫小英;;試論網(wǎng)頁(yè)設(shè)計(jì)的基本規(guī)范和常用技巧[J];數(shù)碼世界;2017年11期

相關(guān)會(huì)議論文 前4條

1 莊昭程;;高職《網(wǎng)頁(yè)美工》課程教學(xué)的幾點(diǎn)建議[A];中國(guó)職協(xié)2017年度優(yōu)秀科研成果獲獎(jiǎng)?wù)撐募ㄒ欢泉?jiǎng))[C];2018年

2 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁(yè)入侵檢測(cè)技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年

3 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

4 劉世杰;唐世渭;楊冬青;王騰蛟;李立宇;;基于XML技術(shù)的Web信息提取和集成[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

相關(guān)重要報(bào)紙文章 前10條

1 ;網(wǎng)頁(yè)防篡改的回顧與展望[N];中國(guó)計(jì)算機(jī)報(bào);2019年

2 馬坤;用VB判斷網(wǎng)頁(yè)文件是否在IE緩存中[N];電腦報(bào);2004年

3 何詠明 尹有仁;用VFP管理網(wǎng)頁(yè)文件[N];中國(guó)計(jì)算機(jī)報(bào);2001年

4 福建省工商行政管理局 王粟洋;網(wǎng)頁(yè)證據(jù)的“三維取證法”[N];中國(guó)醫(yī)藥報(bào);2018年

5 湖北 馮曉玲;快速調(diào)用記事本編輯網(wǎng)頁(yè)文件[N];電腦報(bào);2003年

6 王兆和;到秘密花園里“摘”煙花[N];中國(guó)電腦教育報(bào);2004年

7 江蘇 韶亞軍;WPS 2000妙用五則[N];電腦報(bào);2001年

8 ;網(wǎng)上購(gòu)物安全手冊(cè)[N];人民政協(xié)報(bào);2000年

9 山東 劉紅軍;自己的事自己處理[N];中國(guó)電腦教育報(bào);2002年

10 浙江 楓葉子;多彩鏈接靚起來(lái)[N];電腦報(bào);2003年

相關(guān)博士學(xué)位論文 前1條

1 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 周文文;基于文本語(yǔ)義圖的網(wǎng)頁(yè)分類算法研究[D];江蘇科技大學(xué);2019年

2 鞠亮;基于關(guān)鍵詞自學(xué)習(xí)的中文網(wǎng)頁(yè)分類技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2017年

3 姜康;基于響應(yīng)式的移動(dòng)端網(wǎng)頁(yè)界面設(shè)計(jì)與實(shí)現(xiàn)[D];中南民族大學(xué);2016年

4 程元X;基于URL+文本的網(wǎng)頁(yè)主題分類模型研究[D];武漢郵電科學(xué)研究院;2018年

5 曹亞男;WEB代理系統(tǒng)網(wǎng)頁(yè)噪音信息識(shí)別與過(guò)濾技術(shù)研究[D];哈爾濱工程大學(xué);2015年

6 李維旺;基于網(wǎng)頁(yè)重構(gòu)的網(wǎng)絡(luò)用戶體驗(yàn)優(yōu)化研究與實(shí)現(xiàn)[D];電子科技大學(xué);2018年

7 章俊;深網(wǎng)數(shù)據(jù)爬取關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2018年

8 劉江;網(wǎng)頁(yè)篡改監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2018年

9 李宗峰;網(wǎng)頁(yè)隱秘通信及其檢測(cè)與防護(hù)干擾方法[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年

10 田鄲鄲;基于譜哈希的大規(guī)模網(wǎng)頁(yè)分類算法研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2016年



本文編號(hào):2830109

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2830109.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76eee***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com