天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義特征和監(jiān)督學習的廣告評論識別方法

發(fā)布時間:2021-08-04 09:25
  隨著互聯(lián)網(wǎng)的興起與繁榮,人們的在線學習娛樂及交流變得非常便捷高效。計算機以及移動智能設備成為了人們工作和交流的主要工具之一。伴隨著互聯(lián)網(wǎng)電腦端及移動端用戶數(shù)量的增長,熱門網(wǎng)站的用戶數(shù)量及日點擊率也在迅速升高。作為全球最大的視頻網(wǎng)站,YouTube擁有海量視頻及數(shù)十億活躍制作上傳者及觀看用戶。由于每一位互聯(lián)網(wǎng)用戶均可以快速發(fā)表評論信息,加之YouTube實行了視頻制作者鼓勵措施,視頻廣告評論占比迅速提升,給視頻上傳者和常規(guī)觀眾帶來許多煩擾,嚴重干擾了用戶的正常評論與交流。基于詞袋的傳統(tǒng)垃圾廣告檢測算法通常從語句用詞入手,具有特征維度高、模型復雜等特點,而且隨著廣告評論的升級也日益顯示出不足。因此本文從語義理解的思路出發(fā),結(jié)合前人工作和理論,提出了基于語義的廣告評論檢測方法。此方法首先對語句進行語義角色標注,提取語義特征,并手動提取常見廣告評論的句式特征加入到特征集合,進行建模試驗。通過實驗反復驗證,此方法有效地降低了訓練數(shù)據(jù)的特征維數(shù),并且達到了較高的檢測率,在標注數(shù)據(jù)集多樣化不足的情況下仍然能夠保持一定的分類穩(wěn)定性,因此具有一定的可行性。由于現(xiàn)實網(wǎng)絡中,有標記的數(shù)據(jù)的獲取比較難,因此本... 

【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:71 頁

【學位級別】:碩士

【部分圖文】:

基于語義特征和監(jiān)督學習的廣告評論識別方法


圖2.1廣告評論過濾流程圖??7??

算法流程圖,分類器,迭代次數(shù)


同時,在每一輪中加入一個新的弱分類器,直到錯誤率小于某一特定值或??者迭代次數(shù)達到達到指定的最大迭代次數(shù)。??Adaboost的算法流程如圖2.?2所tk:??釣始化謁練數(shù)的V?_么_』??j?.??I?/>j?=?M..…u\?v.\.?i.w?-?—-?1.2……?八??_??-^i? ̄??t?V???I?權(quán)值分布的數(shù)據(jù)集逬:??訓練.得到范V分類器;??'?:X?—?_??1?——:??汁筇(Ux丨^練數(shù)據(jù)tu.品分矣鉛:)淹'??ct_?-?Pi?Gj?.x?y???-?V/《G「i.O?丈、);??:?r??j??V???i?1-^??=?r-Jog?—??j?-?cw??更新爾練致?lián)臋?quán)m:??MW“.A》??一?C^..?d)?=■?

多層前饋神經(jīng)網(wǎng)絡,結(jié)構(gòu)示意圖


含三層結(jié)點,而且除了輸入層結(jié)點之外,其它結(jié)點均使用非線性激活函數(shù)。多層??前饋神經(jīng)網(wǎng)絡的每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連??接,也不存在跨層連接[16],如圖2.?3所示。MLP使用誤差逆?zhèn)鞑ィǎ澹颍颍铮??BackPropagation,BP)算法進行數(shù)據(jù)訓練。??〇?〇?〇?n,??'\J?w??圖2.3多層前饋神經(jīng)網(wǎng)絡結(jié)構(gòu)示意圖[15]??2.?4.?4主成分分析??成分分析是用來在數(shù)據(jù)中尋找“恰當”的特征的無監(jiān)督方法[18]。主成分分析??(Principal?Component?Analysis,?PCA)是一種數(shù)據(jù)壓縮和特征提取的多變量??統(tǒng)計分析技術(shù),PCA的目標是在低維子空間去表示高維數(shù)據(jù),使得在誤差平方和??的意義下低維表示能夠最好地描述原始數(shù)據(jù)[18]。??主成分分析的步驟如圖2.?4所示:??12??

【參考文獻】:
期刊論文
[1]基于LDA模型的博客垃圾評論發(fā)現(xiàn)[J]. 刁宇峰,楊亮,林鴻飛.  中文信息學報. 2011(01)
[2]基于貝葉斯方法和信息指紋的博客評論過濾[J]. 馬如林,蔣華,張慶霞.  計算機工程與應用. 2008(24)
[3]一個基于語義分析的傾向性文檔過濾系統(tǒng)[J]. 江寶林,劉永丹,金峰,葛家翔,胡運發(fā).  計算機應用與軟件. 2005(01)

碩士論文
[1]微博垃圾評論識別方法研究[D]. 蘭丹媚.廣西師范大學 2017
[2]基于語義的垃圾郵件過濾技術(shù)的研究[D]. 胡瑋.重慶大學 2016
[3]基于寫作風格學的作者識別技術(shù)研究[D]. 劉明勇.浙江大學 2013
[4]短文本語義過濾技術(shù)的研究[D]. 覃張華.北方工業(yè)大學 2008
[5]基于內(nèi)容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學院研究生院(計算技術(shù)研究所) 2004



本文編號:3321447

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/3321447.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3ee14***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com