天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

醫(yī)療貼吧中廣告的提取系統(tǒng)

發(fā)布時(shí)間:2017-08-25 22:09

  本文關(guān)鍵詞:醫(yī)療貼吧中廣告的提取系統(tǒng)


  更多相關(guān)文章: 貼吧 廣告 特征選擇 機(jī)器學(xué)習(xí)


【摘要】:“貼吧”是一個(gè)比較大的中文社交平臺(tái),目前,貼吧上推銷廣告泛濫,有些貼吧的頁面上,甚至有一半的帖子都是推銷廣告。這些廣告嚴(yán)重降低了貼吧的使用質(zhì)量,不僅使用戶在瀏覽這些無用的信息上浪費(fèi)了大量時(shí)間,還嚴(yán)重阻礙了用戶通過貼吧平臺(tái)進(jìn)行交流和獲取有用信息。另外,一些虛假廣告還有可能讓人們對(duì)有價(jià)值信息的判斷產(chǎn)生誤導(dǎo),把有利的信息和有害的信息混淆,特別是有關(guān)醫(yī)藥方面的廣告,迎合了部分病人或家屬治病的迫切心情,以致于他們相信了一些虛假廣告,而耽誤了病人接受正規(guī)的治療。現(xiàn)在,貼吧上的很多廣告還是依靠吧主人工處理,面對(duì)眾多的廣告,效率顯然不高。針對(duì)貼吧上的廣告問題,本文開發(fā)了“貼吧中廣告的提取系統(tǒng)”,以實(shí)現(xiàn)智能化識(shí)別貼吧上的廣告信息,在人們?yōu)g覽帖子時(shí),把那些最有可能是廣告的信息反饋給用戶,提醒用戶哪些信息可以不用瀏覽,這樣也可以規(guī)避一些虛假廣告帶來的網(wǎng)絡(luò)詐騙。廣告提取是信息提取的一個(gè)方向,信息提取是指從特定的信息流中將人們感興趣的信息過濾出來,在本文中的信息提取可以轉(zhuǎn)化為文本的分類問題。在本課題中廣告提取系統(tǒng)的核心模塊是廣告文本的提取,所以本課題重點(diǎn)在于文本分類模塊的設(shè)計(jì)與實(shí)現(xiàn)。文本分類系統(tǒng)實(shí)現(xiàn)的一般流程包括文本預(yù)處理、文本表示和分類模型的訓(xùn)練與測(cè)試。本文針對(duì)文本分類模型的實(shí)現(xiàn)所做的主要工作如下:(1)貼吧中文本數(shù)據(jù)的獲取。編寫了爬蟲程序,實(shí)現(xiàn)了貼吧中文本數(shù)據(jù)的抓取。(2)訓(xùn)練樣本和測(cè)試樣本的獲取。訓(xùn)練樣本和測(cè)試樣本都來自抓取的貼吧文本,訓(xùn)練樣本共200篇,測(cè)試樣本40篇,都分為廣告文本和非廣告文本兩類。(3)對(duì)訓(xùn)練樣本進(jìn)行分詞和去停用詞。分詞采用結(jié)巴分詞工具實(shí)現(xiàn),停用詞表采用網(wǎng)上開源詞表,針對(duì)本課題特點(diǎn),對(duì)停用詞表進(jìn)行修正。(4)針對(duì)訓(xùn)練樣本進(jìn)行特征選擇。提出了一個(gè)信息增益與基于logistic回歸相結(jié)合的方法進(jìn)行特征選擇,并用Python語言實(shí)現(xiàn)。本文首先用信息增益的方法預(yù)選擇特征,然后用基于logistic回歸的特征遞歸消除的方法,邊分類邊特征選擇,通過測(cè)試的分類效果確定最后保留多少個(gè)特征。(5)實(shí)現(xiàn)了向量空間模型的文本表示。將從200篇訓(xùn)練文本中選擇出的特征詞組成詞集,根據(jù)詞集將文檔集轉(zhuǎn)化成一個(gè)矩陣,矩陣的行數(shù)為文檔的篇數(shù),矩陣的列數(shù)為特征詞集中特征的數(shù)量,矩陣中的每個(gè)數(shù)據(jù)為每個(gè)特征詞在該篇文章中的權(quán)重,權(quán)重通過TF-IDF算法得到。每篇樣本和它的類別數(shù)據(jù)分別存放在不同的文件夾中。(6)訓(xùn)練分類器選用決策樹和樸素貝葉斯兩種算法。通過對(duì)比兩種分類算法的分類效率,本文最終選擇決策樹作為廣告提取系統(tǒng)的分類算法。(7)分類結(jié)果。本廣告提取系統(tǒng)測(cè)試40個(gè)樣本的分類準(zhǔn)確率達(dá)97.4%,可完全識(shí)別廣告類樣本,仍有一部分非廣告類樣本被判定為廣告類樣本。
【關(guān)鍵詞】:貼吧 廣告 特征選擇 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:河南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-6
  • ABSTRACT6-10
  • 1 緒論10-14
  • 1.1 本文研究意義10-11
  • 1.2 文本分類的背景及現(xiàn)狀11-12
  • 1.3 本文主要研究內(nèi)容12-13
  • 1.4 論文組織結(jié)構(gòu)13-14
  • 2 系統(tǒng)模型的相關(guān)理論知識(shí)及技術(shù)14-18
  • 2.1 機(jī)器學(xué)習(xí)14
  • 2.2 PYTHON14-15
  • 2.3 網(wǎng)絡(luò)爬蟲15-17
  • 2.4 本章小結(jié)17-18
  • 3 文本分類模型18-36
  • 3.1 文本分類簡(jiǎn)介18-19
  • 3.2 實(shí)驗(yàn)數(shù)據(jù)的抓取與文本特征分析19-24
  • 3.2.1 實(shí)驗(yàn)數(shù)據(jù)的抓取19-23
  • 3.2.2 文本特征分析23-24
  • 3.3 文本預(yù)處理24-27
  • 3.3.1 去停用詞24-25
  • 3.3.2 文本分詞25-26
  • 3.3.3 特征選擇26-27
  • 3.4 文本表示27-30
  • 3.4.1 布爾模型27
  • 3.4.2 概率模型27-28
  • 3.4.3 向量空間模型28-30
  • 3.5 分類算法30-31
  • 3.6 經(jīng)典的統(tǒng)計(jì)學(xué)習(xí)分類方法31-34
  • 3.6.1 樸素貝葉斯算法31-32
  • 3.6.2 決策樹分類算法32-34
  • 3.7 性能評(píng)價(jià)體系34
  • 3.8 本章小結(jié)34-36
  • 4 廣告提取系統(tǒng)模型的設(shè)計(jì)與實(shí)現(xiàn)36-44
  • 4.1 廣告提取系統(tǒng)的模型36
  • 4.2 預(yù)處理模塊的設(shè)計(jì)與實(shí)現(xiàn)36-37
  • 4.3 文本表示模塊的設(shè)計(jì)與實(shí)現(xiàn)37-39
  • 4.4 分類模塊的設(shè)計(jì)與實(shí)現(xiàn)39-40
  • 4.5 信息增益與基于LOGISTIC回歸的RFE算法相結(jié)合40-43
  • 4.6 本章小結(jié)43-44
  • 5 總結(jié)與展望44-46
  • 5.1.本文工作總結(jié)44
  • 5.2 后續(xù)工作的展望44-46
  • 參考文獻(xiàn)46-50
  • 致謝50-51

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 吉小軍,李世中,李霆;相關(guān)分析在特征選擇中的應(yīng)用[J];測(cè)試技術(shù)學(xué)報(bào);2001年01期

2 賈沛;桑農(nóng);唐紅衛(wèi);;一種改進(jìn)的類別依賴型特征選擇技術(shù)[J];計(jì)算機(jī)與數(shù)子工程;2003年06期

3 靖紅芳;王斌;楊雅輝;徐燕;;基于類別分布的特征選擇框架[J];計(jì)算機(jī)研究與發(fā)展;2009年09期

4 吳洪麗;朱顥東;周瑞瓊;;使用特征分辨率和差別對(duì)象對(duì)集的特征選擇[J];計(jì)算機(jī)工程與應(yīng)用;2010年16期

5 楊藝;韓德強(qiáng);韓崇昭;;基于排序融合的特征選擇[J];控制與決策;2011年03期

6 李云;;穩(wěn)定的特征選擇研究[J];微型機(jī)與應(yīng)用;2012年15期

7 錢學(xué)雙;多重篩選逐步回歸特征選擇法及其應(yīng)用[J];信息與控制;1986年05期

8 宣國榮;柴佩琪;;基于巴氏距離的特征選擇[J];模式識(shí)別與人工智能;1996年04期

9 范勁松,方廷健;特征選擇和提取要素的分析及其評(píng)價(jià)[J];計(jì)算機(jī)工程與應(yīng)用;2001年13期

10 王新峰;邱靜;劉冠軍;;基于特征相關(guān)性和冗余性分析的機(jī)械故障特征選擇研究[J];中國機(jī)械工程;2006年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條

1 靖紅芳;王斌;楊雅輝;;基于類別分布的特征選擇框架[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

2 李長升;盧漢清;;排序?qū)W習(xí)模型中的特征選擇[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

3 劉功申;李建華;李生紅;;基于類信息的特征選擇和加權(quán)方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

4 倪友平;王思臣;馬桂珍;陳曾平;;分支界定算法在低分辨雷達(dá)飛機(jī)架次判別中的應(yīng)用[A];第十三屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年

5 李澤輝;聶生東;陳兆學(xué);;應(yīng)用多類SVM分割MR腦圖像特征選擇與優(yōu)化的實(shí)驗(yàn)研究[A];中國儀器儀表學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2007年

6 蒙新泛;王厚峰;;主客觀識(shí)別中的上下文因素的研究[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

7 萬京;王建東;;一種基于新的差異性度量的ReliefF方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

8 范麗;許潔萍;;基于GMM的音樂信號(hào)音色模型研究[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2008年

9 陳友;戴磊;程學(xué)旗;;基于MRMHC-C4.5的IP流分類[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 申f;楊宏暉;袁帥;;用于水聲目標(biāo)識(shí)別的互信息無監(jiān)督特征選擇[A];第三屆上海——西安聲學(xué)學(xué)會(huì)學(xué)術(shù)會(huì)議論文集[C];2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李靜;高維數(shù)據(jù)交互特征選擇和分類研究[D];燕山大學(xué);2015年

2 劉風(fēng);基于磁共振成像的多變量模式分析方法學(xué)與應(yīng)用研究[D];電子科技大學(xué);2014年

3 王石平;粗糙擬陣及其在高維數(shù)據(jù)降維中的應(yīng)用研究[D];電子科技大學(xué);2014年

4 代琨;基于支持向量機(jī)的網(wǎng)絡(luò)數(shù)據(jù)特征選擇技術(shù)研究[D];解放軍信息工程大學(xué);2013年

5 王愛國;微陣列基因表達(dá)數(shù)據(jù)的特征分析方法研究[D];合肥工業(yè)大學(xué);2015年

6 王博;文本分類中特征選擇技術(shù)的研究[D];國防科學(xué)技術(shù)大學(xué);2009年

7 張明錦;基于特征選擇的多變量數(shù)據(jù)分析方法及其在譜學(xué)研究中的應(yīng)用[D];華東理工大學(xué);2011年

8 高青斌;蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)相關(guān)問題研究[D];國防科學(xué)技術(shù)大學(xué);2006年

9 馮國忠;文本分類中的貝葉斯特征選擇[D];東北師范大學(xué);2011年

10 張麗新;高維數(shù)據(jù)的特征選擇及基于特征選擇的集成學(xué)習(xí)研究[D];清華大學(xué);2004年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 張金蕾;蛋白質(zhì)SUMO化修飾位點(diǎn)預(yù)測(cè)的數(shù)據(jù)挖掘技術(shù)研究[D];西北農(nóng)林科技大學(xué);2015年

2 史德飛;自適應(yīng)特征選擇在線瓷磚分類系統(tǒng)[D];南京大學(xué);2014年

3 馬錚;網(wǎng)絡(luò)流量特征分析與特征選擇[D];北京郵電大學(xué);2013年

4 徐冬;基于特征選擇的入侵檢測(cè)方法研究[D];吉林大學(xué);2016年

5 鄭芳泉;稀有數(shù)據(jù)的集成特征選擇與入侵檢測(cè)[D];福州大學(xué);2013年

6 徐子偉;基于分步特征選擇和組合分類器的電信客戶流失預(yù)測(cè)模型[D];中國科學(xué)技術(shù)大學(xué);2016年

7 肖麗莎;半監(jiān)督特征選擇關(guān)鍵技術(shù)研究[D];西南交通大學(xué);2016年

8 李昌;概率特征選擇分類向量機(jī)[D];中國科學(xué)技術(shù)大學(xué);2016年

9 黃春虎;基于ReliefF-FCBF組合的入侵特征選擇算法研究[D];新疆大學(xué);2016年

10 譚蘊(yùn)琨;面向稀疏數(shù)據(jù)的在線學(xué)習(xí)特征選擇方法研究[D];華南理工大學(xué);2016年

,

本文編號(hào):738388

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/738388.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7dcbd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com