基于增量聚類(lèi)的Web上農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件追蹤模型
【部分圖文】:
時(shí)間效率較高[13]。為避免聚類(lèi)結(jié)果對(duì)文檔輸入次序的依賴(lài),在本研究中,文檔聚類(lèi)前,將按網(wǎng)頁(yè)的發(fā)布時(shí)間對(duì)Web文檔進(jìn)行排序。該聚類(lèi)算法的工作過(guò)程如圖1所示,算法的執(zhí)行步驟如下:S1:按發(fā)布時(shí)間對(duì)Web文檔進(jìn)行排序,并順序地處理每篇文檔;S2:第一篇文檔的向量自動(dòng)成為第一個(gè)聚類(lèi)的模板(即該聚類(lèi)的質(zhì)心);S3:將后續(xù)的每一文檔與所有已知事件聚類(lèi)進(jìn)行匹配,并計(jì)算其相似度;S4:若當(dāng)前文檔d與最相似的事件聚類(lèi)C之間的相似度sim(d,C)大于指定的閾值,則該文檔被分配到事件C中,并重新計(jì)算事件類(lèi)別C的質(zhì)心;否則,將文檔d作為一個(gè)新的事件C'。圖1基于Single-Pass聚類(lèi)的事件跟蹤算法示意圖1.5考慮時(shí)間距離的相似度計(jì)算方法在增量聚類(lèi)過(guò)程中,以往在進(jìn)行相似度計(jì)算時(shí),只考慮網(wǎng)頁(yè)正文特征詞的相似度。當(dāng)兩個(gè)分屬不同事件新聞報(bào)道所屬的類(lèi)別比較相近時(shí),網(wǎng)頁(yè)正文中所使用的詞語(yǔ)也會(huì)大致相同,傳統(tǒng)方法難以區(qū)分兩條新聞報(bào)道是否屬于同一個(gè)事件。例如,在進(jìn)行“三鹿牛奶事件”和“蒙牛牛奶致癌事件”追蹤時(shí),很難將文檔劃分到正確的事件中,因?yàn)檫@兩個(gè)事件中都含有“牛奶”“中毒”等特征詞。在農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件的新聞報(bào)道中,通常還會(huì)涉及到網(wǎng)頁(yè)發(fā)布時(shí)間、事件發(fā)生時(shí)間等信息,這些信息對(duì)區(qū)分不同的事件具有重要作用,若文檔與某個(gè)事件之間的時(shí)間距離越小,則理論上它屬于該事件的可能性就越大。在新文檔與事件模板之間的相似度時(shí),在傳統(tǒng)的內(nèi)容相似度的基礎(chǔ)上,本文加入了時(shí)間因素,即通過(guò)考慮事件的發(fā)生時(shí)間來(lái)增強(qiáng)對(duì)多個(gè)相似質(zhì)量安全事件Web文檔的區(qū)分能力。同時(shí),在計(jì)算內(nèi)容相似度時(shí),我們分別考慮了標(biāo)題文本相似度、Meta標(biāo)簽文本相似度、正文文本相似度等三方面的因素,即為每篇Web文檔分別構(gòu)建標(biāo)題文本、Meta
?NE1三鹿三聚氰胺事件2008-09-012008-12-31312NE2蒙牛牛奶致癌事件2011-12-152012-03-01291NE3草莓致癌事件2015-03-012015-12-31437NE4速生雞事件2012-11-012013-07-01323NE5青島毒韭菜事件2010-04-012010-07-01152……………本文在計(jì)算Web文檔內(nèi)容的相似度時(shí),綜合考慮了Web文檔中標(biāo)題、Meta標(biāo)簽對(duì)內(nèi)容相似度計(jì)算的影響,為了獲得標(biāo)題、Meta標(biāo)簽、正文之間的最佳權(quán)重之比,通過(guò)為標(biāo)題、Meta標(biāo)簽、正文設(shè)定不同的權(quán)重之比進(jìn)行對(duì)比,先后比較了6種不同權(quán)重之比情況下的系統(tǒng)的性能,實(shí)驗(yàn)結(jié)果如圖2所示。從圖2中可以看出,當(dāng)標(biāo)題、Meta標(biāo)簽和正文權(quán)重之比為4∶2∶1時(shí),相對(duì)于其他5種情況,系統(tǒng)的Macro-F1值較高。圖2幾種不同權(quán)重之比情況下的跟蹤效果比較為了驗(yàn)證時(shí)間距離對(duì)系統(tǒng)跟蹤性能的影響,我們比較了考慮時(shí)間距離與未考慮時(shí)間距離兩種情況下系統(tǒng)的漏報(bào)率和誤報(bào)率,實(shí)驗(yàn)結(jié)果如圖3所示。從圖3中可以看出,在考慮時(shí)間距離后,系統(tǒng)的漏報(bào)率和誤報(bào)率都有所降低。例如,在誤報(bào)率為5%的情況下,未考慮時(shí)間距離時(shí)跟蹤系統(tǒng)的漏報(bào)率為51.8%,考慮時(shí)間距離后的漏報(bào)率為37.2%;同樣在誤報(bào)率為10%的情況下,未考慮時(shí)間距離時(shí)的漏報(bào)率為36.3%,而考慮時(shí)間距離后的漏報(bào)率為20.1%。圖3考慮時(shí)間距離與否對(duì)系統(tǒng)追蹤性能的影響3結(jié)論將網(wǎng)絡(luò)上孤立、零散分別的農(nóng)產(chǎn)品質(zhì)量安全信息有效地匯集起來(lái),有助于從整體上掌握農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件的發(fā)展態(tài)勢(shì)和分析事件之間的關(guān)聯(lián)性。本文以Web上農(nóng)產(chǎn)品質(zhì)量安全事件信息為研究對(duì)象,提出了一種基于增量聚類(lèi)的農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件自動(dòng)跟蹤模型,并通過(guò)引入時(shí)間距離改進(jìn)聚類(lèi)間的相似度計(jì)算方法,改進(jìn)后系統(tǒng)的漏報(bào)率和誤報(bào)率都有明顯降低。下一步工作中,將研究基于?
了Web文檔中標(biāo)題、Meta標(biāo)簽對(duì)內(nèi)容相似度計(jì)算的影響,為了獲得標(biāo)題、Meta標(biāo)簽、正文之間的最佳權(quán)重之比,通過(guò)為標(biāo)題、Meta標(biāo)簽、正文設(shè)定不同的權(quán)重之比進(jìn)行對(duì)比,先后比較了6種不同權(quán)重之比情況下的系統(tǒng)的性能,實(shí)驗(yàn)結(jié)果如圖2所示。從圖2中可以看出,當(dāng)標(biāo)題、Meta標(biāo)簽和正文權(quán)重之比為4∶2∶1時(shí),相對(duì)于其他5種情況,系統(tǒng)的Macro-F1值較高。圖2幾種不同權(quán)重之比情況下的跟蹤效果比較為了驗(yàn)證時(shí)間距離對(duì)系統(tǒng)跟蹤性能的影響,我們比較了考慮時(shí)間距離與未考慮時(shí)間距離兩種情況下系統(tǒng)的漏報(bào)率和誤報(bào)率,實(shí)驗(yàn)結(jié)果如圖3所示。從圖3中可以看出,在考慮時(shí)間距離后,系統(tǒng)的漏報(bào)率和誤報(bào)率都有所降低。例如,在誤報(bào)率為5%的情況下,未考慮時(shí)間距離時(shí)跟蹤系統(tǒng)的漏報(bào)率為51.8%,考慮時(shí)間距離后的漏報(bào)率為37.2%;同樣在誤報(bào)率為10%的情況下,未考慮時(shí)間距離時(shí)的漏報(bào)率為36.3%,而考慮時(shí)間距離后的漏報(bào)率為20.1%。圖3考慮時(shí)間距離與否對(duì)系統(tǒng)追蹤性能的影響3結(jié)論將網(wǎng)絡(luò)上孤立、零散分別的農(nóng)產(chǎn)品質(zhì)量安全信息有效地匯集起來(lái),有助于從整體上掌握農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件的發(fā)展態(tài)勢(shì)和分析事件之間的關(guān)聯(lián)性。本文以Web上農(nóng)產(chǎn)品質(zhì)量安全事件信息為研究對(duì)象,提出了一種基于增量聚類(lèi)的農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件自動(dòng)跟蹤模型,并通過(guò)引入時(shí)間距離改進(jìn)聚類(lèi)間的相似度計(jì)算方法,改進(jìn)后系統(tǒng)的漏報(bào)率和誤報(bào)率都有明顯降低。下一步工作中,將研究基于早期較少的樣本數(shù)據(jù)快速識(shí)別出新的主題事件的方法,以便能及時(shí)發(fā)現(xiàn)農(nóng)產(chǎn)品質(zhì)量安全突發(fā)事件。參考文獻(xiàn)[1]張馳,張曉東,王登位,等.農(nóng)產(chǎn)品質(zhì)量安全可追溯研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2017(1):18-28.[2]李祥洲,錢(qián)永忠,鄧玉,等.2016年我國(guó)農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)測(cè)與分析[J?
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李翔;黃陽(yáng)成;翁春英;韋江峰;胡支向;劉穎;;基于RFID的農(nóng)產(chǎn)品質(zhì)量安全監(jiān)控溯源系統(tǒng)應(yīng)用研究[J];農(nóng)業(yè)與技術(shù);2014年02期
2 李廣洲,丁金芳,鄧海山;基于Web的化學(xué)計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)與應(yīng)用化學(xué);2002年05期
3 趙松林;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];微型機(jī)與應(yīng)用;2003年08期
4 宋平;;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];福建電腦;2007年10期
5 彭玉華;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];民營(yíng)科技;2010年09期
6 ;借會(huì)獻(xiàn)技——國(guó)際軟件博覽會(huì)中心議題web計(jì)算及應(yīng)用[J];每周電腦報(bào);1997年43期
7 向劍鋒;;基于Web的企業(yè)信息管理系統(tǒng)安全方案[J];信息與電腦(理論版);2013年11期
8 張彩虹;;分布式虛擬現(xiàn)實(shí)系統(tǒng)Web服務(wù)器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2014年05期
9 黃建德;黃其標(biāo);;基于WEB的學(xué)生信息管理系統(tǒng)的研究與構(gòu)建[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2014年02期
10 黃廷輝,朱英;一種基于WEB的車(chē)輛調(diào)度管理系統(tǒng)[J];桂林電子工業(yè)學(xué)院學(xué)報(bào);2000年03期
相關(guān)博士學(xué)位論文 前7條
1 袁寧;突發(fā)事件對(duì)人類(lèi)通信行為模式影響的研究[D];天津大學(xué);2016年
2 黃治虎;基于網(wǎng)頁(yè)信息和圖像特征的Web圖像檢索研究[D];重慶大學(xué);2015年
3 張璞;Web評(píng)論文本情感分類(lèi)方法研究[D];重慶大學(xué);2015年
4 劉維東;Web短文本知識(shí)關(guān)聯(lián)模型及其語(yǔ)義連貫計(jì)算方法[D];上海大學(xué);2016年
5 孫慧峰;基于協(xié)同過(guò)濾的個(gè)性化Web推薦[D];北京郵電大學(xué);2012年
6 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學(xué);2007年
7 孫濤;面向市場(chǎng)情報(bào)分析的Web實(shí)體事件融合問(wèn)題研究[D];山東大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 遲曉彤;基于電子足跡大數(shù)據(jù)的突發(fā)事件關(guān)聯(lián)分析研究[D];天津大學(xué);2016年
2 張銳;基于Web技術(shù)下的出差管理系統(tǒng)[D];西安工業(yè)大學(xué);2015年
3 游維;基于Rest的Web業(yè)務(wù)系統(tǒng)日志采集與分析系統(tǒng)的研究與開(kāi)發(fā)[D];山東大學(xué);2015年
4 陶瑩昌;基于Web的校園二手圖書(shū)拍賣(mài)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];西華師范大學(xué);2015年
5 周贏;基于WEB的績(jī)效管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
6 吳朝云;基于eyeOS的Web操作系統(tǒng)云存儲(chǔ)研究[D];電子科技大學(xué);2014年
7 林嵐;基于WEB的單位工資管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 武志國(guó);基于Web的人力資源管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 王雁;基于WEB的三維動(dòng)畫(huà)素材管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
10 張靈鈺;基于web平臺(tái)的高校學(xué)生工作管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
本文編號(hào):2855137
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2855137.html