天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于文本分類的果農(nóng)短信分類

發(fā)布時(shí)間:2016-07-26 21:05

  本文關(guān)鍵詞:基于文本分類算法的短信用戶興趣分層算法研究,由筆耕文化傳播整理發(fā)布。


當(dāng)前所在位置:中國論文網(wǎng) > 科技論文發(fā)表 > 基于文本分類的果農(nóng)短信分類

基于文本分類的果農(nóng)短信分類

發(fā)布日期: 2015-01-29 發(fā)布:  

  2014年23期目錄       本期共收錄文章20篇

2014年23期

  摘要:將手機(jī)短信平臺(tái)中的短信轉(zhuǎn)化為文本的特性,把文本分類算法運(yùn)用到短信處理技術(shù)之中,通過對(duì)短信文本進(jìn)行預(yù)處理、特征選擇及分類器等步驟,,將果農(nóng)短信文本按不同果業(yè)信息類別進(jìn)行分類,根據(jù)分類結(jié)果,有針對(duì)性地向果農(nóng)提供有效的果業(yè)信息服務(wù)。
中國論文網(wǎng)
  關(guān)鍵詞:文本挖掘;短信分類;果農(nóng)
  中圖分類號(hào):TP311.5        文獻(xiàn)標(biāo)識(shí)碼:A        文章編號(hào):0439-8114(2014)23-5864-04
  DOI:10.14088/j.cnki.issn0439-8114.2014.23.062
  短信是依托現(xiàn)代通信技術(shù)手段為農(nóng)民提供即時(shí)通信服務(wù),實(shí)現(xiàn)信息進(jìn)村入戶的重要手段。手機(jī)短信平臺(tái)為果農(nóng)提供果業(yè)信息,幫助他們及時(shí)、準(zhǔn)確地掌握科技技術(shù)信息,了解市場行情,為其決策提供相關(guān)的依據(jù)。目前,農(nóng)村存在短信服務(wù)平臺(tái),如移動(dòng)“農(nóng)信通”、聯(lián)通“電子農(nóng)務(wù)”、“12316”農(nóng)業(yè)短信平臺(tái)等,實(shí)現(xiàn)短信預(yù)訂、接受、推送等短信服務(wù)。為了向果農(nóng)更有針對(duì)性地推送果業(yè)相關(guān)信息,提高農(nóng)業(yè)短信平臺(tái)的應(yīng)用功能,需要對(duì)果農(nóng)按照所發(fā)短信內(nèi)容類型的不同進(jìn)行分類。
  果農(nóng)向農(nóng)業(yè)短信平臺(tái)發(fā)送的咨詢短信中,80%左右的電子化信息都是以無結(jié)構(gòu)自由文本的形式存在的,具有模糊性和歧義性,人或者計(jì)算機(jī)都難以使用這些未經(jīng)整理的信息。于是就需要文本挖掘技術(shù)來對(duì)這些短信內(nèi)容進(jìn)行分類篩選。
  為此,主要針對(duì)以短信形式提交的果業(yè)問題,根據(jù)短信可轉(zhuǎn)化為文本這一特性,憑借對(duì)短信文本相關(guān)特性和相關(guān)技術(shù)的研究了解,將文本分類算法運(yùn)用到短信處理技術(shù)之中。通過對(duì)短信文本進(jìn)行預(yù)處理、特征選擇及分類器等步驟,分析推理果農(nóng)所提問題涉及的領(lǐng)域分類,從而針對(duì)性地為果農(nóng)提供果業(yè)信息。
  1  基于文本分類的短信處理過程
  1.1  文本分類研究現(xiàn)狀
  Feldman等[1]在1995年正式提出文本挖掘的概念,到現(xiàn)在共有不到20年的時(shí)間,相對(duì)于國外的快速發(fā)展,文本挖掘在中國的研究尚處于起步階段。文本分類是文本挖掘的主要技術(shù)之一,它是根據(jù)給定的文本內(nèi)容,將其判定為事先已經(jīng)確定的若干個(gè)文本類別中的一類或者幾類的過程。
  在短信分類研究方面,相關(guān)文獻(xiàn)相對(duì)較少,其中涉及文本分類算法原理及改進(jìn)的很多。王忠軍[2]、陳功平等[3]、賀曼麗[4]研究了一種基于改進(jìn)貝葉斯算法的短信分類方法,設(shè)計(jì)并實(shí)現(xiàn)了一種基于改進(jìn)貝葉斯的垃圾短信過濾系統(tǒng)。劉金嶺[5]提出同義概念歸并、上下位概念的聚焦以及短信文本重點(diǎn)詞匯的確定方法,利用主題句選取算法獲取短信文本的主題,采用KNN算法將短信文本的主題進(jìn)行分類。朱伙[6]在文本分類的基礎(chǔ)上設(shè)計(jì)一個(gè)基于文本分類算法的中文短信用戶興趣分層算法。龔壘[7]利用支持向量機(jī)算法對(duì)短信文本進(jìn)行分類識(shí)別,進(jìn)而完成對(duì)垃圾短信的過濾。雷楊[8]以Stacking作為短信過濾系統(tǒng)的集成學(xué)習(xí)算法,得到了一個(gè)比較有效的短信分類系統(tǒng)。崔彩霞[9]提出了一種基于字特征的短信分類方法,該方法有效地降低了使有用短信的錯(cuò)判率。在應(yīng)用方面,主要研究集中在手機(jī)短信監(jiān)控[10]和垃圾短信處理[7,11]上。
  從目前研究現(xiàn)狀來看,文本挖掘在短信分類中的研究主要是短信分類技術(shù)及改進(jìn)的研究,涉及的技術(shù)比較分散,而在技術(shù)應(yīng)用方面的介紹缺很少,可以說文本挖掘在農(nóng)業(yè)短信分類方面的應(yīng)用在國內(nèi)還處于空白階段。
  1.2  基于文本分類的短信處理
  文本分類是一個(gè)映射的過程,它將未標(biāo)明類別的文本映射到已有的類別中,映射規(guī)則是系統(tǒng)根據(jù)已分類好的分類樣本總結(jié)出分類的規(guī)則,建立分類的判別公式和規(guī)則,在新文本到來時(shí),根據(jù)總結(jié)出來的判別規(guī)則確定文本相關(guān)的類別[12]。對(duì)短信進(jìn)行分類的過程如圖1,主要分為三部分。
  1)建立分類模型。分類模型由訓(xùn)練模塊和分類模塊構(gòu)成。在訓(xùn)練模塊,先抽取訓(xùn)練樣本中的關(guān)鍵詞集合;建立關(guān)鍵詞字典;建立訓(xùn)練樣本詞頻,訓(xùn)練分類器,建立基于K-近鄰文本分類器。在分類模塊,根據(jù)訓(xùn)練模塊建立的關(guān)鍵詞字典,將測(cè)試文本向量化,用特征子集表示。
  2)分類模型的評(píng)價(jià)。測(cè)試分類模型的分類效果,修正分類模型,提高分類模型的分類效果。
  3)測(cè)試階段。輸入未知類別的文檔向量,利用分類器,經(jīng)由分類模型得到測(cè)試文檔的類別。
  在這里只針對(duì)文本如何進(jìn)行預(yù)處理、K鄰近算法原理及應(yīng)用進(jìn)行具體描述,即建立分類模型部分;分類模型評(píng)價(jià)及測(cè)試階段部分省去。
  1.2.1  短信預(yù)處理  ①中文文本分詞處理。中文分詞就是將連續(xù)的中文字序列按照一定的規(guī)范重新組合詞序列的過程。由于中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,中文詞語分析即是中文信息處理的基礎(chǔ)與關(guān)鍵,因此選擇較好的分詞模塊非常重要。此研究采用的是基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS[13]。
  ICTCLAS分詞系統(tǒng)在切分排歧方面,提出了一種基于N-最短路徑的策略,即在早期階段召回N個(gè)最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會(huì)在未登錄詞識(shí)別和詞性標(biāo)注之后,從N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。該算法實(shí)現(xiàn)了漢語詞匯切分結(jié)果在核心詞庫盡可能小的前提下達(dá)到最優(yōu)。
 、谌コnD詞及禮貌用語停頓詞通常指在各類文檔中都頻繁出現(xiàn)的詞,這些詞一般是代詞、介詞、連詞等高頻詞。它們不具有任何類別信息,不能作為特征使用。停用詞過濾首先要構(gòu)造停用詞表,在文本校對(duì)處理后把校對(duì)后的會(huì)話中的各詞條分別和停用詞表中詞進(jìn)行比較,如果該詞條在停用詞表中,則刪除該詞條;谶@一原理將短信中的冠詞、助詞、感嘆詞、禮貌用語等沒有實(shí)際意義的詞語去掉,只剩下具有實(shí)際意義的詞組。
  1.2.2  短信分類  K近鄰法屬于懶惰學(xué)習(xí)方法,其基本思想是:給出測(cè)試文檔,系統(tǒng)在已經(jīng)分類好的訓(xùn)練集中查找與其最近的K個(gè)鄰居,根據(jù)這些鄰居的類別分布情況獲得測(cè)試文檔的類別。其中可以用這些鄰居與測(cè)試文檔的相似度進(jìn)行加權(quán),從而獲得較好的分類效果[14,15]。其分類過程如下:   1)計(jì)算詞頻(TF)。詞頻是指詞組t在文檔中出現(xiàn)的次數(shù)?梢杂霉剑1)計(jì)算詞頻:
  TF(t,d)=0.5+■(1)
  式中,f(t,d)指的是t詞組在d類別中出現(xiàn)的次數(shù)。MaxFreq(d)指的是在類別中所有的詞組出現(xiàn)次數(shù)最多的類別的f(t,d)。
  2)計(jì)算逆文檔頻率IDF。逆文檔頻率是指在所有的文檔中某詞語出現(xiàn)的次數(shù)?梢杂霉剑2)計(jì)算逆文檔頻率:
  IDF=1+log(■)(2)
  式中,n是指所有的類別數(shù)目,k是指出現(xiàn)關(guān)鍵詞t的類別總數(shù)。
  3)計(jì)算weight。使用公式(3)來計(jì)算weight:
  weight(t,d)=TF(t,d)IDF(t)(3)
  4)計(jì)算短信內(nèi)容與各個(gè)細(xì)分類別的相似度。根據(jù)上一步算出的14個(gè)細(xì)分類別下每個(gè)關(guān)鍵詞的weight,可以表示為
  Di=(Wi1,Wi2,…,WiN),其中i=1,2,3。(4)
  同時(shí)也能計(jì)算出新短信內(nèi)容中每個(gè)關(guān)鍵詞的Weight,可以表示為D=(W1,W2,…,Wn)。然后根據(jù)以下相似度的計(jì)算公式(5)可以得出新短信與各細(xì)分類別之間的相似度[16]。
  Sim(Di,Dj)=■WitWjt(5)
  根據(jù)最后計(jì)算出的相似度,可以比較新短信與各細(xì)分類別的相似度哪個(gè)更高一些,從而確定該短信應(yīng)歸屬的類別。若出現(xiàn)了相似度相等的情況,該短信則同時(shí)歸屬于相應(yīng)的類別,可重復(fù)出現(xiàn)。
  2  基于文本分類的果農(nóng)短信分類
  果農(nóng)短信內(nèi)容為“您好,我家水蜜桃今年豐收了,能幫忙提供下市場參考價(jià)格,以便我定價(jià)銷售嗎?謝謝!”根據(jù)KNN算法的步驟介紹,將要對(duì)該評(píng)論應(yīng)該屬于哪個(gè)類別進(jìn)行判斷。
  2.1  分詞、去除停頓詞、禮貌用語及單詞衍生形態(tài)查詢
  首先,通過ICTCLAS分詞系統(tǒng)經(jīng)過分詞,結(jié)果如下:
  您/r 好/a ,/w 我家/r 水蜜桃/n 今年/t 豐收/v 了/y ,/w 能/v 幫忙/v 提供/v 下/v 市場/n 參考/v 價(jià)格/n ,/w 以便/d 我/r 定價(jià)/n 銷售/v 嗎/y ?/w 謝謝/v !/w
  將這條內(nèi)容中的虛詞、助詞、禮貌用語等無實(shí)際意義的詞(您、好、了、能、下、以便、嗎、謝謝等)去掉,并進(jìn)行單詞衍生形態(tài)查詢,將零散的詞組規(guī)范化,最終得到詞組“我家、水蜜桃、今年、豐收、幫忙、提供、市場、參考、價(jià)格、我、定價(jià)、銷售”。
  2.2  果業(yè)短信詞庫構(gòu)建
  2.2.1  果業(yè)信息概況  現(xiàn)階段中國果業(yè)數(shù)據(jù)和農(nóng)村信息具有季節(jié)性、地區(qū)性、時(shí)效性、真實(shí)性和引導(dǎo)性等五大特點(diǎn),信息的內(nèi)容大致包含四大類:①科技類信息:種植技術(shù)、新品種、病蟲害防治、農(nóng)產(chǎn)品加工以及林業(yè)、氣象、水利、環(huán)境和建筑等信息;②市場價(jià)格行情類信息:農(nóng)產(chǎn)品供求與價(jià)格、成交量和國際貿(mào)易等方面信息;③政策信息類:政策、法規(guī)、法律等方面的問題;④科普信息:農(nóng)業(yè)科學(xué)常識(shí),文化教育知識(shí)類信息[17,18]。
  2.2.2  果業(yè)信息的關(guān)鍵詞庫  通過對(duì)農(nóng)業(yè)短信平臺(tái)的研究及查閱相關(guān)資料,從果農(nóng)的短信中總結(jié)出各類信息的關(guān)鍵詞,以此為參照文檔構(gòu)建果業(yè)信息的關(guān)鍵詞庫。果業(yè)信息劃分為四個(gè)大類別,各類別下劃分了小類別,每個(gè)小類別分別對(duì)應(yīng)一些關(guān)鍵詞,由于關(guān)鍵詞太多,在這里只是簡單列舉一下,關(guān)鍵詞詞庫設(shè)定如表1所示,當(dāng)然在提取信息類別關(guān)鍵詞之前,要先確定所詢問果類品種,再基于此進(jìn)行表1的短信分類。
  2.3  果業(yè)信息分類
  2.3.1  計(jì)算詞頻(TF)  因?yàn)楸狙芯恐?4個(gè)細(xì)分類別是建立的果業(yè)信息的關(guān)鍵詞詞庫,所以每個(gè)詞語均只出現(xiàn)了一次,所有各個(gè)關(guān)鍵詞的TF=1。
  2.3.2  計(jì)算逆文檔頻率  各詞組在14個(gè)細(xì)分類別中只出現(xiàn)一次,所以,計(jì)算的IDF=1+lg(14/1)=2.146 1,這個(gè)值都是相同的,具體見表2。
  2.3.3  計(jì)算weight  weight(t,d)=TF(t,d)×IDF(t),如表2中括號(hào)內(nèi)的數(shù)值所示。
  2.3.4  計(jì)算新評(píng)論與Doc1、Doc2以及Doc3的相似度  Sim(新短信,D2-1)=2.146 1×2.146 1=4.605 8
  Sim(新短信,D2-2)=2.146 1×2.146 1+2.146 1×2.146 1=9.211 5
  根據(jù)以上的計(jì)算結(jié)果可知,新短信內(nèi)容與市場價(jià)格行情類信息下的兩個(gè)細(xì)分類別有關(guān),相似度分別為4.605 8、9.211 5,通過比較可知,新短信與D2-2的相似度最高,即“農(nóng)產(chǎn)品價(jià)格”的關(guān)鍵詞庫,于是就可以把這條新內(nèi)容歸類為“農(nóng)產(chǎn)品價(jià)格”。
  3  小結(jié)與討論
  對(duì)果農(nóng)短信進(jìn)行分類的目的就是可以對(duì)果農(nóng)所關(guān)心的問題的不同進(jìn)行歸類,這樣可以有針對(duì)性地提供相應(yīng)的果業(yè)信息服務(wù)。這個(gè)功能的實(shí)現(xiàn),減少了農(nóng)戶搜索相關(guān)果業(yè)信息的時(shí)間和精力,可以更方便、及時(shí)地了解到自己需要的信息,同樣也提高了果業(yè)信息推廣的實(shí)用性和便捷性。
  此外,研究只是針對(duì)一條短信進(jìn)行了分類算法如何具體應(yīng)用的演示,并沒有針對(duì)大規(guī)模果業(yè)相關(guān)短信進(jìn)行測(cè)試試驗(yàn),對(duì)分類器效果的驗(yàn)證還需進(jìn)一步研究。
  參考文獻(xiàn):
  [1] FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[Z]. In: proceedings of the First International Conference in Knowledge Discovery and Date Mining (KDD-95). Montreal, Canada. August 20-21,1995:112-117.   [2] 王忠軍.文本分類在短信過濾中的應(yīng)用[D].遼寧大連:大連理工大學(xué),2006.
  [3] 陳功平,沈明玉,王  紅,等.基于內(nèi)容的短信分類技術(shù)[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,37(6):770-774.
  [4] 賀曼麗.基于內(nèi)容挖掘的垃圾短信過濾分類方法研究[D].長沙;湖南大學(xué),2007.
  [5] 劉金嶺.基于主題的中文短信文本分類研究[J].計(jì)算機(jī)工程,2010,36(4):30-32.
  [6] 朱  伙.基于文本分類算法的短信用戶興趣分層算法研究[D].廣州:中山大學(xué),2011.
  [7] 龔  壘.基于支持向量機(jī)的垃圾短信過濾方法研究[D].河南焦作:河南理工大學(xué),2011.
  [8] 雷  楊.基于集成學(xué)習(xí)的垃圾短信多級(jí)分類技術(shù)研究[D].成都:電子科技大學(xué),2009.
  [9] 崔彩霞.基于字特征的短信分類方法研究[J].太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,10(1):103-105.
  [10] 李  凡.基于內(nèi)容的短信智能分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽:東北大學(xué),2010.
  [11] 鐘延輝.基于文本挖掘的垃圾短信過濾方法[D].成都:電子科技大學(xué),2009.
  [12] 周  茜,趙明生,扈  昊.中文文本分類中的特征選擇研究[J].中文信息學(xué)報(bào),2004,18(3):17-23.
  [13] 何元嬌.基于本體的語義文本分類研究[D].北京:北京化工大學(xué),2008.
  [14] 劉  鋒,白  凡.一種改進(jìn)的K近鄰算法在網(wǎng)頁分類中的應(yīng)用[J].電子技術(shù),2010(7):30-31.
  [15] 劉開,江志雄.基于K-近鄰方法的網(wǎng)絡(luò)信息文本分類[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,26(3):60-63.
  [16] 孔  靜.基于語義和領(lǐng)域相關(guān)的文本聚類研究[D].東營:中國石油大學(xué)(華東),2009.
  [17] 孫  燕.重慶果農(nóng)適用的果業(yè)信息手機(jī)查詢平臺(tái)研究[D].重慶:西南大學(xué),2011.
  [18] 楊木容.果農(nóng)視角下的果業(yè)信息需求和服務(wù)開展的調(diào)查研究[J].安徽農(nóng)業(yè)科學(xué),2011,39(2):7455-7456,7459.

轉(zhuǎn)載請(qǐng)注明來源。:

 


  本文關(guān)鍵詞:基于文本分類算法的短信用戶興趣分層算法研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):76155

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/76155.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ece56***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com