【摘要】:各種電子商務(wù)平臺及社交媒體網(wǎng)站的廣泛涌現(xiàn),使得互聯(lián)網(wǎng)上累積了廣大用戶關(guān)于產(chǎn)品性能及消費(fèi)體驗(yàn)的海量評價(jià)文本數(shù)據(jù),這些數(shù)據(jù)中不僅隱含著用戶的消費(fèi)行為模式,而且隱含著產(chǎn)品性能及商家服務(wù)的局限性信息。此類數(shù)據(jù)的分析與挖掘?qū)τ诜治鲇脩粝M(fèi)行為,服務(wù)電子商務(wù)決策,改善營銷策略具有重要的現(xiàn)實(shí)意義。對文本挖掘而言,經(jīng)典的單標(biāo)記監(jiān)督學(xué)習(xí)方法已經(jīng)難以滿足多樣性文本信息的處理需求。因此,對多標(biāo)記文本分類方法的研究,以及合理使用多標(biāo)記學(xué)習(xí)方法處理各類文本數(shù)據(jù),對文本數(shù)據(jù)挖掘而言,具有重要意義。粗糙集作為一種處理不確定信息的有效工具,該理論在分類規(guī)則學(xué)習(xí)和屬性約簡方面都取得了很多研究成果。本文以實(shí)際應(yīng)用——網(wǎng)頁文檔分類和產(chǎn)品評論方面挖掘?yàn)楸尘?基于粗糙集理論對多標(biāo)記文本的分類方法開展研究,主要內(nèi)容和結(jié)論如下:(1)多標(biāo)記文本語料的構(gòu)建與分析本文選取大量網(wǎng)頁文檔和汽車產(chǎn)品評論數(shù)據(jù)作為實(shí)驗(yàn)語料,對面向主題的網(wǎng)頁文檔和面向觀點(diǎn)挖掘的評論文本所涉及的多標(biāo)記問題,結(jié)合多標(biāo)記文本挖掘方法,構(gòu)建中文多標(biāo)記文本數(shù)據(jù)集。同時(shí),針對產(chǎn)品評論中的多方面性能評價(jià)問題,提出一種基于多標(biāo)記學(xué)習(xí)的識別框架。(2)基于穩(wěn)健模糊粗糙集模型的多標(biāo)記文本分類為應(yīng)對多標(biāo)記數(shù)據(jù)的不確定性及噪聲,提出了一種新的多標(biāo)記穩(wěn)健模糊粗糙分類模型。該模型是處理單標(biāo)記分類問題的k-mean穩(wěn)健統(tǒng)計(jì)量模糊粗糙分類模型的擴(kuò)展應(yīng)用。對于每個(gè)待分類數(shù)據(jù),首先根據(jù)文本相似性計(jì)算方法,得到其相對于各標(biāo)記的隸屬度;然后根據(jù)隸屬度定義待分類數(shù)據(jù)與各標(biāo)記的相關(guān)度;最后為每一組相關(guān)度賦予合適的閾值,得到相關(guān)的標(biāo)記集合。在真實(shí)多標(biāo)記文本數(shù)據(jù)集以及常用多標(biāo)記評測指標(biāo)上的實(shí)驗(yàn)結(jié)果表明,所提模型在多標(biāo)記網(wǎng)頁文本的主題分類問題上,取得了很好的效果。(3)基于粗糙集的鏈?zhǔn)綄偬卣鞫喾矫孀R別針對產(chǎn)品評論文本中的多方面性能評價(jià)問題,提出一種基于粗糙集的鏈?zhǔn)綄偬卣鞫喾矫孀R別方法。該方法以粗糙集理論為基礎(chǔ),通過為每個(gè)方面標(biāo)記提取標(biāo)記相關(guān)的專屬特征,構(gòu)建專屬特征分類器鏈,以多標(biāo)記分類方法解決多方面識別問題。在新浪汽車評論語料上的實(shí)驗(yàn)表明,與多種多標(biāo)記文本分類方法相比,該方法的方面識別子集準(zhǔn)確率可達(dá)95%,驗(yàn)證了多標(biāo)記學(xué)習(xí)方法在評論文本的多方面性能識別問題中的可行性。
【圖文】:
關(guān)于新浪汽車網(wǎng)站上的馬自達(dá)CX-5品牌車型的用戶評論,如圖3.1所示為例可W看出,網(wǎng)友的評論包含汽車的舒適性和經(jīng)濟(jì)性等性能方面,針對方點(diǎn)挖掘能夠更細(xì)致地反應(yīng)汽車性能特點(diǎn)。逡逑手馬自達(dá)CM逡逑篇巧::^2滿巧1邋開了?-年.豆么里6邋8個(gè)油.逡逑mmmmm-邐回百卿灻橄&逡逑

3.2根據(jù)圖3.2可得整個(gè)框架流程描述為;對從新浪汽車網(wǎng)站上獲取的汽車評論文本逡逑進(jìn)行整理,從中隨機(jī)抽取出部分語料,為每篇文檔標(biāo)注出方面標(biāo)簽,刪除人工無法逡逑標(biāo)記的文檔,,構(gòu)成實(shí)驗(yàn)語料;將汽車本體特征加入用戶詞典,用分詞軟件對實(shí)驗(yàn)數(shù)逡逑據(jù)分詞,抽取出所有名詞性詞語作為候選特征集;采用多標(biāo)記文本特征選擇方法,逡逑
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 李華;李德玉;王素格;張晶;;基于粗糙集的多標(biāo)記專屬特征學(xué)習(xí)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2015年12期
2 張晶;李德玉;王素格;李華;;基于穩(wěn)健模糊粗糙集模型的多標(biāo)記文本分類[J];計(jì)算機(jī)科學(xué);2015年07期
3 李華;李德玉;王素格;張晶;;多標(biāo)記數(shù)據(jù)特征提取方法的核改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2015年07期
4 段潔;胡清華;張靈均;錢宇華;李德玉;;基于鄰域粗糙集的多標(biāo)記分類特征選擇算法[J];計(jì)算機(jī)研究與發(fā)展;2015年01期
5 高嘉偉;梁吉業(yè);劉楊磊;李茹;;一種基于Tri-training的半監(jiān)督多標(biāo)記學(xué)習(xí)文檔分類算法[J];中文信息學(xué)報(bào);2015年01期
6 程圣軍;黃慶成;劉家鋒;唐降龍;;一種改進(jìn)的ML-kNN多標(biāo)記文檔分類方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2013年11期
7 王素格;尹學(xué)倩;李茹;張杰;呂云云;;基于非完備信息系統(tǒng)的評價(jià)對象情感聚類[J];中文信息學(xué)報(bào);2012年04期
8 廣凱;潘金貴;;一種基于向量夾角的k近鄰多標(biāo)記文本分類算法[J];計(jì)算機(jī)科學(xué);2008年04期
本文編號:
2664096
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2664096.html