面向社交商務(wù)的大數(shù)據(jù)分析方法研究
本文選題:社交商務(wù) 切入點(diǎn):大數(shù)據(jù) 出處:《東南大學(xué)》2015年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:隨著大數(shù)據(jù)時(shí)代的來(lái)臨,面向海量、異構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)的分析技術(shù)得到越來(lái)越廣泛的應(yīng)用。社交商務(wù)作為一種新興的電子商務(wù)模式,其融合了社交媒體的社交互動(dòng)功能與電子商務(wù)的商務(wù)功能,并且已經(jīng)成為重要的大數(shù)據(jù)來(lái)源,其蘊(yùn)含的大量非結(jié)構(gòu)化數(shù)據(jù),尤其是文本數(shù)據(jù)具有極大的商業(yè)價(jià)值。在這些復(fù)雜的文本數(shù)據(jù)當(dāng)中隱含著用戶(hù)的喜好偏向、行為習(xí)慣、消費(fèi)傾向等,對(duì)這些文本數(shù)據(jù)的分析可以很好地為社交商務(wù)中的社交購(gòu)物和社交營(yíng)銷(xiāo)服務(wù)。在這種背景下,面向社交商務(wù)的大數(shù)據(jù)分析顯得迫切和必要,本文圍繞社交商務(wù)中的文本數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析。首先,分析了社交商務(wù)環(huán)境下商務(wù)數(shù)據(jù)的復(fù)雜性,其社交商務(wù)數(shù)據(jù)具有典型的大數(shù)據(jù)特征,并且對(duì)社交商務(wù)中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了分析,重點(diǎn)討論了社交商務(wù)環(huán)境下的數(shù)據(jù)管理以及中文文本數(shù)據(jù)挖掘過(guò)程的復(fù)雜性,給出了中文文本數(shù)據(jù)挖掘的流程。其次,提出了利用Apriori算法抽取產(chǎn)品特征的方法,并應(yīng)用于社交購(gòu)物中的產(chǎn)品評(píng)論情感分析。在社交商務(wù)領(lǐng)域,眾多的用戶(hù)對(duì)眾多的產(chǎn)品進(jìn)行了紛繁復(fù)雜地評(píng)論,這些評(píng)論是非結(jié)構(gòu)化的文本數(shù)據(jù),復(fù)雜的非結(jié)構(gòu)化特征使得用戶(hù)在查看評(píng)論時(shí)遇到了很大的困難;诖,對(duì)社交商務(wù)環(huán)境下的產(chǎn)品評(píng)論進(jìn)行情感挖掘,提出一種利用Apriori算法來(lái)挖掘產(chǎn)品的頻繁特征,并討論如何對(duì)頻繁特征進(jìn)行剪枝操作以提高抽取的特征的有效性,利用語(yǔ)義詞典HowNet來(lái)確定情感詞的情感傾向。最后,提出了識(shí)別電商微博數(shù)據(jù)進(jìn)行熱點(diǎn)話(huà)題的EM-LDA綜合模型。電商微博是一種非結(jié)構(gòu)化的文本信息載體,但卻具備不同于其他非結(jié)構(gòu)化文本信息的特點(diǎn),通過(guò)對(duì)電商微博的分析,提出了一種面向電商微博的EM-LDA綜合模型。首先對(duì)電商微博依據(jù)是否含有哈希標(biāo)簽進(jìn)行分類(lèi),將含有哈希標(biāo)簽的微博稱(chēng)為顯式話(huà)題微博,并用ET-LDA模型進(jìn)行主題挖掘;對(duì)于不含哈希標(biāo)簽的微博,稱(chēng)為隱式話(huà)題微博,通過(guò)細(xì)分此類(lèi)微博的類(lèi)型來(lái)改進(jìn)LDA模型,提出IT-LDA模型。
[Abstract]:With the advent of big data era, the analysis technology of mass, heterogeneous and unstructured data has been applied more and more widely. It combines the social interaction function of social media with the business function of electronic commerce, and has become an important source of big data, which contains a lot of unstructured data. In particular, text data has great commercial value. In these complex text data, there are user preferences, behavior habits, consumption tendencies and so on. The analysis of these text data can be a good service for social shopping and marketing in social commerce. Against this background, big data's analysis for social commerce is urgent and necessary. This paper analyzes the text data of social commerce by big data. Firstly, it analyzes the complexity of business data in social commerce environment. The unstructured data in social commerce is analyzed, and the complexity of data management and Chinese text data mining in social commerce environment is discussed. Secondly, the process of Chinese text data mining is given. This paper proposes a method of extracting product features by using Apriori algorithm, and applies it to the analysis of product reviews in social shopping. In the field of social commerce, many users comment on many products. These comments are unstructured text data, and complex unstructured features make it difficult for users to view comments. This paper proposes a method of mining frequent features of products by using Apriori algorithm, discusses how to prune frequent features to improve the validity of extracted features, and uses semantic dictionary HowNet to determine the affective tendency of affective words. This paper presents an EM-LDA synthesis model for identifying hot topics from Weibo data, which is an unstructured text information carrier, but different from other unstructured text information. In this paper, a comprehensive EM-LDA model for e-commerce Weibo is proposed. First, according to whether the hashtag is included or not, Weibo is classified as an explicit topic, then the topic mining is carried out with ET-LDA model. For Weibo without hashtag, it is called the implicit topic Weibo. By subdividing the types of this kind of IT-LDA, the LDA model is improved and the IT-LDA model is put forward.
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 艾孜爾古麗;李曉;玉素甫·艾白都拉;;中小學(xué)維吾爾語(yǔ)文教材用詞數(shù)據(jù)分析方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年03期
2 韓玲;胡學(xué)鋼;李建國(guó);馮崇嶺;;基于數(shù)據(jù)分析方法的屬性簡(jiǎn)約算法的實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年06期
3 應(yīng)里孟;;數(shù)據(jù)式審計(jì)常用的數(shù)據(jù)分析方法[J];中國(guó)農(nóng)業(yè)會(huì)計(jì);2011年09期
4 章婷;石堅(jiān);沈森祖;;標(biāo)準(zhǔn)樣片制備的測(cè)量數(shù)據(jù)分析方法研究[J];計(jì)算機(jī)與數(shù)字工程;2010年09期
5 欒世武;數(shù)據(jù)挖掘給企業(yè)應(yīng)用帶來(lái)什么?[J];微電腦世界;2000年23期
6 陳方櫻;關(guān)于數(shù)據(jù)分析方法及SAS軟件教學(xué)的探索[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2004年01期
7 陳濤;;SQL數(shù)據(jù)分析方法在醫(yī)療收費(fèi)檢查中的應(yīng)用[J];中國(guó)價(jià)格監(jiān)督檢查;2011年12期
8 戴征宇,李廣生;DSAM的數(shù)據(jù)分析方法研究──峰形分析法[J];中國(guó)原子能科學(xué)研究院年報(bào);1994年00期
9 吳大岳;謝福鼎;;一種X線(xiàn)征象的智能數(shù)據(jù)分析方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年28期
10 龔峻;;運(yùn)用關(guān)系型數(shù)據(jù)分析方法規(guī)劃企業(yè)級(jí)IT系統(tǒng)模型[J];電信技術(shù);2010年04期
相關(guān)會(huì)議論文 前3條
1 劉紅云;張雷;駱?lè)?;多元追蹤數(shù)據(jù)分析方法新進(jìn)展與應(yīng)用[A];全國(guó)教育與心理統(tǒng)計(jì)與測(cè)量學(xué)術(shù)年會(huì)暨第八屆海峽兩岸心理與教育測(cè)驗(yàn)學(xué)術(shù)研討會(huì)論文摘要集[C];2008年
2 吳志清;;淺議實(shí)驗(yàn)室對(duì)比數(shù)據(jù)分析方法——穩(wěn)健統(tǒng)計(jì)Z比分?jǐn)?shù)[A];2011(昆明)中西部第四屆有色金屬工業(yè)發(fā)展論壇論文集[C];2011年
3 張寧;陳紅;;基于ParaWare MOLAP系統(tǒng)的PSC智能數(shù)據(jù)分析方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
相關(guān)博士學(xué)位論文 前5條
1 蔡偉達(dá);證候研究中常用數(shù)據(jù)分析方法的文獻(xiàn)研究及基于隱類(lèi)模型的抑郁癥隱變量分析[D];北京中醫(yī)藥大學(xué);2015年
2 蔡立軍;基因分類(lèi)及基因表達(dá)數(shù)據(jù)分析方法的研究[D];湖南大學(xué);2007年
3 相潔;啟發(fā)式問(wèn)題解決認(rèn)知神經(jīng)機(jī)制及fMRI數(shù)據(jù)分析方法研究[D];太原理工大學(xué);2010年
4 胡宇;函數(shù)型數(shù)據(jù)分析方法研究及其應(yīng)用[D];東北師范大學(xué);2011年
5 蔣紅衛(wèi);一種新的多向數(shù)據(jù)分析方法—多重雙線(xiàn)性分解及運(yùn)用初步[D];第二軍醫(yī)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前6條
1 尹海峰;面向LTE移動(dòng)網(wǎng)絡(luò)KPI數(shù)據(jù)分析方法的研究[D];西安電子科技大學(xué);2014年
2 伍萬(wàn)坤;面向社交商務(wù)的大數(shù)據(jù)分析方法研究[D];東南大學(xué);2015年
3 鄧春瑤;哈爾濱市居民公交IC卡數(shù)據(jù)分析方法研究[D];東北林業(yè)大學(xué);2013年
4 趙金鑫;基于MapReduce的無(wú)線(xiàn)網(wǎng)優(yōu)平臺(tái)數(shù)據(jù)分析方法[D];北京郵電大學(xué);2015年
5 劉春燕;教學(xué)網(wǎng)絡(luò)DIDS數(shù)據(jù)分析方法的研究與改進(jìn)[D];鄭州大學(xué);2010年
6 楊s,
本文編號(hào):1611517
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/1611517.html