基于描述和用戶評論的App應用市場信息挖掘
發(fā)布時間:2022-01-22 06:54
隨著移動互聯(lián)網(wǎng)的不斷發(fā)展,各類應用市場上出現(xiàn)了種類繁多的各種App,并包含了海量的用戶評論信息。提供一個合理的App的分類方案將會方便用戶按需選擇,從App的評論中發(fā)掘用戶的需求和反饋,將會幫助App開發(fā)者更好地改進服務。本文基于App的描述信息構建了一個新的App功能分類體系,并且從用戶的評論中抽取用戶觀點匯聚出App的評論觀點標簽并且挖掘出用戶的心理需求。以App開發(fā)者對App的描述作為語料信息,基于主題模型構建了一個新的App功能分類體系。針對華為應用市場上2萬款App,提取出了 12個App功能類別標簽,并且得到了每款App在這12個功能標簽下的分布。這樣的分類體系,可以更全面地展示出App的功能,方便用戶按需選用。用戶評論中觀點的自動提取和聚合是對海量用戶評論進行自動分析的關鍵技術。本文設計了一種基于初始觀點詞性規(guī)則自動迭代發(fā)現(xiàn)新的用戶觀點詞性規(guī)則的方法,來抽取用戶評論觀點,比傳統(tǒng)的抽取方案能更加全面準確地抽取出用戶觀點。并設計了一種新的評論觀點的聚類方法,對觀點按照極性進行匯聚,最終生成每款App正面和負面的用戶評論觀點標簽。按照心理學的觀點,用戶對App的選擇體現(xiàn)了用戶的...
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖2.?1?Af)p評論條數(shù)分布圖??6??
?布場?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個主題,這三個主題的分布是{教育:0.2,經(jīng)??濟:0.5,交通:0.3},每一個主題下面包含三個單詞,以交通為例,在該主題下??的詞分布為{飛機:0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個層次化的表示方式,將上述過程進行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個詞的生成方式:??(1)以先驗概率p(di)選擇一篇文章di;??10??
?布場?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個主題,這三個主題的分布是{教育:0.2,經(jīng)??濟:0.5,交通:0.3},每一個主題下面包含三個單詞,以交通為例,在該主題下??的詞分布為{飛機:0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個層次化的表示方式,將上述過程進行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個詞的生成方式:??(1)以先驗概率p(di)選擇一篇文章di;??10??
【參考文獻】:
期刊論文
[1]基于句法分析的評價搭配抽取及其傾向性分析[J]. 張鐸,朱征宇. 世界科技研究與發(fā)展. 2013 (04)
[2]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機工程與應用. 2005(07)
碩士論文
[1]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學 2012
本文編號:3601742
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
圖2.?1?Af)p評論條數(shù)分布圖??6??
?布場?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個主題,這三個主題的分布是{教育:0.2,經(jīng)??濟:0.5,交通:0.3},每一個主題下面包含三個單詞,以交通為例,在該主題下??的詞分布為{飛機:0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個層次化的表示方式,將上述過程進行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個詞的生成方式:??(1)以先驗概率p(di)選擇一篇文章di;??10??
?布場?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個主題,這三個主題的分布是{教育:0.2,經(jīng)??濟:0.5,交通:0.3},每一個主題下面包含三個單詞,以交通為例,在該主題下??的詞分布為{飛機:0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個層次化的表示方式,將上述過程進行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個詞的生成方式:??(1)以先驗概率p(di)選擇一篇文章di;??10??
【參考文獻】:
期刊論文
[1]基于句法分析的評價搭配抽取及其傾向性分析[J]. 張鐸,朱征宇. 世界科技研究與發(fā)展. 2013 (04)
[2]基于詞頻統(tǒng)計的中文分詞的研究[J]. 費洪曉,康松林,朱小娟,謝文彪. 計算機工程與應用. 2005(07)
碩士論文
[1]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學 2012
本文編號:3601742
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3601742.html
最近更新
教材專著