基于文本分析的在線圖書評論質(zhì)量研究
發(fā)布時間:2022-02-12 13:45
隨著大數(shù)據(jù)時代的到來,越來越多的人通過互聯(lián)網(wǎng)分享自己的觀點(diǎn)和想法,用戶在線評論數(shù)量呈指數(shù)型爆發(fā),評論的控制和利用成為當(dāng)前網(wǎng)絡(luò)平臺面臨的重要考驗(yàn)。一個有效的網(wǎng)絡(luò)評論管理系統(tǒng)應(yīng)當(dāng)具備以下兩方面的功能:幫助用戶快速的從海量數(shù)據(jù)中得到有用信息和幫助平臺合理有效的管理和利用用戶評論。評論質(zhì)量評估作為自然語言處理的一個分支,成為網(wǎng)絡(luò)評論管理系統(tǒng)的重要組成部分。評論質(zhì)量評估即尋找可衡量評論質(zhì)量的指標(biāo),根據(jù)相應(yīng)指標(biāo)對評論質(zhì)量進(jìn)行量化,進(jìn)而可以根據(jù)質(zhì)量高低將評論進(jìn)行過濾、排序等更多處理,識別出質(zhì)量較高的評論,使得閱讀評論的人能夠在海量評論中快速獲取有價值的信息。對非商業(yè)化圖書交流平臺進(jìn)行評論質(zhì)量評估,一方面,有助于識別出高質(zhì)量評論,使讀者更加快速高效地發(fā)現(xiàn)有價值的評論,協(xié)助其選擇適合自己的、更優(yōu)質(zhì)的書籍。另一方面,能夠改進(jìn)圖書門戶網(wǎng)站的現(xiàn)有評論展示功能,改善網(wǎng)站的服務(wù)質(zhì)量,提高用戶體驗(yàn)度。本文面向非商業(yè)化圖書平臺的用戶評論進(jìn)行了質(zhì)量評估研究。首先分析了非商業(yè)化圖書平臺的特點(diǎn),結(jié)合中文表達(dá)方式的特殊性,構(gòu)建了一套適用于該類型平臺的WDC在線評論質(zhì)量評價指標(biāo)體系,然后以該指標(biāo)為基礎(chǔ)分析了使用支持向量機(jī)方法、...
【文章來源】:山東大學(xué)山東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2用戶在線評論研宄現(xiàn)狀示意圖??1.情感分析??
需要在文本型評論中提取的指標(biāo)有:評論長度、平均句長、相關(guān)性、??飾詞數(shù)量、情感詞數(shù)量和可讀性指標(biāo)。??2.構(gòu)建在線評論質(zhì)量評價指標(biāo)體系。根據(jù)現(xiàn)有研宄中的數(shù)據(jù)質(zhì)量描述體豆瓣讀書的評論特點(diǎn),提出本文的WDC評論質(zhì)量評價指標(biāo)體系。??3.建立模型。根據(jù)獲得的WDC評價指標(biāo)體系,將評論數(shù)據(jù)按一定比例劃訓(xùn)練集和測試集,分別用SVM、邏輯回歸方法建立在線評論質(zhì)量評價模型。??4.模型分析。首先從查準(zhǔn)率、召回率、F值、準(zhǔn)確率四個方面分別對SVM、??輯回歸方法的分類效果進(jìn)行了評價。然后利用隨機(jī)森林的特征排序能力,對的指標(biāo)進(jìn)行了重要度排序,分析其影響力。最后對模型整體效果進(jìn)行了總.2論文整體結(jié)構(gòu)??本文的整體結(jié)構(gòu)包括研究背景及意義、相關(guān)研究理論、在線評論質(zhì)量評價體系及模型構(gòu)建、實(shí)證分析、模型性能評估、總結(jié)與展望六部分,如圖1.2。本文共分為六章,各章節(jié)的主要內(nèi)容和結(jié)構(gòu)框架如下:??
山東大學(xué)碩士學(xué)位論文??率),W表示每篇文檔中的詞語數(shù),D表示文檔的個數(shù),0?—z,cp?—w都服從??多項(xiàng)式(Multinomial)分布。LDA的概率圖可以描述如下:??1.?根據(jù)狄利克雷分布Dir(c〇得到每篇文檔的主題概率分布0,根據(jù)狄利??克雷分布Dir〇?:)得到每個主題下詞語的概率分布cp。??2.?對于某篇文檔中的第i個詞,先從該文檔中包含的每個主題的多項(xiàng)式??分布0中抽取一個主題6,再在這個主題對應(yīng)的詞的多項(xiàng)式分布<p中抽??取一個詞u^。??3.?重復(fù)步驟2,直到D篇文章全部生成完成。??
【參考文獻(xiàn)】:
期刊論文
[1]基于個人–群體–商戶關(guān)系模型的虛假評論識別研究[J]. 余傳明,馮博琳,左宇恒,陳百云,安璐. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[2]基于Markov邏輯網(wǎng)的虛假評論識別方法[J]. 行娟娟. 中文信息學(xué)報(bào). 2016(05)
[3]基于邏輯回歸的中文在線評論有效性檢測模型[J]. 吳含前,朱云杰,謝玨. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[4]基于內(nèi)容分析的用戶評論質(zhì)量的評價與預(yù)測[J]. 聶卉. 圖書情報(bào)工作. 2014(13)
[5]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學(xué)報(bào). 2012(01)
[6]基于中文分詞和詞頻統(tǒng)計(jì)的圖書在線評論文本分析[J]. 張麗,張蕾,張陽,戢妍. 信息系統(tǒng)工程. 2011(07)
[7]圖書領(lǐng)域消費(fèi)者在線評論的有用性影響因素研究[J]. 孫文俊,薛博召. 江蘇商論. 2011(05)
[8]漢語語句主題語義傾向分析方法的研究[J]. 姚天昉,婁德成. 中文信息學(xué)報(bào). 2007(05)
碩士論文
[1]基于意圖特征的評論質(zhì)量分析與建模方法研究[D]. 陸軍.蘇州大學(xué) 2013
本文編號:3621829
【文章來源】:山東大學(xué)山東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2用戶在線評論研宄現(xiàn)狀示意圖??1.情感分析??
需要在文本型評論中提取的指標(biāo)有:評論長度、平均句長、相關(guān)性、??飾詞數(shù)量、情感詞數(shù)量和可讀性指標(biāo)。??2.構(gòu)建在線評論質(zhì)量評價指標(biāo)體系。根據(jù)現(xiàn)有研宄中的數(shù)據(jù)質(zhì)量描述體豆瓣讀書的評論特點(diǎn),提出本文的WDC評論質(zhì)量評價指標(biāo)體系。??3.建立模型。根據(jù)獲得的WDC評價指標(biāo)體系,將評論數(shù)據(jù)按一定比例劃訓(xùn)練集和測試集,分別用SVM、邏輯回歸方法建立在線評論質(zhì)量評價模型。??4.模型分析。首先從查準(zhǔn)率、召回率、F值、準(zhǔn)確率四個方面分別對SVM、??輯回歸方法的分類效果進(jìn)行了評價。然后利用隨機(jī)森林的特征排序能力,對的指標(biāo)進(jìn)行了重要度排序,分析其影響力。最后對模型整體效果進(jìn)行了總.2論文整體結(jié)構(gòu)??本文的整體結(jié)構(gòu)包括研究背景及意義、相關(guān)研究理論、在線評論質(zhì)量評價體系及模型構(gòu)建、實(shí)證分析、模型性能評估、總結(jié)與展望六部分,如圖1.2。本文共分為六章,各章節(jié)的主要內(nèi)容和結(jié)構(gòu)框架如下:??
山東大學(xué)碩士學(xué)位論文??率),W表示每篇文檔中的詞語數(shù),D表示文檔的個數(shù),0?—z,cp?—w都服從??多項(xiàng)式(Multinomial)分布。LDA的概率圖可以描述如下:??1.?根據(jù)狄利克雷分布Dir(c〇得到每篇文檔的主題概率分布0,根據(jù)狄利??克雷分布Dir〇?:)得到每個主題下詞語的概率分布cp。??2.?對于某篇文檔中的第i個詞,先從該文檔中包含的每個主題的多項(xiàng)式??分布0中抽取一個主題6,再在這個主題對應(yīng)的詞的多項(xiàng)式分布<p中抽??取一個詞u^。??3.?重復(fù)步驟2,直到D篇文章全部生成完成。??
【參考文獻(xiàn)】:
期刊論文
[1]基于個人–群體–商戶關(guān)系模型的虛假評論識別研究[J]. 余傳明,馮博琳,左宇恒,陳百云,安璐. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[2]基于Markov邏輯網(wǎng)的虛假評論識別方法[J]. 行娟娟. 中文信息學(xué)報(bào). 2016(05)
[3]基于邏輯回歸的中文在線評論有效性檢測模型[J]. 吳含前,朱云杰,謝玨. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[4]基于內(nèi)容分析的用戶評論質(zhì)量的評價與預(yù)測[J]. 聶卉. 圖書情報(bào)工作. 2014(13)
[5]基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 謝麗星,周明,孫茂松. 中文信息學(xué)報(bào). 2012(01)
[6]基于中文分詞和詞頻統(tǒng)計(jì)的圖書在線評論文本分析[J]. 張麗,張蕾,張陽,戢妍. 信息系統(tǒng)工程. 2011(07)
[7]圖書領(lǐng)域消費(fèi)者在線評論的有用性影響因素研究[J]. 孫文俊,薛博召. 江蘇商論. 2011(05)
[8]漢語語句主題語義傾向分析方法的研究[J]. 姚天昉,婁德成. 中文信息學(xué)報(bào). 2007(05)
碩士論文
[1]基于意圖特征的評論質(zhì)量分析與建模方法研究[D]. 陸軍.蘇州大學(xué) 2013
本文編號:3621829
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3621829.html
最近更新
教材專著