天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

短文本相似性的改進(jìn)及其在電商評論推薦中的應(yīng)用

發(fā)布時(shí)間:2021-11-22 20:47
  在常用評論特征的基礎(chǔ)上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評論與產(chǎn)品標(biāo)題之間的相似性,并作為新的評論特征建立評論推薦模型。實(shí)驗(yàn)證明,引入評論與產(chǎn)品相似性特征可明顯改進(jìn)評論推薦機(jī)制的有效性,同時(shí)文本相似性評價(jià)的準(zhǔn)確性可以借助搜索引擎得到較大提升。 

【文章來源】:工業(yè)工程與管理. 2019,24(05)北大核心CSSCI

【文章頁數(shù)】:7 頁

【部分圖文】:

短文本相似性的改進(jìn)及其在電商評論推薦中的應(yīng)用


圖3主題數(shù)目與對數(shù)似然率關(guān)系圖

關(guān)系圖,特征詞,主題,標(biāo)題


應(yīng)用3.3獲取特征向量(1)評論主題特征采用TF-IDF方法獲取評論關(guān)鍵詞后,應(yīng)用LDA[15]方法,對整個(gè)評論集進(jìn)行主題分析。本文以對數(shù)似然率為縱軸,得到其與評論集主題數(shù)量的關(guān)系如圖3所示,由此確定當(dāng)前語料庫最佳主題數(shù)量為8。對每個(gè)主題下的特征詞進(jìn)行總結(jié)并命名,依次為:服務(wù)、功能、聲音、使用、外觀、物流、性價(jià)比、質(zhì)量,LDA得到的詞語交叉較為嚴(yán)重,借助word2vec[16]修正后結(jié)果如圖4所示。圖3主題數(shù)目與對數(shù)似然率關(guān)系圖圖4主題及部分特征詞圖(2)評論與產(chǎn)品標(biāo)題相似性選擇SimSE、Simhash[17]、基于《現(xiàn)代漢語分類詞典》的相似性評價(jià)(SimilarityMeasurebasedonCidian,CD_Sim)[18]三種方法分別求解評論與產(chǎn)品標(biāo)題相似性特征值,以作對比。(3)其余特征值選用漢語詞法分析系統(tǒng)對文本進(jìn)行分析,統(tǒng)計(jì)詞性相關(guān)特征變量6個(gè)(名詞數(shù)量、動詞數(shù)量、形容詞數(shù)量、副詞數(shù)量、副形詞數(shù)量、詞性復(fù)雜度)。獲取情感極性分值變量2個(gè)(積極情感分值、消極情感分值)。(4)向量歸一化獲取評論的各維度特征后,選擇“最大值-最小值”歸一化,消除量綱的影響。加入評論的獲贊數(shù)作為預(yù)測變量,所得數(shù)據(jù)集示例如表2所示,示例中的相似性計(jì)算方法為SimSE方法。表2歸一化后數(shù)據(jù)集示例特征評論1評論2評論3評論長度0.2310.2250.0

變量,實(shí)驗(yàn)結(jié)果


工業(yè)工程與管理第5期率、功能、圖片數(shù)量、形容詞數(shù)量、副形詞數(shù)量、詞性復(fù)雜度、評論長度、與產(chǎn)品標(biāo)題相似性、性價(jià)比均對評論有效性有顯著的正向作用,表明評論內(nèi)容越豐富深刻,獲贊數(shù)可能越高。評論時(shí)間對評論的有效性有顯著的負(fù)向作用,意味著評論時(shí)間越早,獲贊數(shù)具備越高的可能。圖5LASSO變量壓縮結(jié)果3.5實(shí)驗(yàn)結(jié)果對比以是否加入三種方法所得評論與產(chǎn)品標(biāo)題相似性特征為變量,隨機(jī)多次選取單個(gè)產(chǎn)品相關(guān)評論的80%(向下取整)作為訓(xùn)練集,其余評論作為預(yù)測集。對評論集中11個(gè)產(chǎn)品分別建立4種支持向量機(jī)模型,模型含義如表3所示。對于每個(gè)產(chǎn)品的評論集,將點(diǎn)贊數(shù)去重后降序排列,選擇第10個(gè)值為邊界將評論集分為兩個(gè)子集,記為高贊評論集和其他評論集。由于點(diǎn)贊數(shù)與評論并非一一對應(yīng),因此,高贊評論集的元素個(gè)數(shù)一般大于10。表3四種模型的含義模型是否有相似性特征計(jì)算相似性的方法SVM否/SimSE-SVM是SimSESimhash-SVM是SimhashCD_Sim-SVM是CD_Sim選擇平均絕對誤差(MAE)、均方根誤差(RMSE)、模型對高贊評論的預(yù)測查準(zhǔn)率(P)及召回率(R)作為評價(jià)指標(biāo),取每種模型對11個(gè)產(chǎn)品相關(guān)評論多次K-折交叉驗(yàn)證的最優(yōu)結(jié)果的均值,對比如表4所示。P=TPTP+FP(17)R=TPTP+FN(18)其中,TP表示“預(yù)測為高贊評論,實(shí)際為高贊評論”,FP表示“

【參考文獻(xiàn)】:
期刊論文
[1]用戶評論信息特征與信息采納——產(chǎn)品涉入與社區(qū)涉入的不同調(diào)節(jié)作用[J]. 李雪,劉益,高偉.  情報(bào)科學(xué). 2018(11)
[2]在線產(chǎn)品評論有用性識別方法研究[J]. 單曉紅,張曉月,劉曉燕,賈盼盼.  北京工業(yè)大學(xué)學(xué)報(bào)(社會科學(xué)版). 2018(05)
[3]服務(wù)型產(chǎn)品在線評論信息特征對評論感知有用性與購買意愿的影響[J]. 李啟庚,趙曉虹,余明陽.  工業(yè)工程與管理. 2017(06)
[4]基于分類詞典的文本相似性度量方法[J]. 李海林,鄒金串.  智能系統(tǒng)學(xué)報(bào). 2017(04)
[5]基于奇異值分解的個(gè)性化評論推薦[J]. 余剛,王知衍,邵璐,胡舒悅,蔡毅.  電子科技大學(xué)學(xué)報(bào). 2015(04)
[6]考慮觀點(diǎn)多樣性的評論選擇問題[J]. 余文喆,沙朝鋒,何曉豐,張蓉.  計(jì)算機(jī)研究與發(fā)展. 2015(05)
[7]供應(yīng)商與客戶智能協(xié)同決策規(guī)則識別研究[J]. 劉翔,范嬌嬌.  中國商貿(mào). 2013(06)
[8]圖像-文本相關(guān)性挖掘的Web圖像聚類方法[J]. 吳飛,韓亞洪,莊越挺,邵健.  軟件學(xué)報(bào). 2010(07)

博士論文
[1]基于語義理解的意見挖掘研究[D]. 曹高輝.武漢大學(xué) 2010

碩士論文
[1]基于語義分析的文本相似性度量研究及應(yīng)用[D]. 周萍.武漢工程大學(xué) 2017
[2]基于大數(shù)據(jù)平臺的在線評論有效性模型的研究與實(shí)現(xiàn)[D]. 李凱.北京郵電大學(xué) 2017



本文編號:3512416

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3512416.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f3a6d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com