天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

三元共現(xiàn)潛在語義向量空間模型及降維研究

發(fā)布時間:2020-07-23 18:13
【摘要】:文本的向量表示方法對文本主題聚合、聚類、信息檢索及推薦系統(tǒng)等研究具有重要意義。在傳統(tǒng)的文本表示模型中,向量空間模型(VSM)相對簡單,且應(yīng)用較為廣泛。但該模型假設(shè)特征詞相互獨立,這在一定程度上會影響聚類效果。而共現(xiàn)潛在語義向量空間模型(CLSVSM)則是在VSM基礎(chǔ)上,利用共現(xiàn)分析深入挖掘文本信息中特征詞之間的潛在語義關(guān)系,并利用共現(xiàn)相對強度來估計這種關(guān)系,最終估計文獻與特征詞的相似性。通過實驗可證明CLSVSM聚類精度要高于VSM。本文以共現(xiàn)潛在語義向量空間模型為基礎(chǔ),對模型進行拓展及降維研究。基于布爾權(quán)重的局限,利用詞頻統(tǒng)計量重新估計模型,構(gòu)建詞頻共現(xiàn)潛在語義向量空間模型(FCLSVSM);為使CLSVSM能充分提取文獻的潛在語義信息,進一步引入三元共現(xiàn),通過研究三元共現(xiàn)表示,三元共現(xiàn)頻次及三元共現(xiàn)相對強度的計算,最終建立三元共現(xiàn)潛在語義向量空間模型(T-CLSVSM)。但隨著文本數(shù)量的增加,表達模型的維度會越來越高,計算量也會相應(yīng)增加,最終導(dǎo)致模型應(yīng)用的邊際效應(yīng)降低。因此考慮利用懲罰性矩陣分解(PMD)方法進行降維優(yōu)化,具體方法包括:計算K-秩近似及提取核心特征詞。實驗中,選擇擴展數(shù)據(jù)集驗證FCLSVSM,利用基礎(chǔ)數(shù)據(jù)集來驗證T-CLSVSM及PMD算法,并利用公共數(shù)據(jù)集來檢驗?zāi)P偷倪m用范圍。最終得到如下結(jié)論:選擇詞頻統(tǒng)計量來估計模型,可以顯著提高聚類效果。在所選評價指標(純度,熵值,F_1值)下,T-CLSVSM的聚類精度要優(yōu)于VSM與CLSVSM。PMD算法中,提取核心特征詞與計算K-秩近似兩種方法均可有效實現(xiàn)降維,與基于CLSVSM構(gòu)建的語義核函數(shù)(CLSVSM_K)相比,聚類精度更高,降維效果更好。本文對于共現(xiàn)潛在語義向量空間模型作出改進,包括基于詞頻信息的模型重建,三元共現(xiàn)潛在語義向量空間模型的構(gòu)建以及利用PMD算法對模型進行降維。最終證明,改進后的模型可以提高聚類精度,降低計算復(fù)雜度,節(jié)約成本。模型的改進為文本表示提供了新的選擇,同時也為文獻聚合中的相似性度量、文獻檢索、分類等研究提供了參考。
【學(xué)位授予單位】:山西大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F224

【相似文獻】

相關(guān)期刊論文 前10條

1 康耀紅;;基于詞相依性的向量空間模型[J];情報學(xué)報;1989年03期

2 韓美靈;楊勇;;一種面向語義檢索的向量空間模型改進方法[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2012年10期

3 孟海濱;向量空間模型法用于網(wǎng)上衛(wèi)生裝備信息資源自動搜集技術(shù)研究[J];醫(yī)療衛(wèi)生裝備;2002年05期

4 康耀紅;情報檢索的向量空間模型[J];情報理論與實踐;1989年03期

5 王萌,何婷婷,張偉;基于概念向量空間模型的中文自動文摘系統(tǒng)[J];計算機工程與應(yīng)用;2005年01期

6 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[J];中文信息學(xué)報;2012年02期

7 夏云慶;楊瑩;張鵬洲;劉宇飛;;基于情感向量空間模型的歌詞情感分析[J];中文信息學(xué)報;2010年01期

8 程艷;許維勝;楊繼君;何一文;;基于本體興趣特征向量空間模型的社區(qū)自組織算法[J];系統(tǒng)工程;2009年05期

9 姚玉開;王燁;盧翠榮;;向量空間模型的信息檢索技術(shù)[J];價值工程;2013年13期

10 烏慶敏;楊思春;;概念向量空間模型在智能答疑系統(tǒng)中的應(yīng)用[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年02期

相關(guān)會議論文 前10條

1 夏云慶;楊瑩;張鵬洲;;基于情感向量空間模型的歌詞情感分析[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年

2 唐國瑜;夏云慶;張民;鄭方;;基于跨語言廣義向量空間模型的跨語言文檔聚類方法[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年

3 石敏;康耀紅;;關(guān)于廣義向量空間模型中布爾運算的修正[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

4 劉巍巍;張衛(wèi)強;劉加;;基于鑒別性向量空間模型的語種識別[A];需將論文集名稱修改為“第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC2013)論文集[C];2013年

5 曹晶;孫鐵利;楊柳;;基于概念向量空間模型的信息檢索方法[A];2006年全國理論計算機科學(xué)學(xué)術(shù)年會論文集[C];2006年

6 鄧妍;張衛(wèi)強;劉加;;基于區(qū)分性向量空間模型的語種識別[A];2009年中國智能自動化會議論文集(第七分冊)[南京理工大學(xué)學(xué)報(增刊)][C];2009年

7 蘇貴洋;王永成;馬穎華;;信息自動獲取的結(jié)構(gòu)模型[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年

8 姚遠;張蕙;郝群;徐世東;;基于本體的用戶畫像構(gòu)建方法[A];中國計算機用戶協(xié)會網(wǎng)絡(luò)應(yīng)用分會2018年第二十二屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會論文集[C];2018年

9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年

10 陳浩;何婷婷;代玲;;基于向量空間模型的無導(dǎo)詞義消歧[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

相關(guān)重要報紙文章 前2條

1 清華大學(xué)計算機系智能技術(shù)與系統(tǒng)國家重點實驗室 張敏 金奕江;尋“寶”有術(shù)[N];計算機世界;2003年

2 中國科學(xué)院計算技術(shù)研究所 王 斌;內(nèi)容為王[N];計算機世界;2004年

相關(guān)博士學(xué)位論文 前4條

1 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

2 姬波;信息瓶頸方法的特征權(quán)重研究[D];鄭州大學(xué);2013年

3 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

4 Amjad Mahmood;半監(jiān)督進化集成及其在網(wǎng)絡(luò)視頻分類中的應(yīng)用[D];西南交通大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 王世昌;三元共現(xiàn)潛在語義向量空間模型及降維研究[D];山西大學(xué);2019年

2 姜春峰;基于DNN及向量空間模型的中文微博情感分析[D];東北大學(xué);2015年

3 張翠翠;基于雙向遍歷空間模型的主觀題評判算法設(shè)計和閱卷系統(tǒng)實現(xiàn)[D];合肥工業(yè)大學(xué);2018年

4 劉兵;基于交叉度的多級話題聚類研究[D];云南大學(xué);2017年

5 王正方;基于層次向量空間模型的個性化服裝推薦研究[D];浙江理工大學(xué);2018年

6 王萌;基于概念向量空間模型的中文自動文摘研究[D];華中師范大學(xué);2005年

7 周昆;基于改進向量空間模型的中文文本分類研究[D];北京理工大學(xué);2015年

8 劉志為;基于N層向量空間模型的網(wǎng)絡(luò)信息檢索平臺[D];天津大學(xué);2005年

9 鄧磊;一個基于向量空間模型的個性化推薦系統(tǒng)[D];華東交通大學(xué);2009年

10 周義;質(zhì)譜數(shù)據(jù)處理算法的研究與應(yīng)用設(shè)計[D];寧波大學(xué);2017年



本文編號:2767665

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/2767665.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c85c3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com