社交網(wǎng)絡(luò)中長文本話題檢測與熱度預(yù)測
發(fā)布時(shí)間:2022-01-15 11:57
如今,社交網(wǎng)絡(luò)已經(jīng)成為了人們生活工作中不可缺少的一部分,而隨著人們對于社交網(wǎng)絡(luò)的依賴逐漸加深,社交網(wǎng)絡(luò)也得到了飛速發(fā)展,人們也不再滿足于推特微博那樣簡單靈活以短文本為主的社交方式。此時(shí),以微信公眾號為代表的長文本社交網(wǎng)絡(luò)逐漸普及開來,人們可以通過微信公眾號發(fā)布的長文本來全面細(xì)致了解身邊乃至世界各地發(fā)生的一些奇聞軼事。微信公眾號的出現(xiàn),不僅為發(fā)布者表達(dá)關(guān)于某些事件話題的觀點(diǎn)提供了平臺,也滿足了普通用戶對于閱讀的需求。除此以外,公眾號發(fā)布者希望能夠預(yù)測熱門話題的趨勢,并及時(shí)發(fā)現(xiàn)熱門話題,這樣可以為用戶提供更好的閱讀體驗(yàn),也能更好地宣傳自己的產(chǎn)品;而用戶也會通過了解話題的趨勢去關(guān)注一些熱門話題。但是,微信公眾號以微信為核心,存在著海量的用戶,所以微信公眾號發(fā)布者每天會發(fā)布海量的文本。如何在海量而又復(fù)雜的微信公眾號文本集中檢測出真實(shí)話題,同時(shí)預(yù)測話題熱門的趨勢與狀態(tài),是一項(xiàng)非常有挑戰(zhàn)性的任務(wù)。在本文中,我們針對話題檢測問題,提出了一種基于文本關(guān)鍵詞提取、詞向量嵌入、以及關(guān)鍵詞聚類的實(shí)時(shí)話題檢測模型(CEASE),同時(shí)為了使模型能夠適應(yīng)于海量多噪聲的文本數(shù)據(jù)集,本文在此基礎(chǔ)上進(jìn)一步提出了話題的合...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【部分圖文】:
–1社交網(wǎng)絡(luò)
第一章緒論上海交通大學(xué)碩士學(xué)位論文(a)短文本消息示意圖(b)長文本消息示意圖(c)長文本消息展開示意圖圖1–1社交網(wǎng)絡(luò)文本消息示意圖Figure1–1Thediagramofsocialnetworktextmessages的支持。這種長文本以前所未有的模式嵌入到微信這種擁有海量用戶的社交網(wǎng)絡(luò)中,使得長文本信息能夠以一種強(qiáng)力的方式進(jìn)行傳播。同時(shí),由于這種新的服務(wù)模式能夠服務(wù)于廣大用戶群體,也使得微信公眾號發(fā)布者勤于發(fā)布文章,從而進(jìn)一步激發(fā)了長文本社交的爆發(fā)增長。1.2研究目的與意義面對海量而又復(fù)雜混亂的長文本數(shù)據(jù),如果能利用數(shù)據(jù)準(zhǔn)確實(shí)時(shí)的檢測出近期內(nèi)一些話題,這對于海量長文本信息的進(jìn)一步研究有重大意義。對于企業(yè)而言,利用提取出的話題,可以發(fā)掘社會中近期出現(xiàn)的一些熱門事件,了解廣大用戶的關(guān)注點(diǎn),從而進(jìn)行社會輿論分析,引導(dǎo)社會輿論。同時(shí),可以針對用戶進(jìn)行相關(guān)話題的關(guān)鍵文章推薦,讓用戶能夠?qū)κ录私飧由钊,增加用戶體驗(yàn)度,提高用戶忠誠度。對于普通用戶而言,可以在海量文本數(shù)據(jù)中,快速找到自己感興趣的內(nèi)容,提高工作、生活和娛樂的效率,也能提高使用社交工具的滿足感。此外,與短文本相比,長文本內(nèi)容本質(zhì)上更含蓄、更復(fù)雜也更混亂,這給它分析研究帶來了更巨大的挑戰(zhàn)。另外,現(xiàn)有基于長文本的話題分析研究大多缺乏時(shí)間效益和可擴(kuò)展性,遠(yuǎn)遠(yuǎn)不能滿足工業(yè)上實(shí)時(shí)性需求,F(xiàn)有的一些話題檢測相關(guān)研究主要集中于主題模型,但是對于社交網(wǎng)絡(luò)文本而言,文本比較復(fù)雜而又混亂,不僅包含大量的話題文章,同時(shí)也包含了大量的偽話題文章。主題模型對于如此復(fù)雜的文本集往往很難取得較好的結(jié)果,同時(shí)主題模型的參數(shù)設(shè)置也比較復(fù)雜,運(yùn)算量高,難以滿足實(shí)時(shí)性話題檢測的需求。另外,在社交網(wǎng)絡(luò)中,話題往往更新非常迅速,—2—
上海交通大學(xué)碩士學(xué)位論文第二章問題描述和相關(guān)工作技術(shù)相關(guān)的方法集合,主要是實(shí)現(xiàn)將詞語映射到實(shí)數(shù)域向量中,使得其他任務(wù)能夠更簡便進(jìn)行計(jì)算。在研究初期,研究者們一般都會使用獨(dú)熱(One-Hot)編碼來對詞語進(jìn)行向量化處理,但是這種技術(shù)產(chǎn)生的向量維度很高并且也會特別稀疏,如果再提取一些N元(N-Gram)特征,那么就需要更多存儲空間以及更高運(yùn)算設(shè)備,這對于海量文章計(jì)算來說不切合實(shí)際。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在2013年,Mikolov等[17]提出了Word2Vec模型,通過對詞語上下文的預(yù)測,來訓(xùn)練出語料庫中所有詞語的向量。Word2Vec主要是由兩種形式不同的神經(jīng)網(wǎng)絡(luò)模型組成,一種是連續(xù)詞袋模型(ContinuousBag-Of-Words,CBOW)模型,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2–2a[17]所示,它利用某個(gè)詞上下文的詞語來預(yù)測這個(gè)詞語的向量,以此訓(xùn)練整個(gè)語料庫,得到每個(gè)詞語的向量;另外一種是Skip-Gram模型,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2–2b[17]所示,它通過某個(gè)詞語來預(yù)測其上下文的詞語向量,得到所有詞語的向量。相比較于Skip-Gram模型,CBOW模型對于每個(gè)詞語只需要預(yù)測一次,所以訓(xùn)練次數(shù)約等于語料庫詞語的數(shù)目,所以訓(xùn)練時(shí)間相對比較短。而Skip-Gram模型,每個(gè)詞語都需要L次調(diào)整,其中L為窗口的大小,所以得到的詞向量會相對準(zhǔn)確一些。另外一種使用比較多的是GloVe模型[18],它基于全局中窗口內(nèi)詞語之間的共現(xiàn)關(guān)系,通過選定合適的損失函數(shù),對全局共現(xiàn)關(guān)系進(jìn)行降維訓(xùn)練,可以得到每個(gè)詞語的向量。GloVe模型與Word2Vec模型在多種任務(wù)測試中,表現(xiàn)相當(dāng),但是GloVe模型相對運(yùn)算速度更快,更適用于增量學(xué)習(xí)算法。(a)CBOW(b)Skip-Gram圖2–2Word2Vec兩種神經(jīng)網(wǎng)絡(luò)示意圖Figure2–2TheschematicdiagramoftwoneuralnetworksinWord2Vec—13—
【參考文獻(xiàn)】:
期刊論文
[1]Keyword Extraction Based on tf/idf for Chinese News Document[J]. LI Juanzi,FAN Qi’na,ZHANG Kuo Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China. Wuhan University Journal of Natural Sciences. 2007(05)
本文編號:3590578
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【部分圖文】:
–1社交網(wǎng)絡(luò)
第一章緒論上海交通大學(xué)碩士學(xué)位論文(a)短文本消息示意圖(b)長文本消息示意圖(c)長文本消息展開示意圖圖1–1社交網(wǎng)絡(luò)文本消息示意圖Figure1–1Thediagramofsocialnetworktextmessages的支持。這種長文本以前所未有的模式嵌入到微信這種擁有海量用戶的社交網(wǎng)絡(luò)中,使得長文本信息能夠以一種強(qiáng)力的方式進(jìn)行傳播。同時(shí),由于這種新的服務(wù)模式能夠服務(wù)于廣大用戶群體,也使得微信公眾號發(fā)布者勤于發(fā)布文章,從而進(jìn)一步激發(fā)了長文本社交的爆發(fā)增長。1.2研究目的與意義面對海量而又復(fù)雜混亂的長文本數(shù)據(jù),如果能利用數(shù)據(jù)準(zhǔn)確實(shí)時(shí)的檢測出近期內(nèi)一些話題,這對于海量長文本信息的進(jìn)一步研究有重大意義。對于企業(yè)而言,利用提取出的話題,可以發(fā)掘社會中近期出現(xiàn)的一些熱門事件,了解廣大用戶的關(guān)注點(diǎn),從而進(jìn)行社會輿論分析,引導(dǎo)社會輿論。同時(shí),可以針對用戶進(jìn)行相關(guān)話題的關(guān)鍵文章推薦,讓用戶能夠?qū)κ录私飧由钊,增加用戶體驗(yàn)度,提高用戶忠誠度。對于普通用戶而言,可以在海量文本數(shù)據(jù)中,快速找到自己感興趣的內(nèi)容,提高工作、生活和娛樂的效率,也能提高使用社交工具的滿足感。此外,與短文本相比,長文本內(nèi)容本質(zhì)上更含蓄、更復(fù)雜也更混亂,這給它分析研究帶來了更巨大的挑戰(zhàn)。另外,現(xiàn)有基于長文本的話題分析研究大多缺乏時(shí)間效益和可擴(kuò)展性,遠(yuǎn)遠(yuǎn)不能滿足工業(yè)上實(shí)時(shí)性需求,F(xiàn)有的一些話題檢測相關(guān)研究主要集中于主題模型,但是對于社交網(wǎng)絡(luò)文本而言,文本比較復(fù)雜而又混亂,不僅包含大量的話題文章,同時(shí)也包含了大量的偽話題文章。主題模型對于如此復(fù)雜的文本集往往很難取得較好的結(jié)果,同時(shí)主題模型的參數(shù)設(shè)置也比較復(fù)雜,運(yùn)算量高,難以滿足實(shí)時(shí)性話題檢測的需求。另外,在社交網(wǎng)絡(luò)中,話題往往更新非常迅速,—2—
上海交通大學(xué)碩士學(xué)位論文第二章問題描述和相關(guān)工作技術(shù)相關(guān)的方法集合,主要是實(shí)現(xiàn)將詞語映射到實(shí)數(shù)域向量中,使得其他任務(wù)能夠更簡便進(jìn)行計(jì)算。在研究初期,研究者們一般都會使用獨(dú)熱(One-Hot)編碼來對詞語進(jìn)行向量化處理,但是這種技術(shù)產(chǎn)生的向量維度很高并且也會特別稀疏,如果再提取一些N元(N-Gram)特征,那么就需要更多存儲空間以及更高運(yùn)算設(shè)備,這對于海量文章計(jì)算來說不切合實(shí)際。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在2013年,Mikolov等[17]提出了Word2Vec模型,通過對詞語上下文的預(yù)測,來訓(xùn)練出語料庫中所有詞語的向量。Word2Vec主要是由兩種形式不同的神經(jīng)網(wǎng)絡(luò)模型組成,一種是連續(xù)詞袋模型(ContinuousBag-Of-Words,CBOW)模型,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2–2a[17]所示,它利用某個(gè)詞上下文的詞語來預(yù)測這個(gè)詞語的向量,以此訓(xùn)練整個(gè)語料庫,得到每個(gè)詞語的向量;另外一種是Skip-Gram模型,其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2–2b[17]所示,它通過某個(gè)詞語來預(yù)測其上下文的詞語向量,得到所有詞語的向量。相比較于Skip-Gram模型,CBOW模型對于每個(gè)詞語只需要預(yù)測一次,所以訓(xùn)練次數(shù)約等于語料庫詞語的數(shù)目,所以訓(xùn)練時(shí)間相對比較短。而Skip-Gram模型,每個(gè)詞語都需要L次調(diào)整,其中L為窗口的大小,所以得到的詞向量會相對準(zhǔn)確一些。另外一種使用比較多的是GloVe模型[18],它基于全局中窗口內(nèi)詞語之間的共現(xiàn)關(guān)系,通過選定合適的損失函數(shù),對全局共現(xiàn)關(guān)系進(jìn)行降維訓(xùn)練,可以得到每個(gè)詞語的向量。GloVe模型與Word2Vec模型在多種任務(wù)測試中,表現(xiàn)相當(dāng),但是GloVe模型相對運(yùn)算速度更快,更適用于增量學(xué)習(xí)算法。(a)CBOW(b)Skip-Gram圖2–2Word2Vec兩種神經(jīng)網(wǎng)絡(luò)示意圖Figure2–2TheschematicdiagramoftwoneuralnetworksinWord2Vec—13—
【參考文獻(xiàn)】:
期刊論文
[1]Keyword Extraction Based on tf/idf for Chinese News Document[J]. LI Juanzi,FAN Qi’na,ZHANG Kuo Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China. Wuhan University Journal of Natural Sciences. 2007(05)
本文編號:3590578
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3590578.html
最近更新
教材專著