社交網(wǎng)絡(luò)下基于用戶生成內(nèi)容的搜索方法研究
發(fā)布時(shí)間:2020-06-21 04:25
【摘要】:近年來(lái),社交網(wǎng)絡(luò)環(huán)境下的內(nèi)容檢索正迅速成為最關(guān)鍵的搜索應(yīng)用研究之一。而隨著互聯(lián)網(wǎng)和移動(dòng)終端的廣泛應(yīng)用,搜索應(yīng)用場(chǎng)景和用戶需求表達(dá)越來(lái)越多樣化,使得搜索方法的研究越發(fā)具有挑戰(zhàn)!坝脩羯蓛(nèi)容”作為社交網(wǎng)絡(luò)最重要的研究對(duì)象之一,由用戶通過(guò)直接或者間接的形式產(chǎn)生,其內(nèi)容包含大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的文本及數(shù)據(jù),如評(píng)分、評(píng)論、用戶標(biāo)簽等。這些信息可以一定程度上彌補(bǔ)檢索過(guò)程文檔/商品信息量的不足,且表達(dá)了用戶對(duì)文檔/商品的觀點(diǎn)及看法,可用于改善結(jié)果的個(gè)性化。然而,用戶生成內(nèi)容的內(nèi)容零散、高噪聲、碎片化的特點(diǎn)和結(jié)構(gòu)的多樣性,使得傳統(tǒng)方法很難有效利用用戶生成內(nèi)容,提高社交網(wǎng)絡(luò)下的搜索效果。當(dāng)前國(guó)內(nèi)外研究學(xué)者在用戶生成內(nèi)容的使用上展開(kāi)了一些研究,這些研究的應(yīng)用場(chǎng)景主要是分類、聚類和推薦,缺乏統(tǒng)一的搜索應(yīng)用框架;其研究對(duì)象多是用戶標(biāo)簽,其他內(nèi)容,尤其是非結(jié)構(gòu)化內(nèi)容常被忽略,從而丟失了很多有用的信息,忽略了不同類型用戶生成內(nèi)容的關(guān)聯(lián)。針對(duì)社交網(wǎng)絡(luò)環(huán)境下的搜索問(wèn)題,本文根據(jù)用戶生成內(nèi)容的特點(diǎn),將用戶生成內(nèi)容與搜索任務(wù)結(jié)合,針對(duì)常見(jiàn)的社交網(wǎng)絡(luò)下的搜索應(yīng)用開(kāi)展研究。具體來(lái)說(shuō),提出由淺入深的方式,從僅考慮結(jié)構(gòu)化信息,到考慮結(jié)構(gòu)化與非結(jié)構(gòu)化信息,再到考慮用戶生成內(nèi)容的語(yǔ)義向量表示,結(jié)合推薦思想、經(jīng)典搜索模型和自然語(yǔ)言處理技術(shù),分別構(gòu)建三個(gè)基于用戶生成內(nèi)容的搜索框架。論文的主要研究?jī)?nèi)容和創(chuàng)新性工作如下:(1)首先,本文基于結(jié)構(gòu)化的用戶生成內(nèi)容,提出了一種泛化的基于內(nèi)容推薦的算法,將基于內(nèi)容推薦方法中“推薦用戶喜好商品的相似商品”推廣到搜索中,為搜索用戶返回初排序中排序靠前文檔的相似文檔,并將該算法結(jié)合傳統(tǒng)搜索排序模型,構(gòu)建重排序打分模型,收集用戶標(biāo)簽、評(píng)分等結(jié)構(gòu)化信息,設(shè)計(jì)不同的重排序打分函數(shù),并構(gòu)建統(tǒng)一的基于結(jié)構(gòu)化信息搜索框架,使用學(xué)習(xí)排序融合重排序結(jié)果,用于社交網(wǎng)絡(luò)中的圖書(shū)/商品搜索應(yīng)用,并在社會(huì)圖書(shū)檢索數(shù)據(jù)集上進(jìn)行驗(yàn)證了框架的有效性。(2)其次,本文利用結(jié)構(gòu)化和非結(jié)構(gòu)化用戶生成內(nèi)容各自特點(diǎn),提出了一種基于偽相關(guān)反饋技術(shù)的搜索框架。針對(duì)用戶標(biāo)簽、評(píng)分等結(jié)構(gòu)化信息,提出其內(nèi)容的“語(yǔ)義獨(dú)立性”,結(jié)合評(píng)分、傳統(tǒng)排序得分等數(shù)字信息與標(biāo)簽等文本信息,將偽相關(guān)反饋的詞項(xiàng)選擇過(guò)程,融入用戶生成內(nèi)容包含的信息;同時(shí),針對(duì)評(píng)論、讀書(shū)筆記等非結(jié)構(gòu)化文本內(nèi)容,提出基于兩種不同變換的詞項(xiàng)選擇模型,用于非結(jié)構(gòu)化文本中提取反饋詞項(xiàng)并加權(quán)。通過(guò)構(gòu)造差異化的偽相關(guān)反饋模型,對(duì)傳統(tǒng)排序模型的查詢進(jìn)行查詢擴(kuò)展和二次搜索排序,并構(gòu)建統(tǒng)一的基于結(jié)構(gòu)化和非結(jié)構(gòu)化信息的搜索框架,使用學(xué)習(xí)排序技術(shù)將利用不同用戶生成內(nèi)容的偽相關(guān)反饋結(jié)果進(jìn)行結(jié)合,用于三種不同的社交網(wǎng)絡(luò)環(huán)境下的搜索,社區(qū)、實(shí)時(shí)短消息廣播、電子商務(wù),并搜集了 IMDb電影數(shù)據(jù)集、Tweet微博數(shù)據(jù)集、Taobao商品數(shù)據(jù)集以及社會(huì)圖書(shū)檢索數(shù)據(jù)集上進(jìn)行驗(yàn)證了框架的有效性和魯棒性。(3)最后,本文研究用戶生成內(nèi)容的語(yǔ)義向量表示,結(jié)合深度學(xué)習(xí)模型和自然語(yǔ)言處理技術(shù),利用用戶生成內(nèi)容的文本及其他信息的語(yǔ)義向量表示,設(shè)計(jì)文本分類任務(wù)做預(yù)訓(xùn)練,生成社交網(wǎng)絡(luò)環(huán)境下的復(fù)雜查詢和文檔內(nèi)容的向量表示,并設(shè)計(jì)基于偏序關(guān)系的神經(jīng)網(wǎng)絡(luò),用于查詢和文檔的匹配。同時(shí),在應(yīng)用場(chǎng)景的評(píng)價(jià)標(biāo)準(zhǔn)上,同時(shí)考慮查詢與文檔的相關(guān)性、文檔的質(zhì)量、文檔的時(shí)效性以及返回結(jié)果包含文檔的多樣性四個(gè)指標(biāo),通過(guò)設(shè)計(jì)評(píng)價(jià)標(biāo)準(zhǔn)的向量表示,構(gòu)建基于用戶生成內(nèi)容語(yǔ)義向量表示的搜索框架,并構(gòu)建了書(shū)單搜索的數(shù)據(jù)集,驗(yàn)證了框架的有效性及對(duì)不同指標(biāo)的適應(yīng)性。
【學(xué)位授予單位】:北京科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.3
【圖文】:
邐社交網(wǎng)絡(luò)下基于用戶生成內(nèi)容的搜索方法研宄邐逡逑化和非結(jié)構(gòu)化用戶生成內(nèi)容融入到查詢中,豐富查詢的表示,提出融合結(jié)構(gòu)逡逑化和非結(jié)構(gòu)化用戶生成內(nèi)容的搜索框架;(3)將結(jié)構(gòu)化和非結(jié)構(gòu)化用戶生成逡逑內(nèi)容與排序模型設(shè)計(jì)和基于文本向量表示的語(yǔ)義理解結(jié)合,構(gòu)造用戶生成內(nèi)逡逑容的語(yǔ)義向量表示,并基于此向量表示設(shè)計(jì)排序模型,形成社交網(wǎng)絡(luò)環(huán)境構(gòu)逡逑建的神經(jīng)信息檢索框架。本文的主要研宄內(nèi)容以及其與用戶生成內(nèi)容、社交逡逑網(wǎng)絡(luò)下的信息檢索之間的關(guān)系如圖1-2所示,其中主要包含以下幾個(gè)方面:逡逑
逡逑用戶的查詢深層港行一個(gè)排好序的文檔列表[1]。圖2-1給出了索引處理的高逡逑級(jí)構(gòu)件。這些主要的組件包括文本采集、文本轉(zhuǎn)換和索引創(chuàng)建。逡逑文腿據(jù)庫(kù)逡逑三W^邋文本采集邐索引創(chuàng)建逡逑電子郵件、網(wǎng)頁(yè)、f?邐,#2|逡逑聞、.備忘錄、書(shū)信等邐邐w邐m,il逡逑文本轉(zhuǎn)換逡逑圖2-1索引處理逡逑圖2-2給出了查詢處理中的構(gòu)件,主要的組件包括用戶交互、排序和評(píng)逡逑價(jià)。用戶交互組件提供了搜索用戶和搜索引擎之間的接口,接收用戶g㈠義轄晃饕睿⑶掖鈾閹饕嫻玫揭桓讎藕瞇虻奈牡盜斜,将他謪Q洛義獻(xiàn)櫓傷閹鶻峁瓜允靖沒(méi)АN牡凳菘饈怯糜諫山峁男畔⒃。排序组辶x霞撬閹饕嫦低車暮誦模褂么佑沒(méi)Ы換プ榧玫降淖恢蟮牟檠,辶x喜⒏菁燜髂P蛻梢桓靄湊輾種蹬藕玫奈牡盜斜懟E判蟣匭朧歉咝У模蟈義銜淌奔淠諦枰澩罅康撓沒(méi)Р檠
本文編號(hào):2723507
【學(xué)位授予單位】:北京科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.3
【圖文】:
邐社交網(wǎng)絡(luò)下基于用戶生成內(nèi)容的搜索方法研宄邐逡逑化和非結(jié)構(gòu)化用戶生成內(nèi)容融入到查詢中,豐富查詢的表示,提出融合結(jié)構(gòu)逡逑化和非結(jié)構(gòu)化用戶生成內(nèi)容的搜索框架;(3)將結(jié)構(gòu)化和非結(jié)構(gòu)化用戶生成逡逑內(nèi)容與排序模型設(shè)計(jì)和基于文本向量表示的語(yǔ)義理解結(jié)合,構(gòu)造用戶生成內(nèi)逡逑容的語(yǔ)義向量表示,并基于此向量表示設(shè)計(jì)排序模型,形成社交網(wǎng)絡(luò)環(huán)境構(gòu)逡逑建的神經(jīng)信息檢索框架。本文的主要研宄內(nèi)容以及其與用戶生成內(nèi)容、社交逡逑網(wǎng)絡(luò)下的信息檢索之間的關(guān)系如圖1-2所示,其中主要包含以下幾個(gè)方面:逡逑
逡逑用戶的查詢深層港行一個(gè)排好序的文檔列表[1]。圖2-1給出了索引處理的高逡逑級(jí)構(gòu)件。這些主要的組件包括文本采集、文本轉(zhuǎn)換和索引創(chuàng)建。逡逑文腿據(jù)庫(kù)逡逑三W^邋文本采集邐索引創(chuàng)建逡逑電子郵件、網(wǎng)頁(yè)、f?邐,#2|逡逑聞、.備忘錄、書(shū)信等邐邐w邐m,il逡逑文本轉(zhuǎn)換逡逑圖2-1索引處理逡逑圖2-2給出了查詢處理中的構(gòu)件,主要的組件包括用戶交互、排序和評(píng)逡逑價(jià)。用戶交互組件提供了搜索用戶和搜索引擎之間的接口,接收用戶g㈠義轄晃饕睿⑶掖鈾閹饕嫻玫揭桓讎藕瞇虻奈牡盜斜,将他謪Q洛義獻(xiàn)櫓傷閹鶻峁瓜允靖沒(méi)АN牡凳菘饈怯糜諫山峁男畔⒃。排序组辶x霞撬閹饕嫦低車暮誦模褂么佑沒(méi)Ы換プ榧玫降淖恢蟮牟檠,辶x喜⒏菁燜髂P蛻梢桓靄湊輾種蹬藕玫奈牡盜斜懟E判蟣匭朧歉咝У模蟈義銜淌奔淠諦枰澩罅康撓沒(méi)Р檠
本文編號(hào):2723507
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2723507.html
最近更新
教材專著