天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 營銷論文 >

基于搜索數(shù)據(jù)的用戶畫像模型研究

發(fā)布時(shí)間:2020-03-30 21:48
【摘要】:互聯(lián)網(wǎng)在為我們帶來便利的同時(shí),也帶來了不容小覷的信息安全問題。近年來,用戶信息泄露的事件頻繁發(fā)生,這不僅涉及到用戶的個(gè)人隱私,更涉及到企業(yè)、國家以及政府機(jī)構(gòu)的戰(zhàn)略安全問題。為此,用戶越來越不愿意將自己的真實(shí)信息暴露給第三方平臺(tái)。搜索企業(yè)更是很難獲取到用戶的屬性、喜好等數(shù)據(jù),但用戶基本屬性及喜好數(shù)據(jù)對(duì)于搜索領(lǐng)域的廣告投放來說又至關(guān)重要。搜索企業(yè)能獲取到用戶最直接的數(shù)據(jù)便是用戶搜索數(shù)據(jù),這些豐富的用戶搜索數(shù)據(jù)可以充分刻畫用戶的基本屬性和喜好,是用戶所關(guān)注事物的真實(shí)表現(xiàn)。用戶的屬性、喜好可以通過用戶畫像進(jìn)行刻畫,用戶畫像是企業(yè)對(duì)某個(gè)用戶或某類用戶進(jìn)行個(gè)性化推薦的基礎(chǔ),蘊(yùn)含著巨大的商業(yè)價(jià)值;谏鲜霰尘,本研究借助2016年CCF大數(shù)據(jù)與計(jì)算智能大賽中20w搜狗用戶的搜索數(shù)據(jù)展開研究,首先介紹了搜索領(lǐng)域廣告投放的發(fā)展,從搜索數(shù)據(jù)的短文本分析和用戶畫像兩個(gè)角度出發(fā),梳理了相關(guān)理論和關(guān)鍵技術(shù),提出了基于搜索數(shù)據(jù)的用戶畫像研究框架;其次提出了基于Doc2Vec文檔特征、TF-IDF特征和人工特征三個(gè)維度的搜索詞混合特征模型,在提取TF-IDF特征時(shí),參考現(xiàn)有研究思路,采用Word2Vec詞向量加權(quán)的方法對(duì)TF-IDF算法進(jìn)行改進(jìn),并通過實(shí)驗(yàn),驗(yàn)證了算法改進(jìn)的有效率;然后分析了影響搜索企業(yè)廣告投放的主要因素,選取了對(duì)廣告投放影響較大的兩個(gè)研究點(diǎn),用戶基本屬性和用戶喜好,提出了用戶畫像標(biāo)簽和基于搜索數(shù)據(jù)的用戶畫像構(gòu)建流程;接著將混合特征作為用戶畫像基本屬性模型的輸入,使用多種機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,并基于模型融合的思想得到用戶畫像基本屬性模型;然后將降維后的混合特征與用戶基本屬性合并,使用K-Means聚類算法,參考新浪微博的話題標(biāo)簽,構(gòu)建用戶畫像喜好模型;最后通過模型應(yīng)用,證明模型的有效性。本研究根據(jù)每個(gè)階段的研究成果對(duì)搜索領(lǐng)域的廣告引入、廣告投放等方面提出了相應(yīng)的建議。目前,游戲、電商、美食、搜索等領(lǐng)域的應(yīng)用都會(huì)產(chǎn)生大數(shù)據(jù)量的文本信息,并且有非常大的占比都是短文本信息。本研究提出的混合特征模型和用戶畫像模型既可以解決短文本數(shù)據(jù)特征提取和搜索領(lǐng)域用戶畫像模型構(gòu)建的問題,也可以將其推廣到用戶屬性預(yù)測等領(lǐng)域。
【圖文】:

實(shí)驗(yàn)過程,大全,周公,百合


表 3-4 分詞結(jié)果對(duì)比不同分詞工具 周公解夢大全查詢 百合網(wǎng)首頁JIEBA 周公 解夢 大全 查詢 百合網(wǎng) 首頁THULC 周公解 夢 大全 查詢 百合網(wǎng) 首 頁NLPIR 周 公 解 夢 大全 查詢 百 合網(wǎng) 首 頁從表 3-5 中可知,JIEBA 分詞器在教育水平、年齡和性別三個(gè)屬性的準(zhǔn)確率均是最高的,其次是 THULC 分詞器。因此,本研究使用了分詞效果最好的JIEBA 工具進(jìn)行分詞。表 3-5 三種分詞工具的結(jié)果準(zhǔn)確率對(duì)比分詞工具 教育水平 年齡 性別 平均成績JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%圖 3-1 為實(shí)驗(yàn)過程中打印出來的部分 JIEBA 分詞結(jié)果,表 3-6 是整理后的原始搜索數(shù)據(jù)與 JIEBA 工具的分詞效果。以“腐竹怎么做好吃法大全”為例,JIEBA 分詞結(jié)果為“腐竹、怎么、做好、吃法、大全”,結(jié)果較符合常識(shí)。

模型性,實(shí)驗(yàn)過程,標(biāo)簽,缺失


腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯將相寧有種乎中乎是什么意思 王侯將相 寧 有種乎 是 意思高考后會(huì)考過了什么時(shí)候發(fā)畢業(yè)證 高考 后 會(huì)考 過了 什么 時(shí)候 發(fā) 畢業(yè)證微微一笑很傾城兩人在第幾集見面 微微一笑 很 傾城 兩人 在 第幾 集 見面服裝設(shè)計(jì)人體模特畫法 服裝設(shè)計(jì) 人體模特 畫法3.2.3 缺失樣本處理本研究在分析原始樣本數(shù)據(jù)時(shí),發(fā)現(xiàn)各屬性和任意屬性缺失的樣本占比如表 3-7 所示。為了更充分的挖掘用戶的搜索詞信息,本研究對(duì)訓(xùn)練數(shù)據(jù)集中標(biāo)簽為 0,即缺失標(biāo)簽的樣本進(jìn)行了預(yù)測。本研究在對(duì)比了幾種分類器的優(yōu)缺點(diǎn)后,使用 JIEBA 分詞工具對(duì)搜索詞進(jìn)行分詞,然后使用 LR 模型訓(xùn)練出分類器,對(duì)缺失標(biāo)簽的樣本進(jìn)行預(yù)測,從而補(bǔ)全缺失值。在對(duì)空缺的標(biāo)簽進(jìn)行填充時(shí),本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取訓(xùn)練數(shù)據(jù)集用戶搜索詞的 TF-IDF 特征。本研究考慮到實(shí)驗(yàn)機(jī)器性能的問題,設(shè)置參數(shù) min_df=3,max_df=0.95,表示建立單詞表時(shí)會(huì)取某單詞出現(xiàn)個(gè)數(shù)大于 3 或詞頻小于 0.95 的詞。最終得到了一個(gè) 10w*1699133 的矩陣。
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F274

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 石鵬;;基于模型與建模的化學(xué)學(xué)習(xí)過程設(shè)計(jì)[J];化學(xué)教育;2016年23期

2 陳新傳;;傳送帶模型分析及應(yīng)用[J];中學(xué)物理教學(xué)參考;2016年18期

3 張夢蕓;;“運(yùn)動(dòng)的完成”教學(xué)設(shè)計(jì)[J];中學(xué)生物教學(xué);2017年02期

4 馬薇;郭曉麗;魏銳;王瀾;;對(duì)電解模型的追問與重構(gòu)[J];中學(xué)化學(xué)教學(xué)參考;2017年05期

5 楊玉琴;;化學(xué)核心素養(yǎng)之“模型認(rèn)知”能力的測評(píng)研究[J];化學(xué)教學(xué);2017年07期

6 李明;;人口的模型分析[J];中小企業(yè)管理與科技(中旬刊);2017年01期

7 鄭行軍;;圓盤模型的拓展分析[J];理科考試研究;2017年07期

8 陸陳驍;馮佳媛;;國際市場投資心理研究——基于函數(shù)GARCH-M模型的視角[J];智富時(shí)代;2017年06期

9 蘆敬毅;;兩類傳送帶模型分析[J];新課程(下);2017年06期

10 ;新知客[J];視野;2017年18期

相關(guān)會(huì)議論文 前10條

1 錢林曉;王一濤;;對(duì)應(yīng)試教育條件下學(xué)生學(xué)習(xí)行為的模型分析[A];2005年中國教育經(jīng)濟(jì)學(xué)年會(huì)會(huì)議論文集[C];2005年

2 朱萍;劉偉澤;萬立濱;;基于實(shí)證研究的知識(shí)管理路線、方法和模型分析[A];航空工業(yè)檔案學(xué)會(huì)七屆四次理事會(huì)暨2013年度優(yōu)秀論文交流會(huì)論文集[C];2013年

3 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];人才、創(chuàng)新與老工業(yè)基地的振興——2004年中國機(jī)械工程學(xué)會(huì)年會(huì)論文集[C];2004年

4 王新心;;北京貨物運(yùn)輸量的模型分析[A];第六屆中國青年運(yùn)籌與管理學(xué)者大會(huì)論文集[C];2004年

5 林志炳;許保光;蔡晨;;基于消費(fèi)者偏好的混合渠道模型分析[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟(jì)數(shù)學(xué)研究會(huì)第七屆全國會(huì)員代表大會(huì)暨第七屆中國管理科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年

6 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];2004年中國機(jī)械工程學(xué)會(huì)年會(huì)論文集:物流工程與中國現(xiàn)代經(jīng)濟(jì)——第七屆物流工程學(xué)術(shù)年會(huì)專輯[C];2004年

7 張貝;張好智;;逆向物流網(wǎng)絡(luò)設(shè)計(jì)模型分析與算法(英文)[A];可持續(xù)發(fā)展的中國交通——2005全國博士生學(xué)術(shù)論壇(交通運(yùn)輸工程學(xué)科)論文集(上冊(cè))[C];2005年

8 張黎;;影響企業(yè)知識(shí)擴(kuò)散因素的模型分析[A];現(xiàn)代工業(yè)工程與管理研討會(huì)會(huì)議論文集[C];2006年

9 張?jiān)?陳闖;王力平;;天津市科技型中小企業(yè)融資體系構(gòu)建與整合——基于要素重組下三維動(dòng)態(tài)模型分析[A];新規(guī)劃·新視野·新發(fā)展——天津市社會(huì)科學(xué)界第七屆學(xué)術(shù)年會(huì)優(yōu)秀論文集《天津?qū)W術(shù)文庫》(下)[C];2011年

10 陳杰姝;;電子渠道建設(shè)模型分析[A];第七屆中國通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 陳永偉;回歸本源,拷問根基[N];中華讀書報(bào);2017年

2 信達(dá)證券首席策略分析師、研發(fā)中心執(zhí)行總監(jiān) 陳嘉禾;研究市場并不難 讓小模型成為好幫手[N];證券時(shí)報(bào);2017年

3 媛萍;用模型分析企業(yè)戰(zhàn)略要素[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2002年

4 鄒至莊 美國普林斯頓大學(xué)經(jīng)濟(jì)學(xué)教授;如何用模型分析中國經(jīng)濟(jì)?[N];企業(yè)家日?qǐng)?bào);2015年

5 江蘇省昆山市地稅局;模型分析樹標(biāo)桿 層層深入破稅案[N];中國稅務(wù)報(bào);2010年

6 隋彭生;合同成立與生效的八個(gè)模型分析[N];法制日?qǐng)?bào);2006年

7 山東 汪超;利用水杯水位對(duì)基本放大電路非線性失真進(jìn)行模型分析[N];電子報(bào);2012年

8 中國人民大學(xué)公共政策研究院執(zhí)行副院長 毛壽龍;為何純市場模型分析不了中國房地產(chǎn)市場[N];中國經(jīng)濟(jì)導(dǎo)報(bào);2016年

9 田學(xué)科;山體為什么會(huì)移動(dòng)[N];地質(zhì)勘查導(dǎo)報(bào);2006年

10 陳冠因;銅價(jià)三季度存反彈機(jī)會(huì)[N];中國證券報(bào);2013年

相關(guān)博士學(xué)位論文 前10條

1 陳柯;基于內(nèi)生SLX模型的中國省級(jí)地區(qū)間經(jīng)濟(jì)相互作用研究[D];上海社會(huì)科學(xué)院;2019年

2 陳舒琪;半?yún)?shù)加速失效時(shí)間混合治愈模型的構(gòu)建及其在醫(yī)學(xué)中的應(yīng)用[D];中國人民解放軍海軍軍醫(yī)大學(xué);2019年

3 朱華鋒;幾類可觀測序列驅(qū)動(dòng)的條件異方差模型研究[D];廣州大學(xué);2017年

4 黃飛虎;結(jié)構(gòu)圖模型的學(xué)習(xí)及其應(yīng)用研究[D];南京航空航天大學(xué);2017年

5 王學(xué)明;基于主題模型的多媒體問答研究[D];南京理工大學(xué);2018年

6 王巧;螞蟻單列運(yùn)動(dòng)的實(shí)驗(yàn)與模型研究[D];中國科學(xué)技術(shù)大學(xué);2019年

7 徐曉軍;稀疏數(shù)據(jù)驅(qū)動(dòng)的高維空間圖模型學(xué)習(xí)及應(yīng)用[D];北京理工大學(xué);2017年

8 薛健;兩類量子模型相變及其相關(guān)性質(zhì)的研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院物理研究所);2019年

9 汪玲玲;兩類DSGE模型的結(jié)構(gòu)計(jì)量分析方法及其應(yīng)用研究[D];天津財(cái)經(jīng)大學(xué);2017年

10 段巍巍;高維組學(xué)研究中的貝葉斯多位點(diǎn)模型[D];南京醫(yī)科大學(xué);2018年

相關(guān)碩士學(xué)位論文 前10條

1 崔陽;在線健康社區(qū)場景化推薦模型研究[D];吉林大學(xué);2019年

2 章琳;內(nèi)存相關(guān)軟件漏洞特征分析及漏洞模型構(gòu)建方法研究[D];江蘇大學(xué);2019年

3 薛夢茹;基于KMV模型我國上市公司信用風(fēng)險(xiǎn)測度實(shí)證分析[D];河南科技大學(xué);2019年

4 李恩慧;基于DSC理論砌體結(jié)構(gòu)本構(gòu)模型的研究[D];新疆大學(xué);2019年

5 王丹;復(fù)雜關(guān)聯(lián)數(shù)據(jù)的張量模型與應(yīng)用研究[D];廈門大學(xué);2017年

6 吳慧娟;三維復(fù)眼相機(jī)模型的優(yōu)化設(shè)計(jì)與定位分析[D];武漢理工大學(xué);2018年

7 時(shí)磊;基于層流煙點(diǎn)高度的碳黑模型數(shù)值模擬研究[D];武漢理工大學(xué);2018年

8 林穎;基于XGBoost-CNN模型的圖片識(shí)別分析[D];廈門大學(xué);2018年

9 高凱;基于復(fù)雜網(wǎng)絡(luò)理論的微博轉(zhuǎn)發(fā)模型研究[D];中國石油大學(xué)(華東);2017年

10 權(quán)甜甜;基于搜索數(shù)據(jù)的用戶畫像模型研究[D];武漢理工大學(xué);2018年



本文編號(hào):2608109

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2608109.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶758ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com