基于搜索數(shù)據(jù)的用戶畫像模型研究
【圖文】:
表 3-4 分詞結(jié)果對比不同分詞工具 周公解夢大全查詢 百合網(wǎng)首頁JIEBA 周公 解夢 大全 查詢 百合網(wǎng) 首頁THULC 周公解 夢 大全 查詢 百合網(wǎng) 首 頁NLPIR 周 公 解 夢 大全 查詢 百 合網(wǎng) 首 頁從表 3-5 中可知,JIEBA 分詞器在教育水平、年齡和性別三個屬性的準確率均是最高的,其次是 THULC 分詞器。因此,本研究使用了分詞效果最好的JIEBA 工具進行分詞。表 3-5 三種分詞工具的結(jié)果準確率對比分詞工具 教育水平 年齡 性別 平均成績JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%圖 3-1 為實驗過程中打印出來的部分 JIEBA 分詞結(jié)果,表 3-6 是整理后的原始搜索數(shù)據(jù)與 JIEBA 工具的分詞效果。以“腐竹怎么做好吃法大全”為例,JIEBA 分詞結(jié)果為“腐竹、怎么、做好、吃法、大全”,結(jié)果較符合常識。
腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯將相寧有種乎中乎是什么意思 王侯將相 寧 有種乎 是 意思高考后會考過了什么時候發(fā)畢業(yè)證 高考 后 會考 過了 什么 時候 發(fā) 畢業(yè)證微微一笑很傾城兩人在第幾集見面 微微一笑 很 傾城 兩人 在 第幾 集 見面服裝設(shè)計人體模特畫法 服裝設(shè)計 人體模特 畫法3.2.3 缺失樣本處理本研究在分析原始樣本數(shù)據(jù)時,發(fā)現(xiàn)各屬性和任意屬性缺失的樣本占比如表 3-7 所示。為了更充分的挖掘用戶的搜索詞信息,本研究對訓(xùn)練數(shù)據(jù)集中標簽為 0,即缺失標簽的樣本進行了預(yù)測。本研究在對比了幾種分類器的優(yōu)缺點后,使用 JIEBA 分詞工具對搜索詞進行分詞,然后使用 LR 模型訓(xùn)練出分類器,對缺失標簽的樣本進行預(yù)測,從而補全缺失值。在對空缺的標簽進行填充時,本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取訓(xùn)練數(shù)據(jù)集用戶搜索詞的 TF-IDF 特征。本研究考慮到實驗機器性能的問題,設(shè)置參數(shù) min_df=3,max_df=0.95,表示建立單詞表時會取某單詞出現(xiàn)個數(shù)大于 3 或詞頻小于 0.95 的詞。最終得到了一個 10w*1699133 的矩陣。
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:F274
【相似文獻】
相關(guān)期刊論文 前10條
1 石鵬;;基于模型與建模的化學(xué)學(xué)習過程設(shè)計[J];化學(xué)教育;2016年23期
2 陳新傳;;傳送帶模型分析及應(yīng)用[J];中學(xué)物理教學(xué)參考;2016年18期
3 張夢蕓;;“運動的完成”教學(xué)設(shè)計[J];中學(xué)生物教學(xué);2017年02期
4 馬薇;郭曉麗;魏銳;王瀾;;對電解模型的追問與重構(gòu)[J];中學(xué)化學(xué)教學(xué)參考;2017年05期
5 楊玉琴;;化學(xué)核心素養(yǎng)之“模型認知”能力的測評研究[J];化學(xué)教學(xué);2017年07期
6 李明;;人口的模型分析[J];中小企業(yè)管理與科技(中旬刊);2017年01期
7 鄭行軍;;圓盤模型的拓展分析[J];理科考試研究;2017年07期
8 陸陳驍;馮佳媛;;國際市場投資心理研究——基于函數(shù)GARCH-M模型的視角[J];智富時代;2017年06期
9 蘆敬毅;;兩類傳送帶模型分析[J];新課程(下);2017年06期
10 ;新知客[J];視野;2017年18期
相關(guān)會議論文 前10條
1 錢林曉;王一濤;;對應(yīng)試教育條件下學(xué)生學(xué)習行為的模型分析[A];2005年中國教育經(jīng)濟學(xué)年會會議論文集[C];2005年
2 朱萍;劉偉澤;萬立濱;;基于實證研究的知識管理路線、方法和模型分析[A];航空工業(yè)檔案學(xué)會七屆四次理事會暨2013年度優(yōu)秀論文交流會論文集[C];2013年
3 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];人才、創(chuàng)新與老工業(yè)基地的振興——2004年中國機械工程學(xué)會年會論文集[C];2004年
4 王新心;;北京貨物運輸量的模型分析[A];第六屆中國青年運籌與管理學(xué)者大會論文集[C];2004年
5 林志炳;許保光;蔡晨;;基于消費者偏好的混合渠道模型分析[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟數(shù)學(xué)研究會第七屆全國會員代表大會暨第七屆中國管理科學(xué)學(xué)術(shù)年會論文集[C];2005年
6 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];2004年中國機械工程學(xué)會年會論文集:物流工程與中國現(xiàn)代經(jīng)濟——第七屆物流工程學(xué)術(shù)年會專輯[C];2004年
7 張貝;張好智;;逆向物流網(wǎng)絡(luò)設(shè)計模型分析與算法(英文)[A];可持續(xù)發(fā)展的中國交通——2005全國博士生學(xué)術(shù)論壇(交通運輸工程學(xué)科)論文集(上冊)[C];2005年
8 張黎;;影響企業(yè)知識擴散因素的模型分析[A];現(xiàn)代工業(yè)工程與管理研討會會議論文集[C];2006年
9 張元萍;陳闖;王力平;;天津市科技型中小企業(yè)融資體系構(gòu)建與整合——基于要素重組下三維動態(tài)模型分析[A];新規(guī)劃·新視野·新發(fā)展——天津市社會科學(xué)界第七屆學(xué)術(shù)年會優(yōu)秀論文集《天津?qū)W術(shù)文庫》(下)[C];2011年
10 陳杰姝;;電子渠道建設(shè)模型分析[A];第七屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2010年
相關(guān)重要報紙文章 前10條
1 陳永偉;回歸本源,拷問根基[N];中華讀書報;2017年
2 信達證券首席策略分析師、研發(fā)中心執(zhí)行總監(jiān) 陳嘉禾;研究市場并不難 讓小模型成為好幫手[N];證券時報;2017年
3 媛萍;用模型分析企業(yè)戰(zhàn)略要素[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2002年
4 鄒至莊 美國普林斯頓大學(xué)經(jīng)濟學(xué)教授;如何用模型分析中國經(jīng)濟?[N];企業(yè)家日報;2015年
5 江蘇省昆山市地稅局;模型分析樹標桿 層層深入破稅案[N];中國稅務(wù)報;2010年
6 隋彭生;合同成立與生效的八個模型分析[N];法制日報;2006年
7 山東 汪超;利用水杯水位對基本放大電路非線性失真進行模型分析[N];電子報;2012年
8 中國人民大學(xué)公共政策研究院執(zhí)行副院長 毛壽龍;為何純市場模型分析不了中國房地產(chǎn)市場[N];中國經(jīng)濟導(dǎo)報;2016年
9 田學(xué)科;山體為什么會移動[N];地質(zhì)勘查導(dǎo)報;2006年
10 陳冠因;銅價三季度存反彈機會[N];中國證券報;2013年
相關(guān)博士學(xué)位論文 前10條
1 陳柯;基于內(nèi)生SLX模型的中國省級地區(qū)間經(jīng)濟相互作用研究[D];上海社會科學(xué)院;2019年
2 陳舒琪;半?yún)?shù)加速失效時間混合治愈模型的構(gòu)建及其在醫(yī)學(xué)中的應(yīng)用[D];中國人民解放軍海軍軍醫(yī)大學(xué);2019年
3 朱華鋒;幾類可觀測序列驅(qū)動的條件異方差模型研究[D];廣州大學(xué);2017年
4 黃飛虎;結(jié)構(gòu)圖模型的學(xué)習及其應(yīng)用研究[D];南京航空航天大學(xué);2017年
5 王學(xué)明;基于主題模型的多媒體問答研究[D];南京理工大學(xué);2018年
6 王巧;螞蟻單列運動的實驗與模型研究[D];中國科學(xué)技術(shù)大學(xué);2019年
7 徐曉軍;稀疏數(shù)據(jù)驅(qū)動的高維空間圖模型學(xué)習及應(yīng)用[D];北京理工大學(xué);2017年
8 薛健;兩類量子模型相變及其相關(guān)性質(zhì)的研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院物理研究所);2019年
9 汪玲玲;兩類DSGE模型的結(jié)構(gòu)計量分析方法及其應(yīng)用研究[D];天津財經(jīng)大學(xué);2017年
10 段巍巍;高維組學(xué)研究中的貝葉斯多位點模型[D];南京醫(yī)科大學(xué);2018年
相關(guān)碩士學(xué)位論文 前10條
1 崔陽;在線健康社區(qū)場景化推薦模型研究[D];吉林大學(xué);2019年
2 章琳;內(nèi)存相關(guān)軟件漏洞特征分析及漏洞模型構(gòu)建方法研究[D];江蘇大學(xué);2019年
3 薛夢茹;基于KMV模型我國上市公司信用風險測度實證分析[D];河南科技大學(xué);2019年
4 李恩慧;基于DSC理論砌體結(jié)構(gòu)本構(gòu)模型的研究[D];新疆大學(xué);2019年
5 王丹;復(fù)雜關(guān)聯(lián)數(shù)據(jù)的張量模型與應(yīng)用研究[D];廈門大學(xué);2017年
6 吳慧娟;三維復(fù)眼相機模型的優(yōu)化設(shè)計與定位分析[D];武漢理工大學(xué);2018年
7 時磊;基于層流煙點高度的碳黑模型數(shù)值模擬研究[D];武漢理工大學(xué);2018年
8 林穎;基于XGBoost-CNN模型的圖片識別分析[D];廈門大學(xué);2018年
9 高凱;基于復(fù)雜網(wǎng)絡(luò)理論的微博轉(zhuǎn)發(fā)模型研究[D];中國石油大學(xué)(華東);2017年
10 權(quán)甜甜;基于搜索數(shù)據(jù)的用戶畫像模型研究[D];武漢理工大學(xué);2018年
本文編號:2608109
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2608109.html