基于搜索數(shù)據(jù)的用戶畫像模型研究
【圖文】:
表 3-4 分詞結(jié)果對(duì)比不同分詞工具 周公解夢大全查詢 百合網(wǎng)首頁JIEBA 周公 解夢 大全 查詢 百合網(wǎng) 首頁THULC 周公解 夢 大全 查詢 百合網(wǎng) 首 頁NLPIR 周 公 解 夢 大全 查詢 百 合網(wǎng) 首 頁從表 3-5 中可知,JIEBA 分詞器在教育水平、年齡和性別三個(gè)屬性的準(zhǔn)確率均是最高的,其次是 THULC 分詞器。因此,本研究使用了分詞效果最好的JIEBA 工具進(jìn)行分詞。表 3-5 三種分詞工具的結(jié)果準(zhǔn)確率對(duì)比分詞工具 教育水平 年齡 性別 平均成績JIEBA 58.93% 57.38% 68.92% 61.74%THULC 58.56% 57.98% 68.64% 61.73%NLPIR 57.93% 57.95% 67.28% 61.05%圖 3-1 為實(shí)驗(yàn)過程中打印出來的部分 JIEBA 分詞結(jié)果,表 3-6 是整理后的原始搜索數(shù)據(jù)與 JIEBA 工具的分詞效果。以“腐竹怎么做好吃法大全”為例,JIEBA 分詞結(jié)果為“腐竹、怎么、做好、吃法、大全”,結(jié)果較符合常識(shí)。
腐竹怎么做好吃法大全 腐竹 怎么 做好 吃法 大全王侯將相寧有種乎中乎是什么意思 王侯將相 寧 有種乎 是 意思高考后會(huì)考過了什么時(shí)候發(fā)畢業(yè)證 高考 后 會(huì)考 過了 什么 時(shí)候 發(fā) 畢業(yè)證微微一笑很傾城兩人在第幾集見面 微微一笑 很 傾城 兩人 在 第幾 集 見面服裝設(shè)計(jì)人體模特畫法 服裝設(shè)計(jì) 人體模特 畫法3.2.3 缺失樣本處理本研究在分析原始樣本數(shù)據(jù)時(shí),發(fā)現(xiàn)各屬性和任意屬性缺失的樣本占比如表 3-7 所示。為了更充分的挖掘用戶的搜索詞信息,本研究對(duì)訓(xùn)練數(shù)據(jù)集中標(biāo)簽為 0,即缺失標(biāo)簽的樣本進(jìn)行了預(yù)測。本研究在對(duì)比了幾種分類器的優(yōu)缺點(diǎn)后,使用 JIEBA 分詞工具對(duì)搜索詞進(jìn)行分詞,然后使用 LR 模型訓(xùn)練出分類器,對(duì)缺失標(biāo)簽的樣本進(jìn)行預(yù)測,從而補(bǔ)全缺失值。在對(duì)空缺的標(biāo)簽進(jìn)行填充時(shí),本研究使用 sklearn.feature_extraction.text 包中的 TF-IDFVectorizer 方法,,提取訓(xùn)練數(shù)據(jù)集用戶搜索詞的 TF-IDF 特征。本研究考慮到實(shí)驗(yàn)機(jī)器性能的問題,設(shè)置參數(shù) min_df=3,max_df=0.95,表示建立單詞表時(shí)會(huì)取某單詞出現(xiàn)個(gè)數(shù)大于 3 或詞頻小于 0.95 的詞。最終得到了一個(gè) 10w*1699133 的矩陣。
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F274
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 石鵬;;基于模型與建模的化學(xué)學(xué)習(xí)過程設(shè)計(jì)[J];化學(xué)教育;2016年23期
2 陳新傳;;傳送帶模型分析及應(yīng)用[J];中學(xué)物理教學(xué)參考;2016年18期
3 張夢蕓;;“運(yùn)動(dòng)的完成”教學(xué)設(shè)計(jì)[J];中學(xué)生物教學(xué);2017年02期
4 馬薇;郭曉麗;魏銳;王瀾;;對(duì)電解模型的追問與重構(gòu)[J];中學(xué)化學(xué)教學(xué)參考;2017年05期
5 楊玉琴;;化學(xué)核心素養(yǎng)之“模型認(rèn)知”能力的測評(píng)研究[J];化學(xué)教學(xué);2017年07期
6 李明;;人口的模型分析[J];中小企業(yè)管理與科技(中旬刊);2017年01期
7 鄭行軍;;圓盤模型的拓展分析[J];理科考試研究;2017年07期
8 陸陳驍;馮佳媛;;國際市場投資心理研究——基于函數(shù)GARCH-M模型的視角[J];智富時(shí)代;2017年06期
9 蘆敬毅;;兩類傳送帶模型分析[J];新課程(下);2017年06期
10 ;新知客[J];視野;2017年18期
相關(guān)會(huì)議論文 前10條
1 錢林曉;王一濤;;對(duì)應(yīng)試教育條件下學(xué)生學(xué)習(xí)行為的模型分析[A];2005年中國教育經(jīng)濟(jì)學(xué)年會(huì)會(huì)議論文集[C];2005年
2 朱萍;劉偉澤;萬立濱;;基于實(shí)證研究的知識(shí)管理路線、方法和模型分析[A];航空工業(yè)檔案學(xué)會(huì)七屆四次理事會(huì)暨2013年度優(yōu)秀論文交流會(huì)論文集[C];2013年
3 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];人才、創(chuàng)新與老工業(yè)基地的振興——2004年中國機(jī)械工程學(xué)會(huì)年會(huì)論文集[C];2004年
4 王新心;;北京貨物運(yùn)輸量的模型分析[A];第六屆中國青年運(yùn)籌與管理學(xué)者大會(huì)論文集[C];2004年
5 林志炳;許保光;蔡晨;;基于消費(fèi)者偏好的混合渠道模型分析[A];中國優(yōu)選法統(tǒng)籌法與經(jīng)濟(jì)數(shù)學(xué)研究會(huì)第七屆全國會(huì)員代表大會(huì)暨第七屆中國管理科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年
6 賀小明;閆秀峰;楊克修;付盡芳;;火電廠物流系統(tǒng)模型分析研究[A];2004年中國機(jī)械工程學(xué)會(huì)年會(huì)論文集:物流工程與中國現(xiàn)代經(jīng)濟(jì)——第七屆物流工程學(xué)術(shù)年會(huì)專輯[C];2004年
7 張貝;張好智;;逆向物流網(wǎng)絡(luò)設(shè)計(jì)模型分析與算法(英文)[A];可持續(xù)發(fā)展的中國交通——2005全國博士生學(xué)術(shù)論壇(交通運(yùn)輸工程學(xué)科)論文集(上冊(cè))[C];2005年
8 張黎;;影響企業(yè)知識(shí)擴(kuò)散因素的模型分析[A];現(xiàn)代工業(yè)工程與管理研討會(huì)會(huì)議論文集[C];2006年
9 張?jiān)?陳闖;王力平;;天津市科技型中小企業(yè)融資體系構(gòu)建與整合——基于要素重組下三維動(dòng)態(tài)模型分析[A];新規(guī)劃·新視野·新發(fā)展——天津市社會(huì)科學(xué)界第七屆學(xué)術(shù)年會(huì)優(yōu)秀論文集《天津?qū)W術(shù)文庫》(下)[C];2011年
10 陳杰姝;;電子渠道建設(shè)模型分析[A];第七屆中國通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 陳永偉;回歸本源,拷問根基[N];中華讀書報(bào);2017年
2 信達(dá)證券首席策略分析師、研發(fā)中心執(zhí)行總監(jiān) 陳嘉禾;研究市場并不難 讓小模型成為好幫手[N];證券時(shí)報(bào);2017年
3 媛萍;用模型分析企業(yè)戰(zhàn)略要素[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2002年
4 鄒至莊 美國普林斯頓大學(xué)經(jīng)濟(jì)學(xué)教授;如何用模型分析中國經(jīng)濟(jì)?[N];企業(yè)家日?qǐng)?bào);2015年
5 江蘇省昆山市地稅局;模型分析樹標(biāo)桿 層層深入破稅案[N];中國稅務(wù)報(bào);2010年
6 隋彭生;合同成立與生效的八個(gè)模型分析[N];法制日?qǐng)?bào);2006年
7 山東 汪超;利用水杯水位對(duì)基本放大電路非線性失真進(jìn)行模型分析[N];電子報(bào);2012年
8 中國人民大學(xué)公共政策研究院執(zhí)行副院長 毛壽龍;為何純市場模型分析不了中國房地產(chǎn)市場[N];中國經(jīng)濟(jì)導(dǎo)報(bào);2016年
9 田學(xué)科;山體為什么會(huì)移動(dòng)[N];地質(zhì)勘查導(dǎo)報(bào);2006年
10 陳冠因;銅價(jià)三季度存反彈機(jī)會(huì)[N];中國證券報(bào);2013年
相關(guān)博士學(xué)位論文 前10條
1 陳柯;基于內(nèi)生SLX模型的中國省級(jí)地區(qū)間經(jīng)濟(jì)相互作用研究[D];上海社會(huì)科學(xué)院;2019年
2 陳舒琪;半?yún)?shù)加速失效時(shí)間混合治愈模型的構(gòu)建及其在醫(yī)學(xué)中的應(yīng)用[D];中國人民解放軍海軍軍醫(yī)大學(xué);2019年
3 朱華鋒;幾類可觀測序列驅(qū)動(dòng)的條件異方差模型研究[D];廣州大學(xué);2017年
4 黃飛虎;結(jié)構(gòu)圖模型的學(xué)習(xí)及其應(yīng)用研究[D];南京航空航天大學(xué);2017年
5 王學(xué)明;基于主題模型的多媒體問答研究[D];南京理工大學(xué);2018年
6 王巧;螞蟻單列運(yùn)動(dòng)的實(shí)驗(yàn)與模型研究[D];中國科學(xué)技術(shù)大學(xué);2019年
7 徐曉軍;稀疏數(shù)據(jù)驅(qū)動(dòng)的高維空間圖模型學(xué)習(xí)及應(yīng)用[D];北京理工大學(xué);2017年
8 薛健;兩類量子模型相變及其相關(guān)性質(zhì)的研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院物理研究所);2019年
9 汪玲玲;兩類DSGE模型的結(jié)構(gòu)計(jì)量分析方法及其應(yīng)用研究[D];天津財(cái)經(jīng)大學(xué);2017年
10 段巍巍;高維組學(xué)研究中的貝葉斯多位點(diǎn)模型[D];南京醫(yī)科大學(xué);2018年
相關(guān)碩士學(xué)位論文 前10條
1 崔陽;在線健康社區(qū)場景化推薦模型研究[D];吉林大學(xué);2019年
2 章琳;內(nèi)存相關(guān)軟件漏洞特征分析及漏洞模型構(gòu)建方法研究[D];江蘇大學(xué);2019年
3 薛夢茹;基于KMV模型我國上市公司信用風(fēng)險(xiǎn)測度實(shí)證分析[D];河南科技大學(xué);2019年
4 李恩慧;基于DSC理論砌體結(jié)構(gòu)本構(gòu)模型的研究[D];新疆大學(xué);2019年
5 王丹;復(fù)雜關(guān)聯(lián)數(shù)據(jù)的張量模型與應(yīng)用研究[D];廈門大學(xué);2017年
6 吳慧娟;三維復(fù)眼相機(jī)模型的優(yōu)化設(shè)計(jì)與定位分析[D];武漢理工大學(xué);2018年
7 時(shí)磊;基于層流煙點(diǎn)高度的碳黑模型數(shù)值模擬研究[D];武漢理工大學(xué);2018年
8 林穎;基于XGBoost-CNN模型的圖片識(shí)別分析[D];廈門大學(xué);2018年
9 高凱;基于復(fù)雜網(wǎng)絡(luò)理論的微博轉(zhuǎn)發(fā)模型研究[D];中國石油大學(xué)(華東);2017年
10 權(quán)甜甜;基于搜索數(shù)據(jù)的用戶畫像模型研究[D];武漢理工大學(xué);2018年
本文編號(hào):2608109
本文鏈接:http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2608109.html