基于搜索引擎的用戶畫像構(gòu)建方法研究
發(fā)布時(shí)間:2020-12-06 00:39
搜索引擎是最具有商業(yè)價(jià)值的互聯(lián)網(wǎng)基礎(chǔ)應(yīng)用之一。對(duì)網(wǎng)站建設(shè)者而言,搜索引擎平臺(tái)為網(wǎng)站用戶提供便利的同時(shí),也是研究網(wǎng)站用戶行為的有效工具。對(duì)企業(yè)而言,如何利用搜索引擎平臺(tái)進(jìn)行營(yíng)銷,提高營(yíng)銷轉(zhuǎn)化率、增加客戶忠誠(chéng)度與客戶粘性,是至關(guān)生死的問題。而用戶畫像技術(shù)可以幫助企業(yè)精準(zhǔn)定位用戶群體,以及根據(jù)反饋信息不斷調(diào)整營(yíng)銷策略。但是搜索引擎本身使用方式具有特殊性,使得用戶不需要登陸就可以進(jìn)行搜索,因此對(duì)于獲取用戶的基本屬性都是困難的;诖死脭(shù)據(jù)挖掘技術(shù)與機(jī)器學(xué)習(xí)等相關(guān)方法對(duì)可收集到的用戶搜索數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)得出用戶的基本屬性,構(gòu)建基于搜索引擎的用戶畫像,有利于搜索平臺(tái)客戶細(xì)分,精準(zhǔn)定位消費(fèi)群體,節(jié)約平臺(tái)經(jīng)營(yíng)成本等。本文主要工作如下:(1)針對(duì)質(zhì)量差的搜索引擎用戶數(shù)據(jù)進(jìn)行預(yù)處理。在分詞處理中選取了效果較好的jieba分詞,并且在分詞過程中有選擇的保留部分詞性。文本信息特征表示則選擇在學(xué)術(shù)界與工業(yè)界均有不錯(cuò)表現(xiàn)的基于TF-IDF(詞頻-逆文本頻率)的向量空間模型。(2)針對(duì)稀疏高維的特征向量利用安全特征篩選的方法,對(duì)沒有起到任何作用的特征詞進(jìn)行篩選,在不降低精度的前提下,減少特征維數(shù),提高效率。(3...
【文章來源】:山西財(cái)經(jīng)大學(xué)山西省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文技術(shù)路線
利用向量空間模型(VSM)對(duì)搜索引擎查有高維性和稀疏性的特點(diǎn)。戶的搜索引擎查詢數(shù)據(jù)都表示為實(shí)數(shù)型分量構(gòu)成是通過向量之間夾角的余弦值表示的,但是用戶之間只會(huì)存在語(yǔ)料集中的部分單詞,當(dāng)我們利用似度,若是查詢語(yǔ)句之間沒有共同的詞語(yǔ),相似度否存在相似詞來進(jìn)行文檔之間的相似度計(jì)算。僅文檔之間的相似度為零,這樣的結(jié)果顯然是不合理引擎短文本特征表示的存在的缺點(diǎn),利用安全特所提取出來的特征向量存在的高維性缺點(diǎn),剔除利用詞向量可相加性,與經(jīng)過安全特征篩選的特了與上下文之間的聯(lián)系,彌補(bǔ)了上述利用向量空缺點(diǎn)。具體構(gòu)建框架如下:
基于搜索引擎的用戶畫像構(gòu)建方法研究進(jìn)行衡量的。因此將詞映射到更高層次的語(yǔ)義單元,在語(yǔ)義層次上進(jìn)行計(jì)算相似度。而詞向量不僅包含了單詞的語(yǔ)義信息還包含了單詞所在的句法信息,并且在同一個(gè)詞向量空間中可以在語(yǔ)義層次上計(jì)算詞之間的相似性,語(yǔ)義上相近或者相關(guān)的單詞,所表示成的詞向量在詞向量空間中的距離也更近[35];诖,將詞向量引入,彌補(bǔ)特征詞之間的上下文語(yǔ)義與句法關(guān)系。本文引入的詞向量表示為低維實(shí)數(shù)向量,表現(xiàn)形式上,相關(guān)或者相似的詞在距離上更近。通過 cosine 相似度、歐氏距離等來判斷詞之間的距離的大小,從而判斷它們之間的語(yǔ)義相似度。詞向量利用了文中的上下文信息,因此所表示的語(yǔ)義更加豐富。以下為搜索引擎用戶搜索詞“游戲”的詞向量表示,如圖 3.2 所示,其僅利用100 維表示詞向量,遠(yuǎn)遠(yuǎn)小于詞表的維數(shù)?芍~向量為低維稠密的向量表示。
【參考文獻(xiàn)】:
期刊論文
[1]移動(dòng)用戶畫像構(gòu)建研究[J]. 黃文彬,徐山川,吳家輝,王軍. 現(xiàn)代情報(bào). 2016(10)
[2]基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營(yíng)銷[J]. 曾鴻,吳蘇倪. 現(xiàn)代經(jīng)濟(jì)信息. 2016(16)
[3]貝葉斯網(wǎng)絡(luò)在用戶興趣模型構(gòu)建中的研究[J]. 王慶福. 無線互聯(lián)科技. 2016(12)
[4]基于大數(shù)據(jù)技術(shù)的手機(jī)用戶畫像與征信研究[J]. 丁偉,王題,劉新海,韓涵. 郵電設(shè)計(jì)技術(shù). 2016(03)
[5]大數(shù)據(jù)時(shí)代用戶畫像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷[J]. 郝勝宇,陳靜仁. 中國(guó)集體經(jīng)濟(jì). 2016(04)
[6]基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J]. 劉海,盧慧,阮金花,田丙強(qiáng),胡守忠. 絲綢. 2015(12)
[7]搜索引擎營(yíng)銷研究綜述及展望[J]. 李凱,鄧智文,嚴(yán)建援. 外國(guó)經(jīng)濟(jì)與管理. 2014(10)
[8]手機(jī)用戶畫像在大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)方案[J]. 張慷. 信息通信. 2014(02)
[9]營(yíng)銷新發(fā)展:精準(zhǔn)營(yíng)銷[J]. 伍青生,余穎,鄭興山. 經(jīng)濟(jì)管理. 2006(21)
博士論文
[1]基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D]. 郭光明.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]用戶畫像在內(nèi)容推送的研究與應(yīng)用[D]. 楊雙亮.北方工業(yè)大學(xué) 2017
[2]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
[3]互聯(lián)網(wǎng)新聞分類中特征選擇和特征提取方法研究[D]. 王甜甜.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[4]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
[5]聚類算法在網(wǎng)頁(yè)分類中的應(yīng)用研究[D]. 張婕.北京化工大學(xué) 2013
[6]搜索引擎營(yíng)銷研究及“ED”公司搜索引擎營(yíng)銷實(shí)施[D]. 王琰.電子科技大學(xué) 2004
本文編號(hào):2900385
【文章來源】:山西財(cái)經(jīng)大學(xué)山西省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文技術(shù)路線
利用向量空間模型(VSM)對(duì)搜索引擎查有高維性和稀疏性的特點(diǎn)。戶的搜索引擎查詢數(shù)據(jù)都表示為實(shí)數(shù)型分量構(gòu)成是通過向量之間夾角的余弦值表示的,但是用戶之間只會(huì)存在語(yǔ)料集中的部分單詞,當(dāng)我們利用似度,若是查詢語(yǔ)句之間沒有共同的詞語(yǔ),相似度否存在相似詞來進(jìn)行文檔之間的相似度計(jì)算。僅文檔之間的相似度為零,這樣的結(jié)果顯然是不合理引擎短文本特征表示的存在的缺點(diǎn),利用安全特所提取出來的特征向量存在的高維性缺點(diǎn),剔除利用詞向量可相加性,與經(jīng)過安全特征篩選的特了與上下文之間的聯(lián)系,彌補(bǔ)了上述利用向量空缺點(diǎn)。具體構(gòu)建框架如下:
基于搜索引擎的用戶畫像構(gòu)建方法研究進(jìn)行衡量的。因此將詞映射到更高層次的語(yǔ)義單元,在語(yǔ)義層次上進(jìn)行計(jì)算相似度。而詞向量不僅包含了單詞的語(yǔ)義信息還包含了單詞所在的句法信息,并且在同一個(gè)詞向量空間中可以在語(yǔ)義層次上計(jì)算詞之間的相似性,語(yǔ)義上相近或者相關(guān)的單詞,所表示成的詞向量在詞向量空間中的距離也更近[35];诖,將詞向量引入,彌補(bǔ)特征詞之間的上下文語(yǔ)義與句法關(guān)系。本文引入的詞向量表示為低維實(shí)數(shù)向量,表現(xiàn)形式上,相關(guān)或者相似的詞在距離上更近。通過 cosine 相似度、歐氏距離等來判斷詞之間的距離的大小,從而判斷它們之間的語(yǔ)義相似度。詞向量利用了文中的上下文信息,因此所表示的語(yǔ)義更加豐富。以下為搜索引擎用戶搜索詞“游戲”的詞向量表示,如圖 3.2 所示,其僅利用100 維表示詞向量,遠(yuǎn)遠(yuǎn)小于詞表的維數(shù)?芍~向量為低維稠密的向量表示。
【參考文獻(xiàn)】:
期刊論文
[1]移動(dòng)用戶畫像構(gòu)建研究[J]. 黃文彬,徐山川,吳家輝,王軍. 現(xiàn)代情報(bào). 2016(10)
[2]基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營(yíng)銷[J]. 曾鴻,吳蘇倪. 現(xiàn)代經(jīng)濟(jì)信息. 2016(16)
[3]貝葉斯網(wǎng)絡(luò)在用戶興趣模型構(gòu)建中的研究[J]. 王慶福. 無線互聯(lián)科技. 2016(12)
[4]基于大數(shù)據(jù)技術(shù)的手機(jī)用戶畫像與征信研究[J]. 丁偉,王題,劉新海,韓涵. 郵電設(shè)計(jì)技術(shù). 2016(03)
[5]大數(shù)據(jù)時(shí)代用戶畫像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷[J]. 郝勝宇,陳靜仁. 中國(guó)集體經(jīng)濟(jì). 2016(04)
[6]基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J]. 劉海,盧慧,阮金花,田丙強(qiáng),胡守忠. 絲綢. 2015(12)
[7]搜索引擎營(yíng)銷研究綜述及展望[J]. 李凱,鄧智文,嚴(yán)建援. 外國(guó)經(jīng)濟(jì)與管理. 2014(10)
[8]手機(jī)用戶畫像在大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)方案[J]. 張慷. 信息通信. 2014(02)
[9]營(yíng)銷新發(fā)展:精準(zhǔn)營(yíng)銷[J]. 伍青生,余穎,鄭興山. 經(jīng)濟(jì)管理. 2006(21)
博士論文
[1]基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D]. 郭光明.中國(guó)科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]用戶畫像在內(nèi)容推送的研究與應(yīng)用[D]. 楊雙亮.北方工業(yè)大學(xué) 2017
[2]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
[3]互聯(lián)網(wǎng)新聞分類中特征選擇和特征提取方法研究[D]. 王甜甜.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[4]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
[5]聚類算法在網(wǎng)頁(yè)分類中的應(yīng)用研究[D]. 張婕.北京化工大學(xué) 2013
[6]搜索引擎營(yíng)銷研究及“ED”公司搜索引擎營(yíng)銷實(shí)施[D]. 王琰.電子科技大學(xué) 2004
本文編號(hào):2900385
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2900385.html
最近更新
教材專著