基于模型融合的搜索引擎用戶畫像技術
發(fā)布時間:2021-06-21 06:06
由于搜索引擎中用戶數據的不完整性,導致在構建用戶畫像時標簽缺失,提出預測多維用戶標簽的Stacking模型融合方法,以預測用戶畫像的三個標簽為例,進行實驗和分析。該模型為兩層結構,第一級模型中使用TF-IDF算法提取用戶搜索詞特征并用多分類器訓練,同時將Doc2Vec模型構建具有關聯(lián)信息的文本特征并用BP神經網絡訓練,第一級模型的輸出作為第二級模型的輸入,用SVM支持向量機進行分類和預測,得到用戶的標簽信息。實驗用該模型與傳統(tǒng)模型進行了實驗對比,證明該模型在搜索引擎數據的用戶標簽預測任務中有較高的準確率。
【文章來源】:科技與創(chuàng)新. 2020,(07)
【文章頁數】:4 頁
【部分圖文】:
基于TF-IDF的傳統(tǒng)模型結構圖
TF-IDF算法雖然考慮了單詞在文檔中的詞頻和單詞在整體語料庫中分布的影響,但沒有考慮到單詞在不同類別間的分布差異,而且忽略了單詞之間的語音信息和排列順序,所以實驗采用Doc2Vec彌補TF-IDF的缺點。反向傳播(Back Propagation,BP)神經網絡是20世紀80年代由RUMELHART等人提出的,是目前被廣泛應用的神經網絡學習算法[11]。對于Doc2Vec得到的文本特征向量,實驗使用BP神經網絡模型對其進行訓練,并用Stacking模型將TF-IDF的訓練結果融合,再輸入到Stacking第二級模型中,其模型結構如圖2所示。該模型相較Logistic Regression等模型,其擬合能力更強,并在實驗中進行了對比。實驗中Stacking結構第一層使用多分類器訓練TF-IDF特征向量,而不是傳統(tǒng)的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實驗選擇了SGD Classifier(隨機梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機)、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓練模型如圖3所示。
實驗中Stacking結構第一層使用多分類器訓練TF-IDF特征向量,而不是傳統(tǒng)的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實驗選擇了SGD Classifier(隨機梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機)、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓練模型如圖3所示。實驗使用BP神經網絡訓練Doc2Vec特征向量,根據訓練特征向量的網絡結構,Doc2Vec可分為Distributed Memory Model(DM)與Distributed bag of words(DBOW)兩種模型,其中DM模型不但擁有上下文的語義關聯(lián)信息,而且包含了特征詞的詞序信息,DBOW模型則不考慮特征詞的排序信息,而只關注文檔中的特征詞的語義信息。實驗中同時采用了DM和DBOW兩種模型,用BP神經網絡進行特征訓練,以保證特征構建中信息的完整性,其結構如圖4所示。
【參考文獻】:
期刊論文
[1]Spark平臺下KNN-ALS模型推薦算法[J]. 鄒小波,王佳斌,詹敏. 華僑大學學報(自然科學版). 2019(02)
[2]貝葉斯網絡在用戶興趣模型構建中的研究[J]. 王慶福. 無線互聯(lián)科技. 2016(12)
博士論文
[1]基于社交大數據的用戶信用畫像方法研究[D]. 郭光明.中國科學技術大學 2017
碩士論文
[1]基于Spark的推薦算法的改進研究[D]. 劉佳耀.華僑大學 2019
[2]用戶畫像在內容推送的研究與應用[D]. 楊雙亮.北方工業(yè)大學 2017
本文編號:3240140
【文章來源】:科技與創(chuàng)新. 2020,(07)
【文章頁數】:4 頁
【部分圖文】:
基于TF-IDF的傳統(tǒng)模型結構圖
TF-IDF算法雖然考慮了單詞在文檔中的詞頻和單詞在整體語料庫中分布的影響,但沒有考慮到單詞在不同類別間的分布差異,而且忽略了單詞之間的語音信息和排列順序,所以實驗采用Doc2Vec彌補TF-IDF的缺點。反向傳播(Back Propagation,BP)神經網絡是20世紀80年代由RUMELHART等人提出的,是目前被廣泛應用的神經網絡學習算法[11]。對于Doc2Vec得到的文本特征向量,實驗使用BP神經網絡模型對其進行訓練,并用Stacking模型將TF-IDF的訓練結果融合,再輸入到Stacking第二級模型中,其模型結構如圖2所示。該模型相較Logistic Regression等模型,其擬合能力更強,并在實驗中進行了對比。實驗中Stacking結構第一層使用多分類器訓練TF-IDF特征向量,而不是傳統(tǒng)的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實驗選擇了SGD Classifier(隨機梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機)、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓練模型如圖3所示。
實驗中Stacking結構第一層使用多分類器訓練TF-IDF特征向量,而不是傳統(tǒng)的單一分類器,考慮到分類速度和分類效率,在分類器的選擇上實驗選擇了SGD Classifier(隨機梯度下降)、Naive Bayes Classifier(樸素貝葉斯)、LinearSVC(線性支持向量機)、Logistics Regression(邏輯回歸)和Hard VotingClassifier(一種集成分類器),多分類器訓練模型如圖3所示。實驗使用BP神經網絡訓練Doc2Vec特征向量,根據訓練特征向量的網絡結構,Doc2Vec可分為Distributed Memory Model(DM)與Distributed bag of words(DBOW)兩種模型,其中DM模型不但擁有上下文的語義關聯(lián)信息,而且包含了特征詞的詞序信息,DBOW模型則不考慮特征詞的排序信息,而只關注文檔中的特征詞的語義信息。實驗中同時采用了DM和DBOW兩種模型,用BP神經網絡進行特征訓練,以保證特征構建中信息的完整性,其結構如圖4所示。
【參考文獻】:
期刊論文
[1]Spark平臺下KNN-ALS模型推薦算法[J]. 鄒小波,王佳斌,詹敏. 華僑大學學報(自然科學版). 2019(02)
[2]貝葉斯網絡在用戶興趣模型構建中的研究[J]. 王慶福. 無線互聯(lián)科技. 2016(12)
博士論文
[1]基于社交大數據的用戶信用畫像方法研究[D]. 郭光明.中國科學技術大學 2017
碩士論文
[1]基于Spark的推薦算法的改進研究[D]. 劉佳耀.華僑大學 2019
[2]用戶畫像在內容推送的研究與應用[D]. 楊雙亮.北方工業(yè)大學 2017
本文編號:3240140
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3240140.html