天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博短文本檢索關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2021-05-20 00:42
  微博是通過某個(gè)社會(huì)媒體分享的不超過140個(gè)字符的短文本消息,比如Twitter或者新浪微博。微博能夠吸引上億用戶的使用,是因?yàn)橛脩敉ㄟ^關(guān)注自己感興趣的人可以獲得實(shí)時(shí)的消息。經(jīng)過近五年的快速發(fā)展,微博已經(jīng)成為社會(huì)媒體的典型代表,更是人們不可或缺的重要實(shí)時(shí)信息來源。在本文,微博特指通過Twitter分享的微博。微博數(shù)據(jù)劇烈增長,從大量的微博信息中幫助用戶更加準(zhǔn)確地找到他們感興趣的微博就成了微博檢索的重要任務(wù)。由于微博文本短小,書寫隨意,噪聲大,而且實(shí)時(shí)性強(qiáng)的特點(diǎn),傳統(tǒng)信息檢索技術(shù)在海量微博檢索中遇到巨大挑戰(zhàn)。為了解決這一問題,本文針對(duì)微博檢索任務(wù)的幾個(gè)關(guān)鍵技術(shù)進(jìn)行了研究。本文主要分成以下四個(gè)方面進(jìn)行研究:1.基于熱點(diǎn)時(shí)間的文檔語言模型建模。在本章中,首先我們調(diào)研了兩類典型的基于時(shí)間的語言模型,其基本假設(shè)是文檔越新鮮,文檔越重要。然后對(duì)微博真實(shí)查詢的相關(guān)文檔的時(shí)間分布進(jìn)行了分析,證實(shí)了傳統(tǒng)的假設(shè)并不總是成立的。最后對(duì)查詢的熱點(diǎn)時(shí)間進(jìn)行了定義,并建立了基于熱點(diǎn)時(shí)間的語言模型方法用于微博檢索,并和傳統(tǒng)方法進(jìn)行了實(shí)驗(yàn)性對(duì)比。2.融入時(shí)間信息的查詢建模。在本章中我們利用時(shí)間特性(實(shí)時(shí)性,時(shí)間變化)對(duì)... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:79 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 本文的研究背景
    1.2 本文研究目的和意義
    1.3 相關(guān)研究綜述
        1.3.1 信息檢索模型
        1.3.2 微博檢索
        1.3.3 Lemur 工具
    1.4 本文的內(nèi)容組織和結(jié)構(gòu)
第2章 實(shí)時(shí)性語言模型
    2.1 語言模型相關(guān)工作
        2.1.1 語言模型
        2.1.2 平滑方法
    2.2 相關(guān)文檔的時(shí)間分布分析
        2.2.1 兩種考慮檢索結(jié)果實(shí)時(shí)性的方法
        2.2.2 實(shí)時(shí)性在微博檢索中的真實(shí)情況
    2.3 基于熱點(diǎn)時(shí)間的語言模型
        2.3.1 熱點(diǎn)時(shí)間
        2.3.2 基于熱點(diǎn)時(shí)間的語言模型
    2.4 實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)指標(biāo)
        2.4.1 實(shí)驗(yàn)數(shù)據(jù)
        2.4.2 評(píng)測指標(biāo)
    2.5 實(shí)驗(yàn)結(jié)果及分析
    2.6 本章小結(jié)
第3章 融入時(shí)間信息的查詢建模
    3.1 基于實(shí)時(shí)性的查詢擴(kuò)展
        3.1.1 微博排序中利用文檔平均“年齡”的可行性
        3.1.2 融入實(shí)時(shí)性的查詢擴(kuò)展
    3.2 針對(duì)多波峰主題相關(guān)的查詢擴(kuò)展
    3.3 融合實(shí)時(shí)性與多波峰主題相關(guān)的查詢擴(kuò)展
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 實(shí)驗(yàn)配置
        3.4.2 實(shí)驗(yàn)結(jié)果與分析
    3.5 本章小結(jié)
第4章 基于參考文檔模型的微博文本檢索
    4.1 微博短文本檢索的關(guān)鍵問題分析
        4.1.1 當(dāng)前反饋技術(shù)存在的問題
        4.1.2 微博短文本在文檔建模中潛在的困難
    4.2 參考文檔模型
    4.3 基于概率空間的參考文檔模型
        4.3.1 基于偽反饋的文檔建模
        4.3.2 相關(guān)性模型
    4.4 實(shí)驗(yàn)結(jié)果與分析
        4.4.1 實(shí)驗(yàn)設(shè)計(jì)
        4.4.2 基于待檢索文檔集的參考文檔模型性能
        4.4.3 基于 URL 資源的參考文檔模型性能
        4.4.4 選用不同參考文檔集的性能比較
        4.4.5 文檔增益對(duì)檢索性能的影響分析
    4.5 本章小結(jié)
第5章 基于排序?qū)W習(xí)模型的微博文本檢索
    5.1 引言
    5.2 基于 Ranking SVM 的微博排序?qū)W習(xí)模型
    5.3 排序?qū)W習(xí)模型的特征抽取
        5.3.1 特征類別
        5.3.2 特征集合構(gòu)造
    5.4 實(shí)驗(yàn)結(jié)果及分析
        5.4.1 實(shí)驗(yàn)工具與數(shù)據(jù)
        5.4.2 使用全部的特征
        5.4.3 僅使用單個(gè)特征
        5.4.4 按特征類別
        5.4.5 leave-one-out 特征實(shí)驗(yàn)結(jié)果
        5.4.6 文本相似度特征與其他類別單一特征組合
        5.4.7 利用貪心算法選最優(yōu)特征集
    5.5 本章小結(jié)
結(jié)論
附錄一 預(yù)處理后的結(jié)構(gòu)化 Tweet 樣例
附錄二 本文實(shí)驗(yàn)中的微博查詢樣例
附錄三 TREC 2012 微博實(shí)時(shí)檢索評(píng)測參賽隊(duì)伍
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝



本文編號(hào):3196745

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3196745.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶edfcc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com