天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 組織管理論文 >

中文短文本相似度算法研究及其在電視節(jié)目管理中的應用

發(fā)布時間:2021-08-14 17:59
  隨著互聯(lián)網(wǎng)、智能終端的普及和發(fā)展,信息化交流越來越便捷,每時每刻都在產(chǎn)生大量的信息,電子文本信息是其中一種重要的傳播形式。目前人類已進入了大數(shù)據(jù)時代,各行各業(yè)都在研究如何從海量信息中怎樣挖掘出有價值的數(shù)據(jù),文本相似度算法研究便是其中一項基礎性工作,目前已在信息檢索、主題分析、人工智能等多個領域進行了大量研究和應用。短文本泛指文本長度較小,規(guī)模巨大、內(nèi)容稀少、精煉內(nèi)聚、高時效性、非規(guī)范化等特點。本文主要研究短文本相似度的度量指標和相似度算法,其主要目的在于提供一套從內(nèi)外部數(shù)據(jù)獲取、數(shù)值化、計算質量好、完整的相似度計算方法,短文本研究內(nèi)容在相關領域有著很高的理論價值和應用價值。進入二十一世紀以來,短文本相似度算法研究取得了很大的進展,集中了該領域大部分研究成果。已有的短文本相似度算法的思路主要集中在利用短文本內(nèi)、外部信息的層面,很少考慮數(shù)據(jù)之間的聯(lián)系,因此,它們在處理內(nèi)容簡短、非標準化、非大眾化的短文本時的語言時,很難取得好的效果。為了解決這一問題,本文在查閱大量文獻和進行大量數(shù)據(jù)分析的基礎上,提出了一種引入分詞賦權和段位匹配的短文本相似度算法框架,并且使用電視臺的節(jié)目短文本語料作為實驗數(shù)... 

【文章來源】:上海交通大學上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

中文短文本相似度算法研究及其在電視節(jié)目管理中的應用


ICTCLAS分詞系統(tǒng)的框架結構圖

專業(yè)名詞,衛(wèi)視節(jié)目,語料庫,網(wǎng)站


圖 2-2 東方衛(wèi)視節(jié)目單Fig.2-2 TV listings of Dragon TV為建立專業(yè)名詞語料庫,最簡單的方法就是利用相關專業(yè)網(wǎng)站的數(shù)據(jù),利用聚集爬蟲抓取想要獲取的信息。本文采用了能夠定向抓取相關網(wǎng)頁資源的聚集爬蟲,首先為它設好既定的抓取目標,然后它就會有選擇的訪問互聯(lián)網(wǎng)上的網(wǎng)頁,獲取本文所需要的電視節(jié)目名稱信息。數(shù)據(jù)來源方面,本文選擇了專業(yè)互聯(lián)網(wǎng)網(wǎng)站“電視貓”網(wǎng),然后利用聚焦爬蟲自動將網(wǎng)站上的電視節(jié)目實時更新到電視節(jié)目專業(yè)名詞詞典中。聚集爬蟲的工作流程如下圖 2-3[46-48],首先獲取東方衛(wèi)視下周一的節(jié)目單網(wǎng)頁的 URL,然后根據(jù)自定義的網(wǎng)頁分析算法過濾掉節(jié)目短文本外的所有無關鏈接和信息,保留藍色字體的超鏈接并將其放入等待抓取的 URL 隊列。其次判斷這些節(jié)目名詞是否在用戶詞典中,若不存在則存入節(jié)目名詞語料庫中,若已經(jīng)存在則按照搜索策略繼續(xù)抓取滿足要求的網(wǎng)頁 URL,并重復上述過程,直到將本周所有的節(jié)目短文本遍歷完成后停止。由圖 2-3 可知,電視貓對于每檔節(jié)目都對其節(jié)目名詞添加了超鏈接,為了進一步向用戶提供節(jié)目的詳細信息,網(wǎng)絡爬蟲也可以利用這些超鏈接,自動獲取更

工作流程圖,工作流程,網(wǎng)絡爬蟲,內(nèi)容


圖 2-3 傳統(tǒng)爬蟲和聚集爬蟲的工作流程[46-48]Fig.2-3 Working process of Web Crawler and focused web crawler[46-48]在本算法中,網(wǎng)絡爬蟲構建節(jié)目專有名詞語料庫的具體工作步驟為:第一步:發(fā)起請求。通過 HTTP 庫,對目標站點“電視貓”進行請求。此步驟效果等同于用戶打開瀏覽器,輸入網(wǎng)址 www.tvmao.com,用戶可設置網(wǎng)絡爬蟲每周日某時(如:20:00)定時開始此步工作;第二步: 獲取響應內(nèi)容。如果請求的內(nèi)容存在于服務器上,那么服務器會返回請求的內(nèi)容,一般為:HTML、二進制文件(視頻,音頻)、文檔或 JSON 字符串等,本研究將返回相應頻道節(jié)目單頁面的所有文本信息,存儲于 txt 文檔中。第三步:解析內(nèi)容。對于用戶而言,是要尋找自己需要的信息;網(wǎng)絡爬蟲利用正則表達式,遍歷超鏈接文本中為電視節(jié)目名稱的詞語,并判斷是否已存在ICTCLAS 分詞系統(tǒng)的用戶詞典中,如果已經(jīng)存在,則忽略該條記錄繼續(xù)解析下一條記錄,如果不存在,則進入第四步;第四步:保存數(shù)據(jù)。解析得到的數(shù)據(jù)可以多種形式,如文本(txt 格式),音頻,視頻保存在本地。然后返回第三步,若遍歷完所有詞語,則結束,系統(tǒng)網(wǎng)絡


本文編號:3342927

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/3342927.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶eca87***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com