天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種基于側(cè)面信息的代碼片段識別技術(shù)研究

發(fā)布時間:2017-05-06 05:09

  本文關(guān)鍵詞:一種基于側(cè)面信息的代碼片段識別技術(shù)研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著社區(qū)問答網(wǎng)站、博客等的廣泛普及,使得程序員可以通過此類途徑自由交流編程技術(shù),越來越多的解決各類問題的代碼片段存在于互聯(lián)網(wǎng)上。然而,不同于普通文本,代碼片段具有的結(jié)構(gòu)化信息可以幫助提高搜索引擎對于特定編程語言源代碼的搜索能力。但是,在不明確代碼片段編程語言的情況下,無法進一步分析代碼片段的結(jié)構(gòu)化信息。通過統(tǒng)計發(fā)現(xiàn),網(wǎng)絡(luò)上半數(shù)以上代碼片段沒有標(biāo)記編程語言類別,這使得代碼片段編程語言識別成為迫切需要解決的問題。代碼片段往往不夠完整,難以提供足夠的信息進行其編程語言識別,而結(jié)合代碼片段附著的標(biāo)簽、描述文本等側(cè)面信息可提高編程語言識別的準(zhǔn)確率。為此,本文提出一個基于側(cè)面信息的代碼片段的編程語言識別框架,并實現(xiàn)了相關(guān)原型系統(tǒng)。本文的主要貢獻如下:1.提出了一個基于側(cè)面信息的代碼片段的編程語言識別框架,該框架首先通過代碼片段周圍文字解釋信息對標(biāo)簽信息進行推斷補全,然后利用補全之后的標(biāo)簽信息訓(xùn)練識別模型,根據(jù)模型預(yù)測得到識別出的語言類別。通過對側(cè)面信息的合理利用,較好地預(yù)測識別代碼片段的編程語言,解決了識別準(zhǔn)確率低下的難題。2.提出了一種基于文本關(guān)鍵詞增強的多標(biāo)記學(xué)習(xí)的標(biāo)簽推薦方法。該方法通過分析數(shù)據(jù)發(fā)現(xiàn)了大多數(shù)的標(biāo)簽在其標(biāo)注的內(nèi)容中出現(xiàn)的事實,將多標(biāo)記學(xué)習(xí)和關(guān)鍵詞抽取兩種技術(shù)結(jié)合起來以提高標(biāo)簽推薦的準(zhǔn)確率,并進一步提出了快速版本,采用了局部敏感哈希策略來降低了算法的時間復(fù)雜度。3.提出了一種基于標(biāo)簽信息的代碼片段的編程語言識別方法。該方法將代碼片段編程語言識別問題定義為文本分類問題,結(jié)合了文本提煉標(biāo)簽技術(shù)和貝葉斯分類技術(shù)來進行代碼片段編程語言的識別,提高了識別的準(zhǔn)確率。4.基于上述方法設(shè)計并實現(xiàn)了一個原型系統(tǒng),初步驗證了上述方法和技術(shù)的有效性和可行性。
【關(guān)鍵詞】:編程語言識別 代碼片段 側(cè)面信息 標(biāo)簽推薦
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-12
  • 第一章 引言12-16
  • 1.1 研究背景12-14
  • 1.2 研究內(nèi)容14-15
  • 1.3 本文組織15-16
  • 第二章 相關(guān)工作16-24
  • 2.1 代碼編程語言識別16-18
  • 2.1.1 面向完整代碼的識別16-17
  • 2.1.2 面向代碼片段的識別17-18
  • 2.2 標(biāo)簽推薦技術(shù)18-20
  • 2.2.1 基于協(xié)同過濾的推薦18-19
  • 2.2.2 基于內(nèi)容的推薦19-20
  • 2.3 其他相關(guān)工作20-22
  • 2.3.1 多標(biāo)記學(xué)習(xí)方法20
  • 2.3.2 關(guān)鍵詞抽取方法20-21
  • 2.3.3 貝葉斯分類方法21-22
  • 2.3.4 多類別問題解決策略22
  • 2.4 本章小結(jié)22-24
  • 第三章 基于側(cè)面信息的代碼片段的編程語言識別框架24-30
  • 3.1 識別場景介紹24-26
  • 3.2 本文的識別框架26-28
  • 3.2.1 標(biāo)簽推薦模塊27
  • 3.2.2 編程語言識別模塊27-28
  • 3.3 本章小結(jié)28-30
  • 第四章 基于關(guān)鍵詞增強的多標(biāo)記學(xué)習(xí)的標(biāo)簽推薦方法30-44
  • 4.1 背景30-31
  • 4.2 相關(guān)知識介紹31-32
  • 4.3 我們的方法32-37
  • 4.3.1 問題描述32-33
  • 4.3.2 MATAR算法33-36
  • 4.3.3 MATAR-fast算法36-37
  • 4.4 實驗及數(shù)據(jù)分析37-42
  • 4.4.1 實驗相關(guān)配置37-38
  • 4.4.2 實驗結(jié)果38-42
  • 4.5 本章小結(jié)42-44
  • 第五章 基于標(biāo)簽信息的代碼片段的編程語言識別方法44-60
  • 5.1 背景44-46
  • 5.2 我們的方法46-52
  • 5.2.1 問題描述46-47
  • 5.2.2 若干樸素的利用側(cè)面信息的識別方法47-50
  • 5.2.3 基于標(biāo)簽推薦的識別方法SIPLDM-MATAR50-52
  • 5.3 實驗及數(shù)據(jù)分析52-59
  • 5.3.1 實驗相關(guān)配置53-55
  • 5.3.2 實驗結(jié)果55-59
  • 5.4 本章小結(jié)59-60
  • 第六章 系統(tǒng)實現(xiàn)60-70
  • 6.1 系統(tǒng)架構(gòu)60-61
  • 6.2 系統(tǒng)實現(xiàn)61-66
  • 6.2.1 數(shù)據(jù)收集模塊61-62
  • 6.2.2 離線處理模塊62-64
  • 6.2.3 在線搜索模塊64-66
  • 6.3 系統(tǒng)效果66-68
  • 6.3.1 首頁66-67
  • 6.3.2 搜索結(jié)果頁67
  • 6.3.3 結(jié)果詳情頁67-68
  • 6.4 本章小結(jié)68-70
  • 第七章 總結(jié)與展望70-72
  • 7.1 本文總結(jié)70-71
  • 7.2 未來工作71-72
  • 參考文獻72-78
  • 簡歷與科研成果78-80
  • 致謝80-81

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;什么是最美麗的編程語言——“編程語言研討會”實錄[J];程序員;2010年08期

2 李暢;;編程語言的特點與比較[J];華中師范大學(xué)研究生學(xué)報;2005年03期

3 馬龍軍;;編程語言教學(xué)模式探討[J];計算機教育;2007年02期

4 王翔;;借力編程語言走職業(yè)開發(fā)道路[J];程序員;2007年03期

5 王謙;;高職院校非計算機專業(yè)編程語言教學(xué)初探[J];職大學(xué)報;2008年02期

6 ;透視編程語言[J];程序員;2009年02期

7 蔡學(xué)鏞;;2008編程語言盤點[J];程序員;2009年02期

8 Andrej Bauer;;編程語言的設(shè)計[J];程序員;2009年06期

9 約翰·帕夫盧斯;;我們?yōu)楹涡枰戮幊陶Z言?[J];科技創(chuàng)業(yè);2010年09期

10 張越男;;試析C#編程語言的特點及功能[J];軟件;2013年03期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 王濤;郭長國;鄒鵬;王曉斌;;一種基于注釋的監(jiān)控編程語言設(shè)計與實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(下冊)[C];2009年

2 蘭香;林帆;蔣君麗;;新鋼高爐報表及常見故障處理[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 本報記者 靳菁;新銳信:欲霸編程語言江山[N];計算機世界;2002年

2 清水 編譯;7種正在流行的編程語言[N];計算機世界;2010年

3 電腦虎;打開數(shù)字城堡的鑰匙——編程語言[N];中國電腦教育報;2005年

4 本報記者 劉麗麗 高麗華;Java改變了什么[N];計算機世界;2005年

5 楊偉國;C++的巔峰體驗[N];中華讀書報;2002年

6 科譯;亞太IT專業(yè)開發(fā)人數(shù)三年后全球第一[N];中國計算機報;2003年

7 周懷軍;IT課程三級跳[N];中國電腦教育報;2002年

8 ;2005年等級考試大變臉[N];電腦報;2005年

9 胖胖;Web開發(fā)熱會持續(xù)多久[N];中華讀書報;2006年

10 楊偉寧;月入萬元的自由程序員(上)[N];電腦報;2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 李立成;一種基于側(cè)面信息的代碼片段識別技術(shù)研究[D];南京大學(xué);2016年

2 楊浩;非標(biāo)數(shù)字裝備通用控制器用戶編程語言研究[D];天津理工大學(xué);2011年

3 朱峰;漢字編程語言的跨平臺編譯研究[D];哈爾濱工業(yè)大學(xué);2013年


  本文關(guān)鍵詞:一種基于側(cè)面信息的代碼片段識別技術(shù)研究,由筆耕文化傳播整理發(fā)布。



本文編號:347791

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/347791.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95053***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com