tcp協(xié)議的作用_Netfilter,iptables/OpenVPN/TCP guard:
發(fā)布時間:2016-11-27 11:18
本文關(guān)鍵詞:tcp協(xié)議,由筆耕文化傳播整理發(fā)布。
說明:1).本文以TCP的發(fā)展歷程解析容易引起混淆,誤會的方方面面
2).本文不會貼大量的源碼,大多數(shù)是以文字形式描述,我相信文字看起來是要比代碼更輕松的
3).針對對象:對TCP已經(jīng)有了全面了解的人。因為本文不會解析TCP頭里面的每一個字段或者3次握手的細節(jié),也不會解釋慢啟動和快速重傳的定義
4).除了《TCP/IP詳解》(卷一,卷二)以及《Unix網(wǎng)絡(luò)編程》以及Linux源代碼之外,學(xué)習(xí)網(wǎng)絡(luò)更好的資源是RFC
5).本文給出一個提綱,如果想了解細節(jié),請直接查閱RFC
6).翻來覆去,終于找到了這篇備忘,本文基于這篇備忘文檔修改。
分層模型是很好理解的,然而對于每一層的協(xié)議設(shè)計卻不是那么容易。TCP/IP的漂亮之處在于:協(xié)議越往上層越復(fù)雜。我們把網(wǎng)絡(luò)定義為互相連接在一起的設(shè)備,網(wǎng)絡(luò)的本質(zhì)作用還是“端到端”的通信,然而希望互相通信的設(shè)備并不一定要“直接”連接在一起,因此必然需要一些中間的設(shè)備負責(zé)轉(zhuǎn)發(fā)數(shù)據(jù),因此就把連接這些中間設(shè)備的線纜上跑的協(xié)議定義為鏈路層協(xié)議,實際上所謂鏈路其實就是始發(fā)與一個設(shè)備,通過一根線,終止于另一個設(shè)備。我們把一條鏈路稱為“一跳”。因此一個端到端的網(wǎng)絡(luò)包含了“很多跳”。
2.TCP和IP協(xié)議終止于IP協(xié)議,我們已經(jīng)可以完成一個端到端的通信,為何還需要TCP協(xié)議?這是一個問題,理解了這個問題,我們就能理解tcp協(xié)議為何成了現(xiàn)在這個樣子,為何如此“復(fù)雜”,為何又如此簡單。
正如其名字所展示的那樣,TCP的作用是傳輸控制,也就是控制端到端的傳輸,那為何這種控制不在IP協(xié)議中實現(xiàn)的。答案很簡單,那就是這會增加IP協(xié)議的復(fù)雜性,而IP協(xié)議需要的就是簡單。這是什么原因造成的呢?
首先我們認識一下為何IP協(xié)議是沙漏的細腰部分。它的下層是繁多的鏈路層協(xié)議,這些鏈路提供了相互截然不同且相差很遠的語義,為了互聯(lián)這些異構(gòu)的網(wǎng)絡(luò),我們需要一個網(wǎng)絡(luò)層協(xié)議起碼要提供一些適配的功能,另外它必然不能提供太多的“保證性服務(wù)”,因為上層的保證性依賴下層的約束性更強的保證性,你永遠無法在一個100M吞吐量的鏈路之上實現(xiàn)的IP協(xié)議保證1000M的吞吐量...
IP協(xié)議設(shè)計為分組轉(zhuǎn)發(fā)協(xié)議,每一跳都要經(jīng)過一個中間節(jié)點,路由的設(shè)計是TCP/IP網(wǎng)絡(luò)的另一大創(chuàng)舉,這樣,IP協(xié)議就無需方向性,路由信息和協(xié)議本身不再強關(guān)聯(lián),它們僅僅通過IP地址來關(guān)聯(lián),因此,IP協(xié)議更加簡單。路由器作為中間節(jié)點也不能太復(fù)雜,這涉及到成本問題,因此路由器只負責(zé)選路以及轉(zhuǎn)發(fā)數(shù)據(jù)包。
因此傳輸控制協(xié)議必然需要在端點實現(xiàn)。在我們詳談tcp協(xié)議之前,首先要看一下它不能做什么,由于IP協(xié)議不提供保證,TCP也不能提供依賴于IP下層鏈路的這種保證,比如帶寬,比如時延,這些都是鏈路層決定的,既然IP協(xié)議無法修補,TCP也不能,然而它卻能修正始于IP層的一些“不可保證性質(zhì)”,這些性質(zhì)包括IP層的不可靠,IP層的不按順序,IP層的無方向/無連接。
將該小節(jié)總結(jié)一下,TCP/IP模型從下往上,功能增加,需要實現(xiàn)的設(shè)備減少,然而設(shè)備的復(fù)雜性卻在增加,這樣保證了成本的最小化,至于性能或者因素,靠軟件來調(diào)節(jié)吧,TCP協(xié)議就是這樣的軟件,實際上最開始的時候,TCP并不考慮性能,效率,公平性,正是考慮了這些,tcp協(xié)議才復(fù)雜了起來。
3.TCP協(xié)議這是一個純軟件協(xié)議,為何將其設(shè)計上兩個端點,參見上一小節(jié),本節(jié)詳述tcp協(xié)議,中間也穿插一些簡短的論述。
3.1.tcp協(xié)議確切的說,tcp協(xié)議有兩重身份,作為網(wǎng)絡(luò)協(xié)議,它彌補了IP協(xié)議盡力而為服務(wù)的不足,實現(xiàn)了有連接,可靠傳輸,報文按序到達。作為一個主機軟件,它和UDP以及左右的傳輸層協(xié)議隔離了主機服務(wù)和網(wǎng)絡(luò),它們可以被看做是一個多路復(fù)用/解復(fù)用器,將諸多的主機進程數(shù)據(jù)復(fù)用/解復(fù)用到IP層。可以看出,不管從哪個角度,TCP都作為一個接口存在,作為網(wǎng)絡(luò)協(xié)議,它和對端的TCP接口,實現(xiàn)TCP的控制邏輯,作為多路復(fù)用/解復(fù)用器,它和下層IP協(xié)議接口,實現(xiàn)協(xié)議棧的功能,而這正是分層網(wǎng)絡(luò)協(xié)議模型的基本定義(兩類接口,一類和下層接口,另一類和對等層接口)。
我們習(xí)慣于將TCP作為協(xié)議棧的最頂端,而不把應(yīng)用層協(xié)議當成協(xié)議棧的一部分,這部分是因為應(yīng)用層被TCP/UDP解復(fù)用了之后,呈現(xiàn)出了一種太復(fù)雜的局面,應(yīng)用層協(xié)議用一種不同截然不同的方式被解釋,應(yīng)用層協(xié)議習(xí)慣于用類似ASN.1標準來封裝,這正體現(xiàn)了tcp協(xié)議作為多路復(fù)用/解復(fù)用器的重要性,由于直接和應(yīng)用接口,它可以很容易直接被應(yīng)用控制,實現(xiàn)不同的傳輸控制策略,這也是TCP被設(shè)計到離應(yīng)用不太遠的地方的原因之一。
總之,TCP要點有四,一曰有連接,二曰可靠傳輸,三曰數(shù)據(jù)按照到達,四曰端到端流量控制。注意,TCP被設(shè)計時只保證這四點,此時它雖然也有些問題,然而很簡單,然而更大的問題很快呈現(xiàn)出來,使之不得不考慮和IP網(wǎng)絡(luò)相關(guān)的東西,比如公平性,效率,因此增加了擁塞控制,這樣TCP就成了現(xiàn)在這個樣子。
3.2.有連接,可靠傳輸,數(shù)據(jù)按序到達的TCPIP協(xié)議是沒有方向的,數(shù)據(jù)報傳輸能到達對端全靠路由,因此它是一跳一跳地到達對端的,只要有一跳沒有到達對端的路由,那么數(shù)據(jù)傳輸將失敗,其實路由也是互聯(lián)網(wǎng)的核心之一,實際上IP層提供的核心基本功能有兩點,第一點是地址管理,第二點就是路由選路。TCP利用了IP路由這個簡單的功能,因此TCP不必考慮選路,這又一個它被設(shè)計成端到端協(xié)議的原因。
既然IP已經(jīng)能盡力讓單獨的數(shù)據(jù)報到達對端,那么TCP就可以在這種盡力而為的網(wǎng)絡(luò)上實現(xiàn)其它的更加嚴格的控制功能。TCP給無連接的IP網(wǎng)絡(luò)通信增加了連接性,確認了已經(jīng)發(fā)送出去的數(shù)據(jù)的狀態(tài),并且保證了數(shù)據(jù)的順序。
3.2.1.有連接這是TCP的基本,因為后續(xù)的傳輸?shù)目煽啃砸约皵?shù)據(jù)順序性都依賴于一條連接,這是最簡單的實現(xiàn)方式,因此TCP被設(shè)計成一種基于流的協(xié)議,既然TCP需要事先建立連接,之后傳輸多少數(shù)據(jù)就無所謂了,只要是同一連接的數(shù)據(jù)能識別出來即可。
疑難雜癥1:3次握手和4次揮手
TCP使用3次握手建立一條連接,該握手初始化了傳輸可靠性以及數(shù)據(jù)順序性必要的信息,這些信息包括兩個方向的初始序列號,確認號由初始序列號生成,使用3次握手是因為3次握手已經(jīng)準備好了傳輸可靠性以及數(shù)據(jù)順序性所必要的信息,該握手的第3次實際上并不是需要單獨傳輸?shù),完全可以和?shù)據(jù)一起傳輸。
TCP使用4次揮手拆除一條連接,為何需要4次呢?因為TCP是一個全雙工協(xié)議,必須單獨拆除每一條信道。注意,4次揮手和3次握手的意義是不同的,很多人都會問為何建立連接是3次握手,而拆除連接是4次揮手。3次握手的目的很簡單,就是分配資源,初始化序列號,這時還不涉及數(shù)據(jù)傳輸,3次就足夠做到這個了,而4次揮手的目的是終止數(shù)據(jù)傳輸,并回收資源,此時兩個端點兩個方向的序列號已經(jīng)沒有了任何關(guān)系,必須等待兩方向都沒有數(shù)據(jù)傳輸時才能拆除虛鏈路,不像初始化時那么簡單,發(fā)現(xiàn)SYN標志就初始化一個序列號并確認SYN的序列號。因此必須單獨分別在一個方向上終止該方向的數(shù)據(jù)傳輸。
疑難雜癥2:TIME_WAIT狀態(tài)
為何要有這個狀態(tài),原因很簡單,那就是每次建立連接的時候序列號都是隨機產(chǎn)生的,并且這個序列號是32位的,會回繞。現(xiàn)在我來解釋這和TIME_WAIT有什么關(guān)系。
任何的TCP分段都要在盡力而為的IP網(wǎng)絡(luò)上傳輸,中間的路由器可能會隨意的緩存任何的IP數(shù)據(jù)報,它并不管這個IP數(shù)據(jù)報上被承載的是什么數(shù)據(jù),然而根據(jù)經(jīng)驗和互聯(lián)網(wǎng)的大小,一個IP數(shù)據(jù)報最多存活MSL(這是根據(jù)地球表面積,電磁波在各種介質(zhì)中的傳輸速率以及IP協(xié)議的TTL等綜合推算出來的,如果在火星上,這個MSL會大得多...)。
現(xiàn)在我們考慮終止連接時的被動方發(fā)送了一個FIN,然后主動方回復(fù)了一個ACK,然而這個ACK可能會丟失,這會造成被動方重發(fā)FIN,這個FIN可能會在互聯(lián)網(wǎng)上存活MSL。
如果沒有TIME_WAIT的話,假設(shè)連接1已經(jīng)斷開,然而其被動方最后重發(fā)的那個FIN(或者FIN之前發(fā)送的任何TCP分段)還在網(wǎng)絡(luò)上,然而連接2重用了連接1的所有的5元素(源IP,目的IP,TCP,源端口,目的端口),剛剛將建立好連接,連接1遲到的FIN到達了,這個FIN將以比較低但是確實可能的概率終止掉連接2.
為何說是概率比較低呢?這涉及到一個匹配問題,遲到的FIN分段的序列號必須落在連接2的一方的期望序列號范圍之內(nèi)。雖然這種巧合很少發(fā)生,但確實會發(fā)生,畢竟初始序列號是隨機產(chǎn)生了。因此終止連接的主動方必須在接受了被動方且回復(fù)了ACK之后等待2*MSL時間才能進入CLOSE狀態(tài),之所以乘以2是因為這是保守的算法,最壞情況下,針對被動方的ACK在以最長路線(經(jīng)歷一個MSL)經(jīng)過互聯(lián)網(wǎng)馬上到達被動方時丟失。
為了應(yīng)對這個問題,RFC793對初始序列號的生成有個建議,那就是設(shè)定一個基準,在這個基準之上搞隨機,這個基準就是時間,我們知道時間是單調(diào)遞增的。然而這仍然有問題,那就是回繞問題,如果發(fā)生回繞,那么新的序列號將會落到一個很低的值。因此最好的辦法就是避開“重疊”,其含義就是基準之上的隨機要設(shè)定一個范圍。
要知道,很多人很不喜歡看到服務(wù)器上出現(xiàn)大量的TIME_WAIT狀態(tài)的連接,因此他們將TIME_WAIT的值設(shè)置的很低,這雖然在大多數(shù)情況下可行,然而確實也是一種冒險行為。最好的方式就是,不要重用一個連接。
疑難雜癥3:重用一個連接和重用一個套接字
這是根本不同的,單獨重用一個套接字一般不會有任何問題,因為TCP是基于連接的。比如在服務(wù)器端出現(xiàn)了一個TIME_WAIT連接,那么該連接標識了一個五元素,只要客戶端不使用相同的源端口,連接服務(wù)器是沒有問題的,因為遲到的FIN永遠不會到達這個連接。記住,一個五元素標識了一個連接,而不是一個套接字(當然,對于BSD套接字而言,服務(wù)端的accept套接字確實標識了一個連接)。
3.2.2.傳輸可靠性基本上傳輸可靠性是靠確認號實現(xiàn)的,也就是說,每發(fā)送一個分段,接下來接收端必然要發(fā)送一個確認,發(fā)送端收到確認后才可以發(fā)送下一個字節(jié)。這個原則最簡單不過了,教科書上的“停止-等待”協(xié)議就是這個原則的字節(jié)版本,只是TCP使用了滑動窗口機制使得每次不一定發(fā)送一個字節(jié),但是這是后話,本節(jié)僅僅談一下確認的超時機制。
怎么知道數(shù)據(jù)到達對端呢?那就是對端發(fā)送一個確認,但是如果一直收不到對端的確認,發(fā)送端等多久呢?如果一直等下去,那么將無法發(fā)現(xiàn)數(shù)據(jù)的丟失,協(xié)議將不可用,如果等待時間過短,可能確認還在路上,因此等待時間是個問題,另外如何去管理這個超時時間也是一個問題。
疑難雜癥4:超時時間的計算
絕對不能隨意去揣測超時的時間,而應(yīng)該給出一個精確的算法去計算。毫無疑問,一個TCP分段的回復(fù)到達的時間就是一個數(shù)據(jù)報往返的時間,因此標準定義了一個新的名詞RTT,代表一個TCP分段的往返時間。然而我們知道,IP網(wǎng)絡(luò)是盡力而為的,并且路由是動態(tài)的,且路由器會毫無先兆的緩存或者丟棄任何的數(shù)據(jù)報,因此這個RTT是需要動態(tài)測量的,也就是說起碼每隔一段時間就要測量一次,如果每次都一樣,萬事大吉,然而世界并非如你所愿,因此我們需要找到的恰恰的一個“平均值”,而不是一個準確值。
這個平均值如果僅僅直接通過計算多次測量值取算術(shù)平均,那是不恰當?shù),因為對于?shù)據(jù)傳輸延時,我們必須考慮的路徑延遲的瞬間抖動,否則如果兩次測量值分別為2和98,那么超時值將是50,這個值對于2而言,太大了,結(jié)果造成了數(shù)據(jù)的延遲過大(本該重傳的等待了好久才重傳),然而對于98而言,太小了,結(jié)果造成了過度重傳(路途遙遠,本該很慢,結(jié)果大量重傳已經(jīng)正確確認但是遲到的TCP分段)。
因此,除了考慮每兩次測量值的偏差之外,其變化率也應(yīng)該考慮在內(nèi),如果變化率過大,則通過以變化率為自變量的函數(shù)為主計算RTT(如果陡然增大,則取值為比較大的正數(shù),如果陡然減小,則取值為比較小的負數(shù),然后和平均值加權(quán)求和),反之如果變化率很小,則取測量平均值。這是不言而喻的,這個算法至今仍然工作的很好。
疑難雜癥5:超時計時器的管理-每連接單一計時器
很顯然,對每一個TCP分段都生成一個計時器是最直接的方式,每個計時器在RTT時間后到期,如果沒有收到確認,則重傳。然而這只是理論上的合理,對于大多數(shù)操作系統(tǒng)而言,這將帶來巨大的內(nèi)存開銷和調(diào)度開銷,因此采取每一個TCP連接單一計時器的設(shè)計則成了一個默認的選擇?墒菃我坏挠嫊r器怎么管理如此多的發(fā)出去的TCP分段呢?又該如何來設(shè)計單一的計時器呢。
設(shè)計單一計時器有兩個原則:1.每一個報文在長期收不到確認都必須可以超時;2.這個長期收不到中長期不能和測量的RTT相隔太遠。因此RFC2988定義一套很簡單的原則:
a.發(fā)送TCP分段時,如果還沒有重傳定時器開啟,那么開啟它。
b.發(fā)送TCP分段時,如果已經(jīng)有重傳定時器開啟,不再開啟它。
c.收到一個非冗余ACK時,如果有數(shù)據(jù)在傳輸中,重新開啟重傳定時器。
d.收到一個非冗余ACK時,如果沒有數(shù)據(jù)在傳輸中,則關(guān)閉重傳定時器。
我們看看這4條規(guī)則是如何做到以上兩點的,根據(jù)a和c(在c中,注意到ACK是非冗余的),任何TCP分段只要不被確認,超時定時器總會超時的。然而為何需要c呢?只有規(guī)則a存在的話,也可以做到原則1。實際上確實是這樣的,但是為了不會出現(xiàn)過早重傳,才添加了規(guī)則c,如果沒有規(guī)則c,那么萬一在重傳定時器到期前,發(fā)送了一些數(shù)據(jù),這樣在定時器到期后,除了很早發(fā)送的數(shù)據(jù)能收到ACK外,其它稍晚些發(fā)送的數(shù)據(jù)的ACK都將不會到來,因此這些數(shù)據(jù)都將被重傳。有了規(guī)則c之后,只要有分段ACK到來,則重置重傳定時器,這很合理,因此大多數(shù)正常情況下,從數(shù)據(jù)的發(fā)出到ACK的到來這段時間以及計算得到的RTT以及重傳定時器超時的時間這三者相差并不大,一個ACK到來后重置定時器可以保護后發(fā)的數(shù)據(jù)不被過早重傳。
這里面還有一些細節(jié)需要說明。一個ACK到來了,說明后續(xù)的ACK很可能會依次到來,也就是說丟失的可能性并不大,另外,即使真的有后發(fā)的TCP分段丟失現(xiàn)象發(fā)生,也會在最多2倍定時器超時時間的范圍內(nèi)被重傳(假設(shè)該報文是第一個報文發(fā)出啟動定時器之后馬上發(fā)出的,丟失了,第一個報文的ACK到來后又重啟了定時器,又經(jīng)過了一個超時時間才會被重傳)。雖然這里還沒有涉及擁塞控制,但是可見網(wǎng)絡(luò)擁塞會引起丟包,丟包會引起重傳,過度重傳反過來加重網(wǎng)絡(luò)擁塞,設(shè)置規(guī)則c的結(jié)果可以緩解過多的重傳,畢竟將啟動定時器之后發(fā)送的數(shù)據(jù)的重傳超時時間拉長了最多一倍左右。最多一倍左右的超時偏差做到了原則2,即“這個長期收不到中長期不能和測量的RTT相隔太遠”。
還有一點,如果是一個發(fā)送序列的最后一個分段丟失了,后面就不會收到冗余ACK,這樣就只能等到超時了,并且超時時間幾乎是肯定會比定時器超時時間更長。如果這個分段是在發(fā)送序列的靠后的時間發(fā)送的且和前面的發(fā)送時間相隔時間較遠,則其超時時間不會很大,反之就會比較大。
疑難雜癥6:何時測量RTT
目前很多TCP實現(xiàn)了時間戳,這樣就方便多了,發(fā)送端再也不需要保存發(fā)送分段的時間了,只需要將其放入?yún)f(xié)議頭的時間戳字段,然后接收端將其回顯在ACK即可,然后發(fā)送端收到ACK后,取出時間戳,和當前時間做算術(shù)差,即可完成一次RTT的測量。
3.2.3.數(shù)據(jù)順序性基本上傳輸可靠性是靠序列號實現(xiàn)的。
疑難雜癥7:確認號和超時重傳
確認號是一個很詭異的東西,因為TCP的發(fā)送端對于發(fā)送出去的一個數(shù)據(jù)序列,它只要收到一個確認號就認為確認號前面的數(shù)據(jù)都被收到了,即使前面的某個確認號丟失了,也就是說,發(fā)送端只認最后一個確認號。這是合理的,因為確認號是接收端發(fā)出的,接收端只確認按序到達的最后一個TCP分段。
另外,發(fā)送端重發(fā)了一個TCP報文并且接收到該TCP分段的確認號,并不能說明這個重發(fā)的報文被接收了,也可能是數(shù)據(jù)早就被接收了,只是由于其ACK丟失或者其ACK延遲到達導(dǎo)致了超時。值得說明的是,接收端會丟棄任何重復(fù)的數(shù)據(jù),即使丟棄了重復(fù)的數(shù)據(jù),其ACK還是會照發(fā)不誤的。
標準的早期TCP實現(xiàn)為,只要一個TCP分段丟失,即使后面的TCP分段都被完整收到,發(fā)送端還是會重傳從丟失分段開始的所有報文,這就會導(dǎo)致一個問題,那就是重傳風(fēng)暴,一個分段丟失,引起大量的重傳。這種風(fēng)暴實則不必要的,因為大多數(shù)的TCP實現(xiàn)中,接收端已經(jīng)緩存了亂序的分段,這些被重傳的丟失分段之后的分段到達接收端之后,很大的可能性是被丟棄。關(guān)于這一點在擁塞控制被引入之后還會提及(問題先述為快:本來報文丟失導(dǎo)致超時就說明網(wǎng)絡(luò)很可能已然擁塞,重傳風(fēng)暴只能加重其擁塞程度)。
疑難雜癥8:亂序數(shù)據(jù)緩存以及選擇確認
TCP是保證數(shù)據(jù)順序的,但是并不意味著它總是會丟棄亂序的TCP分段,具體會不會丟棄是和具體實現(xiàn)相關(guān)的,RFC建議如果內(nèi)存允許,還是要緩存這些亂序到來的分段,然后實現(xiàn)一種機制等到可以拼接成一個按序序列的時候?qū)⒕彺娴姆侄纹唇,這就類似于IP協(xié)議中的分片一樣,但是由于IP數(shù)據(jù)報是不確認的,因此IP協(xié)議的實現(xiàn)必須緩存收到的任何分片而不能將其丟棄,因為丟棄了一個IP分片,它就再也不會到來了。
現(xiàn)在,TCP實現(xiàn)了一種稱為選擇確認的方式,接收端會顯式告訴發(fā)送端需要重傳哪些分段而不需要重傳哪些分段。這無疑避免了重傳風(fēng)暴。
疑難雜癥9:TCP序列號的回繞的問題
TCP的序列號回繞會引起很多的問題,比如序列號為s的分段發(fā)出之后,m秒后,序列號比s小的序列號為j的分段發(fā)出,只不過此時的j比上一個s多了一圈,這就是回繞問題,那么如果這后一個分段到達接收端,這就會引發(fā)徹底亂序-本來j該在s后面,結(jié)果反而到達前面了,這種亂序是tcp協(xié)議檢查不出來的。我們仔細想一下,這種情況確實會發(fā)生,數(shù)據(jù)分段并不是一個字節(jié)一個字節(jié)發(fā)送出去的,如果存在一個速率為1Gbps的網(wǎng)絡(luò),TCP發(fā)送端1秒會發(fā)送125MB的數(shù)據(jù),32位的序列號空間能傳輸2的32次方個字節(jié),也就是說32秒左右就會發(fā)生回繞,我們知道這個值遠小于MSL值,因此會發(fā)生的。
有個細節(jié)可能會引起誤會,那就是TCP的窗口大小空間是序列號空間的一半,這樣恰好在滿載情況下,數(shù)據(jù)能填滿發(fā)送窗口和接收窗口,序列號空間正好夠用。然而事實上,TCP的初始序列號并不是從0開始的,而是隨機產(chǎn)生的(當然要輔助一些更精妙的算法),因此如果初始序列號比較接近2的32次方,那么很快就會回繞。
當然,如今可以用時間戳選項來輔助作為序列號的一個識別的部分,接收端遇到回繞的情況,需要比較時間戳,我們知道,時間戳是單調(diào)遞增的,雖然也會回繞,然而回繞時間卻要長很多。這只是一種策略,在此不詳談。還有一個很現(xiàn)實的問題,理論上序列號會回繞,但是實際上,有多少TCP的端點主機直接架設(shè)在1G的網(wǎng)絡(luò)線纜兩端并且接收方和發(fā)送方的窗口還能恰好被同時填滿。另外,就算發(fā)生了回繞,也不是一件特別的事情,回繞在計算機里面太常見了,只需要能識別出來即可解決,對于TCP的序列號而言,在高速網(wǎng)絡(luò)(點對點網(wǎng)絡(luò)或者以太網(wǎng))的兩端,數(shù)據(jù)發(fā)生亂序的可能性很小,因此當收到一個序列號突然變?yōu)?或者終止序列號小于起始序列號的情況后,很容易辨別出來,只需要和前一個確認的分段比較即可,如果在一個經(jīng)過路由器的網(wǎng)絡(luò)兩端,會引發(fā)IP數(shù)據(jù)報的順序重排,對于TCP而言,雖然還會發(fā)生回繞,也會慢得多,且考慮到擁塞窗口(目前還沒有引入)一般不會太大,窗口也很難被填滿到65536。
3.2.4.端到端的流量控制端到端的流量控制使用滑動窗口來實現(xiàn);瑒哟翱诘脑矸浅:唵,基本就是一個生產(chǎn)者/消費者模型
疑難雜癥10:流量控制的真實意義
很多人以為流量控制會很有效的協(xié)調(diào)兩端的流量匹配,確實是這樣,但是如果你考慮到網(wǎng)絡(luò)的利用率問題,TCP的流量控制機制就不那么完美了,造成這種局面的原因在于,滑動窗口只是限制了最大發(fā)送的數(shù)據(jù),卻沒有限制最小發(fā)送的數(shù)據(jù),結(jié)果導(dǎo)致一些很小的數(shù)據(jù)被封裝成TCP分段,報文協(xié)議頭所占的比例過于大,造成網(wǎng)絡(luò)利用率下降,這就引出了接下來的內(nèi)容,那就是端到端意義的tcp協(xié)議效率。
~~~~~~~~~~~~~~~~~~~~
承上啟下
終于到了闡述問題的時候了,以上的TCP協(xié)議實現(xiàn)的非常簡單,這也是TCP的標準實現(xiàn),然而很快我們就會發(fā)現(xiàn)各種各樣的問題。這些問題導(dǎo)致了標準化協(xié)會對tcp協(xié)議進行了大量的修補,這些修補雜糅在一起讓人們有些云里霧里,不知所措。本文檔就旨在分離這些雜亂的情況,實際上,根據(jù)RFC,這些雜亂的情況都是可以找到其單獨的發(fā)展軌跡的。
~~~~~~~~~~~~~~~~~~~~
4.端到端意義上的tcp協(xié)議效率4.1.三個問題以及解決問題1描述:接收端處理慢,導(dǎo)致接收窗口被填滿
這明顯是速率不匹配引發(fā)的問題,然而即使速率不匹配,只要滑動窗口能協(xié)調(diào)好它們的速率就好,要快都快,要慢都慢,事實上滑動窗口在這一點上做的很好。但是如果我們不得不從效率上來考慮問題的話,事實就不那么樂觀了?紤]此時接收窗口已然被填滿,慢速的應(yīng)用程序慢騰騰的讀取了一個字節(jié),空出一個位置,然后通告給TCP的發(fā)送端,發(fā)送端得知空出一個位置,馬上發(fā)出一個字節(jié),又將接收端填滿,然后接收應(yīng)用程序又一次慢騰騰...這就是糊涂窗口綜合癥,一個大多數(shù)人都很熟悉的詞。這個問題極大的浪費了網(wǎng)絡(luò)帶寬,降低了網(wǎng)絡(luò)利用率。好比從大同拉100噸煤到北京需要一輛車,拉1Kg煤到北京也需要一輛車(超級夸張的一個例子,請不要相信),但是一輛車開到北京的開銷是一定的...
問題1解決:窗口通告
對于問題1,很顯然問題出在接收端,我們沒有辦法限制發(fā)送端不發(fā)送小分段,但是卻可以限制接收端通告小窗口,這是合理的,這并不影響應(yīng)用程序,此時經(jīng)典的延遲/吞吐量反比律將不再適用,因為接收窗口是滿的,其空出一半空間表示還有一半空間有數(shù)據(jù)沒有被應(yīng)用讀取,和其空出一個字節(jié)的空間的效果是一樣的,因此可以限制接收端當窗口為0時,直接通告給發(fā)送端以阻止其繼續(xù)發(fā)送數(shù)據(jù),只有當其接收窗口再次達到MSS的一半大小的時候才通告一個不為0的窗口,此前對于所有的發(fā)送端的窗口probe分段(用于探測接收端窗口大小的probe分段,由TCP標準規(guī)定),全部通告窗口為0,這樣發(fā)送端在收到窗口不為0的通告,那么肯定是一個比較大的窗口,因此發(fā)送端可以一次性發(fā)出一個很大的TCP分段,包含大量數(shù)據(jù),也即拉了好幾十噸的煤到北京,而不是只拉了幾公斤。
即,限制窗口通告時機,解決糊涂窗口綜合癥
問題2描述:發(fā)送端持續(xù)發(fā)送小包,導(dǎo)致窗口閑置
這明顯是發(fā)送端引起的問題,此時接收端的窗口開得很大,然而發(fā)送端卻不積累數(shù)據(jù),還是一味的發(fā)送小塊數(shù)據(jù)分段。只要發(fā)送了任和的分段,接收端都要無條件接收并且確認,這完全符合TCP規(guī)范,因此必然要限制發(fā)送端不發(fā)送這樣的小分段。
問題2解決:Nagle算法
Nagel算法很簡單,標準的Nagle算法為:
IF 數(shù)據(jù)的大小和窗口的大小都超過了MSS
Then 發(fā)送數(shù)據(jù)分段
ELSE
IF 還有發(fā)出的TCP分段的確認沒有到來
Then 積累數(shù)據(jù)到發(fā)送隊列的末尾的TCP分段
ELSE
發(fā)送數(shù)據(jù)分段
EndIF
EndIF
可是后來,這個算法變了,變得更加靈活了,其中的:
IF 還有發(fā)出的TCP分段的確認沒有到來
變成了
IF 還有發(fā)出的不足MSS大小的TCP分段的確認沒有到來
這樣如果發(fā)出了一個MSS大小的分段還沒有被確認,后面也是可以隨時發(fā)送一個小分段的,這個改進降低了算法對延遲時間的影響。這個算法體現(xiàn)了一種自適應(yīng)的策略,越是確認的快,越是發(fā)送的快,雖然Nagle算法看起來在積累數(shù)據(jù)增加吞吐量的同時也加大的時延,可事實上,如果對于類似交互式的應(yīng)用,時延并不會增加,因為這類應(yīng)用回復(fù)數(shù)據(jù)也是很快的,比如Telnet之類的服務(wù)必然需要回顯字符,因此能和對端進行自適應(yīng)協(xié)調(diào)。
注意,Nagle算法是默認開啟的,但是卻可以關(guān)閉。如果在開啟的情況下,那么它就嚴格按照上述的算法來執(zhí)行。
問題3.確認號(ACK)本身就是不含數(shù)據(jù)的分段,因此大量的確認號消耗了大量的帶寬
這是TCP為了確?煽啃詡鬏?shù)囊?guī)范,然而大多數(shù)情況下,ACK還是可以和數(shù)據(jù)一起捎帶傳輸?shù)。如果沒有捎帶傳輸,那么就只能單獨回來一個ACK,如果這樣的分段太多,網(wǎng)絡(luò)的利用率就會下降。從大同用火車拉到北京100噸煤,為了確認煤已收到,北京需要派一輛同樣的火車空載開到大同去復(fù)命,因為沒有別的交通工具,只有火車。如果這位復(fù)命者剛開著一列火車走,又從大同來了一車煤,這拉煤的哥們兒又要開一列空車去復(fù)命了。
問題3的解決:
RFC建議了一種延遲的ACK,也就是說,ACK在收到數(shù)據(jù)后并不馬上回復(fù),而是延遲一段可以接受的時間,延遲一段時間的目的是看能不能和接收方要發(fā)給發(fā)送方的數(shù)據(jù)一起回去,因為tcp協(xié)議頭中總是包含確認號的,如果能的話,就將ACK一起捎帶回去,這樣網(wǎng)絡(luò)利用率就提高了。往大同復(fù)命的確認者不必開一輛空載火車回大同了,此時北京正好有一批貨物要送往大同,這位復(fù)命者搭著這批貨的火車返回大同。
如果等了一段可以接受的時間,還是沒有數(shù)據(jù)要發(fā)往發(fā)送端,此時就需要單獨發(fā)送一個ACK了,然而即使如此,這個延遲的ACK雖然沒有等到可以被捎帶的數(shù)據(jù)分段,也可能等到了后續(xù)到來的TCP分段,這樣它們就可以取最大者一起返回了,要知道,TCP的確認號是收到的按序報文的最后一個字節(jié)的后一個字節(jié)。最后,RFC建議,延遲的ACK最多等待兩個分段的積累確認。
4.2.分析三個問題之間的關(guān)聯(lián)三個問題導(dǎo)致的結(jié)果是相同的,但是要知道它們的原因本質(zhì)上是不同的,問題1幾乎總是出現(xiàn)在接收端窗口滿的情況下,而問題2幾乎總是發(fā)生在窗口閑置的情況下,問題3看起來是最無聊的,然而由于TCP的要求,必須要有確認號,而且一個確認號就需要一個TCP分段,這個分段不含數(shù)據(jù),無疑是很小的。
三個問題都導(dǎo)致了網(wǎng)絡(luò)利用率的降低。雖然兩個問題導(dǎo)致了同樣的結(jié)果,但是必須認識到它們是不同的問題,很自然的將這些問題的解決方案匯總在一起,形成一個全局的解決方案,這就是如今的操作系統(tǒng)中的解決方案。
4.3.問題的雜糅情況疑難雜癥11:糊涂窗口解決方案和Nagle算法
糊涂窗口綜合癥患者希望發(fā)送端積累TCP分段,而Nagle算法確實保證了一定的TCP分段在發(fā)送端的積累,另外在延遲ACK的延遲的那一會時間,發(fā)送端會利用這段時間積累數(shù)據(jù)。然而這卻是三個不同的問題。Nagle算法可以緩解糊涂窗口綜合癥,卻不是治本的良藥。
疑難雜癥12:Nagle算法和延遲ACK
延遲ACK會延長ACK到達發(fā)送端的時間,由于標準Nagle算法只允許一個未被確認的TCP分段,那無疑在接收端,這個延遲的ACK是毫無希望等待后續(xù)數(shù)據(jù)到來最終進行積累確認的,如果沒有數(shù)據(jù)可以捎帶這個ACK,那么這個ACK只有在延遲確認定時器超時的時候才會發(fā)出,這樣在等待這個ACK的過程中,發(fā)送端又積累了一些數(shù)據(jù),因此延遲ACK實際上是在增加延遲的代價下加強了Nagle算法。在延遲ACK加Nagle算法的情況下,接收端只有不斷有數(shù)據(jù)要發(fā)回,才能同時既保證了發(fā)送端的分段積累,又保證了延遲不增加,同時還沒有或者很少有空載的ACK。
要知道,延遲ACK和Nagle是兩個問題的解決方案。
疑難雜癥13:到底何時可以發(fā)送數(shù)據(jù)
到底何時才能發(fā)送數(shù)據(jù)呢?如果單從Nagle算法上看,很簡單,然而事實證明,情況還要更復(fù)雜些。如果發(fā)送端已經(jīng)排列了3個TCP分段,分段1,分段2,分段3依次被排入,三個分段都是小分段(不符合Nagle算法中立即發(fā)送的標準),此時已經(jīng)有一個分段被發(fā)出了,且其確認還沒有到來,請問此時能發(fā)送分段1和2嗎?如果按照Nagle算法,是不能發(fā)送的,但實際上它們是可以發(fā)送的,因為這兩個分段已經(jīng)沒有任何機會再積累新的數(shù)據(jù)了,新的數(shù)據(jù)肯定都積累在分段3上了。問題在于,分段還沒有積累到一定大小時,怎么還可以產(chǎn)生新的分段?這是可能的,但這是另一個問題,在此不談。
Linux的TCP實現(xiàn)在這個問題上表現(xiàn)的更加靈活,它是這么判斷能否發(fā)送的(在開啟了Nagle的情況下):
IF (沒有超過擁塞窗口大小的數(shù)據(jù)分段未確認 || 數(shù)據(jù)分段中包含F(xiàn)IN ) &&
數(shù)據(jù)分段沒有超越窗口邊界
Then
IF 分段在中間(上述例子中的分段1和2) ||
分段是緊急模式 ||
通過上述的Nagle算法(改進后的Nagle算法)
Then 發(fā)送分段
EndIF
EndIF
曾經(jīng)我也改過Nagle算法,確切的說不是修改Nagle算法,而是修改了“到底何時能發(fā)送數(shù)據(jù)”的策略,以往都是發(fā)送端判斷能否發(fā)送數(shù)據(jù)的,可是如果此時有延遲ACK在等待被捎帶,而待發(fā)送的數(shù)據(jù)又由于積累不夠或者其它原因不能發(fā)送,因此兩邊都在等,這其實在某些情況下不是很好。我所做的改進中對待何時能發(fā)送數(shù)據(jù)又增加了一種情況,這就是“ACK拉”的情況,一旦有延遲ACK等待發(fā)送,判斷一下有沒有數(shù)據(jù)也在等待發(fā)送,如果有的話,看看數(shù)據(jù)是否大到了一定程度,在此,我選擇的是MSS的一半:
IF (沒有超過擁塞窗口大小的數(shù)據(jù)分段未確認 || 數(shù)據(jù)分段中包含F(xiàn)IN ) &&
數(shù)據(jù)分段沒有超越窗口邊界
Then
IF 分段在中間(上述例子中的分段1和2) ||
分段是緊急模式 ||
通過上述的Nagle算法(改進后的Nagle算法)
Then 發(fā)送分段
EndIF
ELSE IF 有延遲ACK等待傳輸 &&
發(fā)送隊列中有待發(fā)送的TCP分段 &&
發(fā)送隊列的頭分段大小大于MSS的一半
Then 發(fā)送隊列頭分段且捎帶延遲ACK
EndIF
另外,發(fā)送隊列頭分段的大小是可以在統(tǒng)計意義上動態(tài)計算的,也不一定非要是MSS大小的一半。我們發(fā)現(xiàn),這種算法對于交互式網(wǎng)路應(yīng)用是自適應(yīng)的,你打字越快,特定時間內(nèi)積累的分段就越長,對端回復(fù)的越快(可以捎帶ACK),本端發(fā)送的也就越快(以Echo舉例會更好理解)。
疑難雜癥14:《TCP/IP詳解(卷一)》中Nagle算法的例子解讀
這個問題在網(wǎng)上搜了很多的答案,有的說RFC的建議,有的說別的。可是實際上這就是一個典型的“競態(tài)問題”:
首先服務(wù)器發(fā)了兩個分段:
數(shù)據(jù)段12:ack 14
數(shù)據(jù)段13:ack 14,54:56
然后客戶端發(fā)了兩個分段:
數(shù)據(jù)段14:ack 54,14:17
數(shù)據(jù)段15:ack 56,17:18
可以看到數(shù)據(jù)段14本來應(yīng)該確認56的,但是確認的卻是54。也就是說,數(shù)據(jù)段已經(jīng)移出隊列將要發(fā)送但還未發(fā)送的時候,數(shù)據(jù)段13才到來,軟中斷處理程序搶占了數(shù)據(jù)段14的發(fā)送進程,要知道此時只是把數(shù)據(jù)段14移出了隊列,還沒有更新任何的狀態(tài)信息,比如“發(fā)出但未被確認的分段數(shù)量”,此時軟中斷處理程序順利接收了分段13,然后更新窗口信息,并且檢查看有沒有數(shù)據(jù)要發(fā)送,由于分段14已經(jīng)移出隊列,下一個接受發(fā)送檢查的就是分段15了,由于狀態(tài)信息還沒有更新,因此分段15順利通過發(fā)送檢測,發(fā)送完成。
可以看Linux的源代碼了解相關(guān)信息,tcp_write_xmit這個函數(shù)在兩個地方會被調(diào)用,一個是TCP的發(fā)送進程中,另一個就是軟中斷的接收處理中,兩者在調(diào)用中的競態(tài)就會引起《詳解》中的那種情況。注意,這種不加鎖的發(fā)送方式是合理的,也是最高效的,因此TCP的處理語義會做出判斷,丟棄一切不該接收或者重復(fù)接收的分段的。
~~~~~~~~~~~~~~~~~~~~
承上啟下
又到了該承上啟下,到此為止,我們敘述的TCP還都是簡單的TCP,就算是簡單的TCP,也存在上述的諸多問題,就更別提繼續(xù)增加TCP的復(fù)雜性了。到此為止,我們的TCP都是端到端意義上的,然而實際上TCP要跑在IP網(wǎng)絡(luò)之上的,而IP網(wǎng)絡(luò)的問題是很多的,是一個很擁堵網(wǎng)絡(luò)。不幸的是,TCP的有些關(guān)于確認和可靠性的機制還會加重IP網(wǎng)絡(luò)的擁堵。
~~~~~~~~~~~~~~~~~~~~
5.IP網(wǎng)絡(luò)之上的TCP5.1.端到端的tcp協(xié)議和IP協(xié)議之間的矛盾端到端的TCP只能看到兩個節(jié)點,那就是自己和對方,它們是看不到任何中間的路徑的。可是IP網(wǎng)絡(luò)卻是一跳一跳的,它們的矛盾之處在于TCP的端到端流量控制必然會導(dǎo)致網(wǎng)絡(luò)擁堵。因為每條TCP連接的一端只知道它對端還有多少空間用于接收數(shù)據(jù),它們并不管到達對端的路徑上是否還有這么大的容量,事實上所有連接的這些空間加在一起將瞬間超過IP網(wǎng)絡(luò)的容量,因此TCP也不可能按照滑動窗口流量控制機制很理想的運行。
勢必需要一種擁塞控制機制,反應(yīng)路徑的擁塞情況。
疑難雜癥15:擁塞控制的本質(zhì)
由于TCP是端到端協(xié)議,因此兩端之間的控制范疇屬于流量控制,IP網(wǎng)絡(luò)的擁塞會導(dǎo)致TCP分段的丟失,由于TCP看不到中間的路由器,因此這種丟失只會發(fā)生中間路由器,當然兩個端點的網(wǎng)卡或者IP層丟掉數(shù)據(jù)分段也是TCP看不到的。因此擁塞控制必然作用于IP鏈路。事實上我們可以得知,只有在以下情況下?lián)砣刂撇艜鹱饔茫?br />a.兩個或兩個以上的連接(其中一個一定要是TCP,另一個可以是任意連接)經(jīng)過同一個路由器或者同一個鏈路時;
b.只有一個TCP連接,然而它經(jīng)過了一個路由器時。
其它情況下是不會擁塞的。因為一個TCP總是希望獨享整條網(wǎng)絡(luò)通路,而這對于多個連接而言是不可能的,必須保證TCP的公平性,這樣這種擁塞控制機制才合理。本質(zhì)上,擁塞的原因就是大家都想獨享全部帶寬資源,結(jié)果導(dǎo)致?lián)砣,這也是合理的,畢竟TCP看不到網(wǎng)絡(luò)的狀態(tài),同時這也決定了TCP的擁塞控制必須采用試探性的方式,最終到達一個足以引起其“反應(yīng)”的“刺激點”。
擁塞控制需要完成以下兩個任務(wù):1.公平性;2.擁塞之后退出擁塞狀態(tài)。
疑難雜癥16:影響擁塞的因素
我們必須認識到擁塞控制是一個整體的機制,它不偏向于任何TCP連接,因此這個機制內(nèi)在的就包含了公平性。那么影響擁塞的因素都有什么呢?具有諷刺意味的是,起初TCP并沒有擁塞控制機制,正是TCP的超時重傳風(fēng)暴(一個分段丟失造成后續(xù)的已經(jīng)發(fā)送的分段均被重傳,而這些重傳大多數(shù)是不必要的)加重了網(wǎng)絡(luò)的擁塞。因此重傳必然不能過頻,必須把重傳定時器的超時時間設(shè)置的稍微長一些,而這一點在單一重傳定時器的設(shè)計中得到了加強。除此TCP自身的因素之外,其它所有的擁塞都可以靠擁塞控制機制來自動完成。
另外,不要把路由器想成一種線速轉(zhuǎn)發(fā)設(shè)備,再好的路由器只要接入網(wǎng)絡(luò),總是會拉低網(wǎng)絡(luò)的總帶寬,因此即使只有一個TCP連接,由于TCP的發(fā)送方總是以發(fā)送鏈路的帶寬發(fā)送分段,這些分段在經(jīng)過路由器的時候排隊和處理總是會有時延,因此最終肯定會丟包的。
最后,丟包的延后性也會加重擁塞。假設(shè)一個TCP連接經(jīng)過了N個路由器,前N-1個路由器都能順利轉(zhuǎn)發(fā)TCP分段,但是最后一個路由器丟失了一個分段,這就導(dǎo)致了這些丟失的分段浪費了前面路由器的大量帶寬。
5.2.擁塞控制的策略在介紹擁塞控制之前,首先介紹一下?lián)砣翱,它實際上表示的也是“可以發(fā)送多少數(shù)據(jù)”,然而這個和接收端通告的接收窗口意義是不一樣的,后者是流量控制用的窗口,而前者是擁塞控制用的窗口,體現(xiàn)了網(wǎng)絡(luò)擁塞程度。
擁塞控制整體上分為兩類,一類是試探性的擁塞探測,另一類則是擁塞避免(注意,不是常規(guī)意義上的擁塞避免)。
5.2.1.試探性的擁塞探測分為兩類,之一是慢啟動,之二是擁塞窗口加性擴大(也就是熟知的擁塞避免,然而這種方式是避免不了擁塞的)。5.2.2.擁塞避免方式擁塞控制旨在還沒有發(fā)生擁塞的時候就先提醒發(fā)送端,網(wǎng)絡(luò)擁塞了,這樣發(fā)送端就要么可以進入快速重傳/快速恢復(fù)或者顯式的減小擁塞窗口,這樣就避免網(wǎng)絡(luò)擁塞的一沓糊涂之后出現(xiàn)超時,從而進入慢啟動階段。5.2.3.快速重傳和快速恢復(fù)。所謂快速重傳/快速恢復(fù)是針對慢啟動的,我們知道慢啟動要從1個MSS開始增加擁塞窗口,而快速重傳/快速恢復(fù)則是一旦收到3個冗余ACK,不必進入慢啟動,而是將擁塞窗口縮小為當前閥值的一半加上3,然后如果繼續(xù)收到冗余ACK,則將擁塞窗口加1個MSS,直到收到一個新的數(shù)據(jù)ACK,將窗口設(shè)置成正常的閥值,開始加性增加的階段。 當進入快速重傳時,為何要將擁塞窗口縮小為當前閥值的一半加上3呢?加上3是基于數(shù)據(jù)包守恒來說的,既然已經(jīng)收到了3個冗余ACK,說明有三個數(shù)據(jù)分段已經(jīng)到達了接收端,既然三個分段已經(jīng)離開了網(wǎng)絡(luò),那么就是說可以在發(fā)送3個分段了,只要再收到一個冗余ACK,這也說明1個分段已經(jīng)離開了網(wǎng)絡(luò),因此就將擁塞窗口加1個MSS。直到收到新的ACK,說明直到收到第三個冗余ACK時期發(fā)送的TCP分段都已經(jīng)到達對端了,此時進入正常階段開始加性增加擁塞窗口。
疑難雜癥17:超時重傳和收到3個冗余ACK后重傳
這兩種重傳的意義是不同的,超時重傳一般是因為網(wǎng)絡(luò)出現(xiàn)了嚴重擁塞(沒有一個分段到達,如果有的話,肯定會有ACK的,若是正常ACK,則重置重傳定時器,若是冗余ACK,則可能是個別報文丟失或者被重排序,若連續(xù)3個冗余ACK,則很有可能是個別分段丟失),此時需要更加嚴厲的縮小擁塞窗口,因此此時進入慢啟動階段。而收到3個冗余ACK后說明確實有中間的分段丟失,然而后面的分段確實到達了接收端,這因為這樣才會發(fā)送冗余ACK,這一般是路由器故障或者輕度擁塞或者其它不太嚴重的原因引起的,因此此時擁塞窗口縮小的幅度就不能太大,此時進入快速重傳/快速恢復(fù)階段。
疑難雜癥18:為何收到3個冗余ACK后才重傳
這是一種權(quán)衡的結(jié)構(gòu),收到兩個或者一個冗余ACK也可以重傳,但是這樣的話可能或造成不必要的重傳,因為兩個數(shù)據(jù)分段發(fā)生亂序的可能性不大,超過三個分段發(fā)生亂序的可能性才大,換句話說,如果僅僅收到一個亂序的分段,那很可能被中間路由器重排了,那么另一個分段很可能馬上就到,然而如果連續(xù)收到了3個分段都沒能彌補那個缺漏,那很可能是它丟失了,需要重傳。因此3個冗余ACK是一種權(quán)衡,在減少不必要重傳和確實能檢測出單個分段丟失之間所作的權(quán)衡。
注意,冗余ACK是不能捎帶的。
疑難雜癥19:乘性減和加性增的深層含義
為什么是乘性減而加性增呢?擁塞窗口的增加受惠的只是自己,而擁塞窗口減少受益的大家,可是自己卻受到了傷害。哪一點更重要呢?我們知道TCP的擁塞控制中內(nèi)置了公平性,恰恰就是這種乘性減實現(xiàn)了公平性。擁塞窗口的1個MSS的改變影響一個TCP發(fā)送者,為了使得自己擁塞窗口的減少影響更多的TCP發(fā)送者-讓更多的發(fā)送者受益,那么采取了乘性減的策略。
當然,BIC算法提高了加性增的效率,不再一個一個MSS的加,而是一次加比較多的MSS,采取二分查找的方式逐步找到不丟包的點,然后加性增。
疑難雜癥20:TCP連接的傳輸穩(wěn)定狀態(tài)是什么
首先,先說一下發(fā)送端的發(fā)送窗口怎么確定,它取的是擁塞窗口和接收端通告窗口的最小值。然后,我們提出三種發(fā)送窗口的穩(wěn)定狀態(tài):
a.IP互聯(lián)網(wǎng)絡(luò)上接收端擁有大窗口的經(jīng)典鋸齒狀
b.IP互聯(lián)網(wǎng)絡(luò)上接收端擁有小窗口的直線狀態(tài)
c.直連網(wǎng)絡(luò)端點間的滿載狀態(tài)下的直線狀態(tài)
其中a是大多數(shù)的狀態(tài),因為一般而言,TCP連接都是建立在互聯(lián)網(wǎng)上的,而且是大量的,比如Web瀏覽,電子郵件,網(wǎng)絡(luò)游戲,F(xiàn)tp下載等等。TCP發(fā)送端用慢啟動或者擁塞避免方式不斷增加其擁塞窗口,直到丟包的發(fā)生,然后進入慢啟動或者擁塞避免階段(要看是由于超時丟包還是由于冗余ACK丟包),此時發(fā)送窗口將下降到1或者下降一半,這種情況下,一般接收端的接收窗口是比較大的,畢竟IP網(wǎng)絡(luò)并不是什么很快速的網(wǎng)絡(luò),一般的機器處理速度都很快。
但是如果接收端特別破,處理速度很慢,就會導(dǎo)致其通告一個很小的窗口,這樣的話,即使擁塞窗口再大,發(fā)送端也還是以通告的接收窗口為發(fā)送窗口,這樣就不會發(fā)生擁塞。最后,如果唯一的TCP連接運行在一個直連的兩臺主機上,那么它將獨享網(wǎng)絡(luò)帶寬,這樣該TCP的數(shù)據(jù)流在最好的情況下將填滿網(wǎng)絡(luò)管道(我們把網(wǎng)絡(luò)管道定義為帶寬和延時的乘積),其實在這種情況下是不存在擁塞的,就像你一個人獨自徘徊在飄雨黃昏的街頭一樣...
5.2.4.主動的擁塞避免前面我們描述的擁塞控制方式都是試探性的檢測,然后擁塞窗口被動的進行乘性減,這樣在接收端窗口很大的情況下(一般都是這樣,網(wǎng)絡(luò)擁堵,分段就不會輕易到達接收端,導(dǎo)致接收端的窗口大量空置)就可能出現(xiàn)鋸齒形狀的“時間-窗口”圖,類似在一個擁堵的北京X環(huán)上開車,發(fā)送機發(fā)動,車開動,停止,等待,發(fā)動機發(fā)動,車開動...聽聲音也能聽出來。
雖然TCP看不到下面的IP網(wǎng)絡(luò),然而它還是可以通過檢測RTT的變化以及擁塞窗口的變化推算出IP網(wǎng)絡(luò)的擁堵情況的。就比方說北京東四環(huán)一家快遞公司要持續(xù)送快遞到西四環(huán),當發(fā)件人發(fā)現(xiàn)貨到時間越來越慢的時候,他會意識到“下班高峰期快到了”...
可以通過持續(xù)觀測RTT的方式來主動調(diào)整擁塞窗口的大小而不是一味的加性增。然而還有更猛的算法,那就是計算兩個差值的乘積:
(當前擁塞窗口-上一次擁塞窗口)x(當前的RTT-上一次的RTT)
如果結(jié)果是正數(shù),則擁塞窗口減少1/8,若結(jié)果是負數(shù)或者0,則窗口增加一個MSS。注意,這回不再是乘性減了,可以看出,減的幅度比乘性減幅度小,這是因為這種擁塞控制是主動的,而不是之前的那種被動的試探方式。在試探方式中,乘性減以一種懲罰的方式實現(xiàn)了公平性,而在這里的主動方式中,當意識到要擁塞的時候,TCP發(fā)送者主動的減少了擁塞窗口,為了對這種自首行為進行鼓勵,采用了小幅減少擁塞窗口的方式。需要注意的是,在擁塞窗口減小的過程中,乘積的前一個差值是負數(shù),如果后一個差值也是負數(shù),那么結(jié)果就是繼續(xù)縮減窗口,直到擁塞緩解或者窗口減少到了一定程度,使得后一個差值成了正數(shù)或者0,這種情況下,其實后一個差值只能變?yōu)?。
疑難雜癥21:路由器和TCP的互動
雖然有了5.2.4節(jié)介紹的主動的擁塞檢測,那么路由器能不能做點什么幫助檢測擁塞呢?這種對路由器的擴展是必要的,要知道,每天有無數(shù)的TCP要通過路由器,雖然路由器不管tcp協(xié)議的任何事(當然排除連接跟蹤之類的,這里所說的是標準的IP路由器),但是它卻能以一種很簡單的方式告訴TCP的兩端IP網(wǎng)絡(luò)發(fā)生了擁堵,這種方式就是當路由器檢測到自己發(fā)生輕微擁堵的時候隨機的丟包,隨機丟包而不是連續(xù)丟包對于TCP而言是有重大意義的,隨機丟包會使TCP發(fā)現(xiàn)丟棄了個別的分段而后續(xù)的分段仍然會到達接收端,這樣TCP發(fā)送端就會接收到3個冗余ACK,然后進入快速重傳/快速恢復(fù)而不是慢啟動。
這就是路由器能幫TCP做的事。
6.其它疑難雜癥22:如何學(xué)習(xí)TCP
很多人發(fā)帖問TCP相關(guān)的內(nèi)容,接下來稀里嘩啦的就是讓看《TCP/IP詳解》和《Unix網(wǎng)絡(luò)編程》里面的特定章節(jié),我覺得這種回答很不負責(zé)任。因為我并不認為這兩本書有多大的幫助,寫得確實很不錯,然而可以看出Richard Stevens是一個實用主義者,他喜歡用實例來解釋一切,《詳解》通篇都是用tcpdump的輸出來講述的,這種方式只是適合于已經(jīng)對TCP很理解的人,然而大多數(shù)的人是看不明白的。
如果想從設(shè)計的角度來說,這兩本書都很爛。我覺得應(yīng)該先看點入門的,比如Wiki之類的,然后看RFC文檔,793,896,1122等),這樣你就明白TCP為何這么設(shè)計了,而這些你永遠都不能在Richard Stevens的書中得到。最后,如果你想,那么就看一點Richard Stevens的書,最重要的還是寫點代碼或者敲點命令,然后抓包自己去分析。
疑難雜癥23:Linux,Windows和網(wǎng)絡(luò)編程
我覺得在Linux上寫點TCP的代碼是很不錯的,如果有BSD那就更好了。不推薦用Winsock學(xué)習(xí)TCP。雖然微軟聲稱自己的API都是為了讓事情更簡單,但實際上事情卻更復(fù)雜了,如果你用Winsock學(xué)習(xí),你就要花大量的時候去掌握一些和網(wǎng)絡(luò)編程無關(guān)但是windows平臺上卻少不了的東西
6.1.總結(jié)tcp協(xié)議是一個端到端的協(xié)議,雖然話說它是一個帶流量控制,擁塞控制的協(xié)議,然而正是因為這些所謂的控制才導(dǎo)致了TCP變得復(fù)雜。同時這些特性是互相雜糅的,流量控制帶來了很多問題,解決這些問題的方案最終又帶來了新的問題,這些問題在解決的時候都只考慮了端到端的意義,但實際上TCP需要盡力而為的IP提供的網(wǎng)絡(luò),因此擁塞成了最終的結(jié)癥,擁塞控制算法的改進也成了一個單獨的領(lǐng)域。
在學(xué)習(xí)TCP的過程中,切忌一鍋粥一盤棋的方式,,一定要分清楚每一個算法到底是解決什么問題的,每一個問題和其他問題到底有什么關(guān)聯(lián),這些問題的解決方案之間有什么關(guān)聯(lián),另外TCP的發(fā)展歷史也最好了解一下,這些都搞明白了,tcp協(xié)議就徹底被你掌控了。接下來你就可以學(xué)習(xí)Socket API了,然后高效的TCP程序出自你手!
本文關(guān)鍵詞:tcp協(xié)議,由筆耕文化傳播整理發(fā)布。
本文編號:195416
本文鏈接:http://sikaile.net/wenshubaike/xxkj/195416.html
最近更新
教材專著