原创

TCP在Linux系统下的参数解析及设置

上一章讲了 TCP 的四种定时器,其中一种是保活定时器,有三个参数控制这个保活定时器,那么我们能否改变这个配置呢?

网络分层
网络分层

从上图,我们可以理解,tcp 协议属于操作系统层面的协议,配置当然在操作系统上面修改,小编以 Linux 操作系统为例动态优化一下 tcp 保活参数。

1.查看保活定时器的三个参数

[root@localhost ~]# sysctl -a|grep "tcp_keepalive"
net.ipv4.tcp_keepalive_time = 7200
net.ipv4.tcp_keepalive_probes = 9
net.ipv4.tcp_keepalive_intvl = 75

解释: tcp_keepalive_time

一个连接需要 TCP 开始发送 keepalive 探测数据包之前的空闲时间,以秒为单位。

tcp_keepalive_probes

发送 TCP keepalive 探测数据包的最大数量,默认是 9.如果发送 9 个 keepalive 探测包后对端仍然没有响应,就关掉这个连接。

tcp_keepalive_intvl

发送两个 TCP keepalive 探测数据包的间隔时间,默认是 75 秒。

2.查看 MSL

[root@localhost ~]# sysctl -a|grep "tcp_fin_timeout"
net.ipv4.tcp_fin_timeout = 60

MSL 是报文段最大生存时间,它是任何报文段被丢弃前在网络内的最长时间。

3.动态修改参数

3.1 打开配置文件

vim /etc/sysctl.conf

3.2 增加配置在文件最后,保存退出

net.ipv4.tcp_keepalive_time = 1800

net.ipv4.tcp_fin_timeout = 59

上面讲 TCP 的保活定时器发送第一个 keepalive 探测包的时间改为 30 分钟,另外把 MSL 时间改成了 59 秒

3.3 刷新配置

sysctl -p

3.4 验证是否成功

sysctl -a|grep "tcp_keepalive"

4.其他 TCP 参数详解

下面的参数详解是我网上找的一个比较详细比较靠谱的说明,方便以后查阅。

tcp_syn_retries :INTEGER

默认值是 5

对于一个新建连接,内核要发送多少个 SYN 连接请求才决定放弃。不应该大于 255,默认值是 5,对应于 180 秒左右时间。(对于大负载而物理通信良好的网络而言,这个值偏高,可修改为 2.这个值仅仅是针对对外的连接,对进来的连接,是由 tcp_retries1 决定的)

tcp_synack_retries :INTEGER

默认值是 5

对于远端的连接请求 SYN,内核会发送 SYN + ACK 数据报,以确认收到上一个 SYN 连接请求包。这是所谓的三次握手( threeway handshake)机制的第二个步骤。这里决定内核在放弃连接之前所送出的 SYN+ACK 数目。不应该大于 255,默认值是 5,对应于 180 秒左右时间。(可以根据上面的 tcp_syn_retries 来决定这个值)

tcp_keepalive_time :INTEGER

默认值是 7200(2 小时)

当 keepalive 打开的情况下,TCP 发送 keepalive 消息的频率。(由于目前网络攻击等因素,造成了利用这个进行的攻击很频繁,曾经也有 cu 的朋友提到过,说如果 2 边建立了连接,然后不发送任何数据或者 rst/fin 消息,那么持续的时间是不是就是 2 小时,空连接攻击 tcp_keepalive_time 就是预防此情形的.我个人在做 nat 服务的时候的修改值为 1800 秒)

tcp_keepalive_probes:INTEGER

默认值是 9

TCP 发送 keepalive 探测以确定该连接已经断开的次数。(注意:保持连接仅在 SO_KEEPALIVE 套接字选项被打开是才发送.次数默认不需要修改,当然根据情形也可以适当地缩短此值.设置为 5 比较合适)

tcp_keepalive_intvl:INTEGER

默认值为 75

探测消息发送的频率,乘以 tcp_keepalive_probes 就得到对于从开始探测以来没有响应的连接杀除的时间。默认值为 75 秒,也就是没有活动的连接将在大约 11 分钟以后将被丢弃。(对于普通应用来说,这个值有一些偏大,可以根据需要改小.特别是 web 类服务器需要改小该值,15 是个比较合适的值)

tcp_retries1 :INTEGER

默认值是 3

放弃回应一个 TCP 连接请求前﹐需要进行多少次重试。RFC 规定最低的数值是 3﹐这也是默认值﹐根据 RTO 的值大约在 3 秒 - 8 分钟之间。(注意:这个值同时还决定进入的 syn 连接)

tcp_retries2 :INTEGER

默认值为 15

在丢弃激活(已建立通讯状况)的 TCP 连接之前﹐需要进行多少次重试。默认值为 15,根据 RTO 的值来决定,相当于 13-30 分钟(RFC1122 规定,必须大于 100 秒).(这个值根据目前的网络设置,可以适当地改小,我的网络内修改为了 5)

tcp_orphan_retries :INTEGER

默认值是 7

在近端丢弃 TCP 连接之前﹐要进行多少次重试。默认值是 7 个﹐相当于 50 秒 - 16 分钟﹐视 RTO 而定。如果您的系统是负载很大的 web 服务器﹐那么也许需要降低该值﹐这类 sockets 可能会耗费大量的资源。另外参的考 tcp_max_orphans 。(事实上做 NAT 的时候,降低该值也是好处显著的,我本人的网络环境中降低该值为 3)

tcp_fin_timeout :INTEGER

默认值是 60

对于本端断开的 socket 连接,TCP 保持在 FIN-WAIT-2 状态的时间。对方可能会断开连接或一直不结束连接或不可预料的进程死亡。默认值为 60 秒。 过去在 2.2 版本的内核中是 180 秒。您可以设置该值﹐但需要注意﹐如果您的机器为负载很重的 web 服务器﹐您可能要冒内存被大量无效数据报填满的风险﹐FIN-WAIT-2 sockets 的危险性低于 FIN-WAIT-1 ﹐因为它们最多只吃 1.5K 的内存﹐但是它们存在时间更长。另外参考 tcp_max_orphans。(事实上做 NAT 的时候,降低该值也是好处显著的,我本人的网络环境中降低该值为 30)

tcp_max_tw_buckets :INTEGER

默认值是 180000

系统在同时所处理的最大 timewait sockets 数目。如果超过此数的话﹐time-wait socket 会被立即砍除并且显示警告信息。之所以要设定这个限制﹐纯粹为了抵御那些简单的 DoS 攻击﹐千万不要人为的降低这个限制﹐不过﹐如果网络条件需要比默认值更多﹐则可以提高它(或许还要增加内存)。(事实上做 NAT 的时候最好可以适当地增加该值)

tcp_tw_recycle :BOOLEAN

默认值是 0

打开快速 TIME-WAIT sockets 回收。除非得到技术专家的建议或要求﹐请不要随意修改这个值。(做 NAT 的时候,建议打开它)

tcp_tw_reuse:BOOLEAN

默认值是 0

该文件表示是否允许重新应用处于 TIME-WAIT 状态的 socket 用于新的 TCP 连接(这个对快速重启动某些服务,而启动后提示端口已经被使用的情形非常有帮助)

tcp_max_orphans :INTEGER

缺省值是 8192

系统所能处理不属于任何进程的 TCP sockets 最大数量。假如超过这个数量﹐那么不属于任何进程的连接会被立即 reset,并同时显示警告信息。之所以要设定这个限制﹐纯粹为了抵御那些简单的 DoS 攻击﹐千万不要依赖这个或是人为的降低这个限制(这个值 Redhat AS 版本中设置为 32768,但是很多防火墙修改的时候,建议该值修改为 2000)

tcp_abort_on_overflow :BOOLEAN

缺省值是 0

当守护进程太忙而不能接受新的连接,就象对方发送 reset 消息,默认值是 false。这意味着当溢出的原因是因为一个偶然的触发,那么连接将恢复状态。只有在你确信守护进程真的不能完成连接请求时才打开该选项,该选项会影响客户的使用。(对待已经满载的 sendmail,apache 这类服务的时候,这个可以很快让客户端终止连接,可以给予服务程序处理已有连接的缓冲机会,所以很多防火墙上推荐打开它)

tcp_syncookies :BOOLEAN

默认值是 0

只有在内核编译时选择了 CONFIG_SYNCOOKIES 时才会发生作用。当出现 syn 等候队列出现溢出时象对方发送 syncookies。目的是为了防止 syn flood 攻击。

注意:该选项千万不能用于那些没有收到攻击的高负载服务器,如果在日志中出现 synflood 消息,但是调查发现没有收到 synflood 攻击,而是合法用户的连接负载过高的原因,你应该调整其它参数来提高服务器性能。参考:

tcp_max_syn_backlog

tcp_synack_retries

tcp_abort_on_overflow

syncookie 严重的违背 TCP 协议,不允许使用 TCP 扩展,可能对某些服务导致严重的性能影响(如 SMTP 转发)。(注意,该实现与 BSD 上面使用的 tcp proxy 一样,是违反了 RFC 中关于 tcp 连接的三次握手实现的,但是对于防御 syn-flood 的确很有用.)

tcp_stdurg :BOOLEAN

默认值为 0

使用 TCP urg pointer 字段中的主机请求解释功能。大部份的主机都使用老旧的 BSD 解释,因此如果您在 Linux 打开它﹐或会导致不能和它们正确沟通。

tcp_max_syn_backlog :INTEGER

对于那些依然还未获得客户端确认的连接请求﹐需要保存在队列中最大数目。对于超过 128Mb 内存的系统﹐默认值是 1024 ﹐低于 128Mb 的则为 128。如果服务器经常出现过载﹐可以尝试增加这个数字。 警告﹗假如您将此值设为大于 1024﹐最好修改 include/net/tcp.h 里面的 TCP_SYNQ_HSIZE ﹐以保持 TCP_SYNQ_HSIZE*16<=tcp_max_syn_backlog ﹐并且编进核心之内。(SYN Flood 攻击利用 TCP 协议散布握手的缺陷,伪造虚假源 IP 地址发送大量 TCP-SYN 半打开连接到目标系统,最终导致目标系统 Socket 队列资源耗 尽而无法接受新的连接。为了应付这种攻击,现代 Unix 系统中普遍采用多连接队列处理的方式来缓冲(而不是解决)这种攻击,是用一个基本队列处理正常的完 全连接应用(Connect()和 Accept() ),是用另一个队列单独存放半打开连接。这种双队列处理方式和其他一些系统内核措施(例如 Syn-Cookies/Caches)联合应用时,能够比较有效的缓解小规模的 SYN Flood 攻击(事实证明<1000p/s)加大 SYN 队列长度可以容纳更多等待连接的网络连接数,所以对 Server 来说可以考虑增大该值.)

tcp_window_scaling :INTEGER

缺省值为 1

该文件表示设置 tcp/ip 会话的滑动窗口大小是否可变。参数值为布尔值,为 1 时表示可变,为 0 时表示不可变。tcp/ip 通常使用的窗口最大可达到 65535 字节,对于高速网络,该值可能太小,这时候如果启用了该功能,可以使 tcp/ip 滑动窗口大小增大数个数量级,从而提高数据传输的能力(RFC 1323)。(对普通地百 M 网络而言,关闭会降低开销,所以如果不是高速网络,可以考虑设置为 0)

tcp_timestamps :BOOLEAN 缺省值为 1 Timestamps 用在其它一些东西中﹐可以防范那些伪造的 sequence 号码。一条 1G 的宽带线路或许会重遇到带 out-of-line 数值的旧 sequence 号码(假如它是由于上次产生的)。Timestamp 会让它知道这是个 '旧封包'。(该文件表示是否启用以一种比超时重发更精确的方法(RFC 1323)来启用对 RTT 的计算;为了实现更好的性能应该启用这个选项。)

tcp_sack :BOOLEAN

缺省值为 1

使用 Selective ACK﹐它可以用来查找特定的遗失的数据报--- 因此有助于快速恢复状态。该文件表示是否启用有选择的应答(Selective Acknowledgment),这可以通过有选择地应答乱序接收到的报文来提高性能(这样可以让发送者只发送丢失的报文段)。(对于广域网通信来说这个选项应该启用,但是这会增加对 CPU 的占用。)

tcp_fack :BOOLEAN

缺省值为 1

打开 FACK 拥塞避免和快速重传功能。(注意,当 tcp_sack 设置为 0 的时候,这个值即使设置为 1 也无效)

tcp_dsack :BOOLEAN

缺省值为 1

允许 TCP 发送"两个完全相同"的 SACK。

tcp_ecn :BOOLEAN

缺省值为 0

打开 TCP 的直接拥塞通告功能。

tcp_reordering :INTEGER

默认值是 3

TCP 流中重排序的数据报最大数量 。 (一般有看到推荐把这个数值略微调整大一些,比如 5)

tcp_retrans_collapse :BOOLEAN

缺省值为 1

对于某些有 bug 的打印机提供针对其 bug 的兼容性。(一般不需要这个支持,可以关闭它)

tcp_wmem(3个INTEGER变量): min, default, max

min:为 TCP socket 预留用于发送缓冲的内存最小值。每个 tcp socket 都可以在建议以后都可以使用它。默认值为 4096(4K)。

default:为 TCP socket 预留用于发送缓冲的内存数量,默认情况下该值会影响其它协议使用的 net.core.wmem_default 值,一般要低于 net.core.wmem_default 的值。默认值为 16384(16K)。

max: 用于 TCP socket 发送缓冲的内存最大值。该值不会影响 net.core.wmem_max,"静态"选择参数 SO_SNDBUF 则不受该值影响。默认值为 131072(128K)。(对于服务器而言,增加这个参数的值对于发送数据很有帮助,在我的网络环境中,修改为了 51200 131072 204800)

tcp_rmem (3个INTEGER变量): min, default, max

min:为 TCP socket 预留用于接收缓冲的内存数量,即使在内存出现紧张情况下 tcp socket 都至少会有这么多数量的内存用于接收缓冲,默认值为 8K。

default:为 TCP socket 预留用于接收缓冲的内存数量,默认情况下该值影响其它协议使用的 net.core.wmem_default 值。该值决定了在 tcp_adv_win_scale、tcp_app_win 和 tcp_app_win=0 默认值情况下,TCP 窗口大小为 65535。默认值为 87380

max:用于 TCP socket 接收缓冲的内存最大值。该值不会影响 net.core.wmem_max,"静态"选择参数 SO_SNDBUF 则不受该值影响。默认值为 128K。默认值为 87380*2 bytes。(可以看出,.max 的设置最好是 default 的两倍,对于 NAT 来说主要该增加它,我的网络里为 51200 131072 204800)

tcp_mem(3个INTEGER变量):low, pressure, high

low:当 TCP 使用了低于该值的内存页面数时,TCP 不会考虑释放内存。(理想情况下,这个值应与指定给 tcp_wmem 的第 2 个值相匹配 - 这第 2 个值表明,最大页面大小乘以最大并发请求数除以页大小 (131072 * 300 / 4096)。 )

pressure:当 TCP 使用了超过该值的内存页面数量时,TCP 试图稳定其内存使用,进入 pressure 模式,当内存消耗低于 low 值时则退出 pressure 状态。(理想情况下这个值应该是 TCP 可以使用的总缓冲区大小的最大值 (204800 * 300 / 4096)。 )

high:允许所有 tcp sockets 用于排队缓冲数据报的页面量。(如果超过这个值,TCP 连接将被拒绝,这就是为什么不要令其过于保守 (512000 * 300 / 4096) 的原因了。 在这种情况下,提供的价值很大,它能处理很多连接,是所预期的 2.5 倍;或者使现有连接能够传输 2.5 倍的数据。 我的网络里为 192000 300000 732000)

一般情况下这些值是在系统启动时根据系统内存数量计算得到的。

tcp_app_win : INTEGER

默认值是 31

保留 max(window/2^tcp_app_win, mss)数量的窗口由于应用缓冲。当为 0 时表示不需要缓冲。

tcp_adv_win_scale : INTEGER

默认值为 2

计算缓冲开销 bytes/2^tcp_adv_win_scale(如果 tcp_adv_win_scale > 0)或者 bytes-bytes/2^(-tcp_adv_win_scale)(如果 tcp_adv_win_scale <= 0)。

tcp_rfc1337 :BOOLEAN

缺省值为 0

这个开关可以启动对于在 RFC1337 中描述的"tcp 的 time-wait 暗杀危机"问题的修复。启用后,内核将丢弃那些发往 time-wait 状态 TCP 套接字的 RST 包.

tcp_low_latency : BOOLEAN

缺省值为 0

允许 TCP/IP 栈适应在高吞吐量情况下低延时的情况;这个选项一般情形是的禁用。(但在构建 Beowulf 集群的时候,打开它很有帮助)

tcp_westwood :BOOLEAN

缺省值为 0

启用发送者端的拥塞控制算法,它可以维护对吞吐量的评估,并试图对带宽的整体利用情况进行优化;对于 WAN 通信来说应该启用这个选项。

tcp_bic :BOOLEAN

缺省值为 0

为快速长距离网络启用 Binary Increase Congestion;这样可以更好地利用以 GB 速度进行操作的链接;对于 WAN 通信应该启用这个选项。

正文到此结束