您现在的位置是：网站首页 -> 底层开发文章内容

Linux下内核TCP参数优化(以CentOS为例)-itarticl.cc-IT技术类文章记录&分享

发布时间: 9年前【底层开发】 250人已围观【返回】

内核的优化跟服务器的优化一样，应本着稳定安全的原则。下面以64位的Centos5.5下的Squid服务器为例来说明，待客户端与服务器端建立TCP/IP连接后就会关闭SOCKET，服务器端连接的端口状态也就变为TIME_WAIT了。那是不是所有执行主动关闭的SOCKET都会进入TIME_WAIT状态呢？有没有什么情况使主动关闭的SOCKET直接进入CLOSED状态呢？答案是主动关闭的一方在发送最后一个ACK后就会进入TIME_WAIT状态，并停留2MSL（Max Segment LifeTime）时间，这个是TCP/IP必不可少的，也就是“解决”不了的。

TCP/IP的设计者如此设计，主要原因有两个：

防止上一次连接中的包迷路后重新出现，影响新的连接（经过2MSL时间后，上一次连接中所有重复的包都会消失）。

为了可靠地关闭TCP连接。主动关闭方发送的最后一个ACK（FIN）有可能会丢失，如果丢失，被动方会重新发FIN，这时如果主动方处于CLOSED状态，就会响应RST而不是ACK。所以主动方要处于TIME_WAIT状态，而不能是CLOSED状态。另外，TIME_WAIT并不会占用很大的资源，除非受到攻击。

在Squid服务器中可输入查看当前连接统计数的命令，如下所示：

#netstat -n| awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

LAST_ACK 14

SYN_RECV 348

ESTABLISHED 70

FIN_WAIT1 229

FIN_WAIT2 30

CLOSING 33

TIME_WAIT 18122

CLOSED：无连接是活动的或正在进行中的。

LISTEN：服务器在等待进入呼叫。

SYN_RECV：一个连接请求已经到达，等待确认。

SYN_SENT：应用已经开始，打开一个连接。

ESTABLISHED：正常数据传输状态。

FIN_WAIT1：应用说它已经完成。

FIN_WAIT2：另一边已同意释放。

CLOSING：两边同时尝试关闭。

TIME_WAIT：另一边已初始化一个释放。

LAST_ACK：等待所有分组死掉。

也就是说，这条命令可以把当前系统的网络连接状态分类汇总。

在Linux下高并发的Squid服务器中，TCP TIME_WAIT套接字数量经常可达两三万，服务器很容易就会被拖死。不过，我们可以通过修改Linux内核参数来减少Squid服务器的TIME_WAIT套接字数量，命令如下所示：

#vim /etc/sysctl.conf

然后，增加以下参数：

#适用于Squid服务器

net.ipv4.tcp_fin_timeout = 30

net.ipv4.tcp_keepalive_time = 1200

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.ip_local_port_range = 1024 65000

net.ipv4.tcp_max_syn_backlog = 8192

net.ipv4.tcp_max_tw_buckets = 5000

其中各参数含义如下：

net.ipv4.tcp_syncookies=1表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookie来处理，可防范少量的SYN攻击。默认为0，表示关闭。

net.ipv4.tcp_tw_reuse=1表示开启重用。允许将TIME-WAIT套接字重新用于新的TCP连接。默认为0，表示关闭。

net.ipv4.tcp_tw_recycle=1表示开启TCP连接中TIME-WAIT套接字的快速回收。默认为0，表示关闭。

net.ipv4.tcp_fin_timeout=30表示如果套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间。

net.ipv4.tcp_keepalive_time=1200表示当keepalive启用时，TCP发送keepalive消息的频度。默认是2小时，这里改为20分钟。

net.ipv4.ip_local_port_range=1024 65000表示向外连接的端口范围。默认值很小：32768～61000，改为1024～65000。

net.ipv4.tcp_max_syn_backlog=8192表示SYN队列的长度，默认为1024，加大队列长度为8192，可以容纳更多等待连接的网络连接数。

net.ipv4.tcp_max_tw_buckets=5000表示系统同时保持TIME_WAIT套接字的最大数量，如果超过这个数字，TIME_WAIT套接字将立刻被清除并打印警告信息。默认为180000，改为5000。对于Apache、Nginx等服务器，前面介绍的几个参数已经可以很好地减少TIME_WAIT套接字数量，但是对于Squid来说，效果却不大。有了此参数就可以控制TIME_WAIT套接字的最大数量，避免Squid服务器被大量的TIME_WAIT套接字拖死。

执行以下命令使内核配置立即生效：

#/sbin/sysctl -p

如果是用于Apache或Nginx等的Web服务器，或Nginx的反向代理，则只需要更改以下几项即可：

#适用于Apache或Nginx等web服务器，或Nginx的反向代理

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.ip_local_port_range = 1024 65000

如果是邮件服务器，则建议内核方案如下：

#适用于邮件服务器

net.ipv4.tcp_fin_timeout = 30

net.ipv4.tcp_keepalive_time = 300

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.ip_local_port_range = 5000 65000

kernel.shmmax = 134217728

最后记得，执行sysctl -p命令市内核配置生效：

#/sbin/sysctl -p

Linux内核的默认设置是为通用场景准备的，在用作特定的服务器用途时，修改内核参数或者编译特定的内核版本对提高性能有许多帮助，但这也是件需要经验积累的技术工作，而且需要根据业务特点进行不同设置。这里以比较常用的以支持高并发为需求的网络服务器为例，记录一些相关参数的设置和说明。

fs.file-max = 999999

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_keepalive_time = 600

net.ipv4.tcp_fin_timeout = 30

net.ipv4.tcp_max_tw_buckets = 5000

net.ipv4.ip_local_port_range = 1024 61000

net.ipv4.tcp_rmem = 4096 32768 262142

net.ipv4.tcp_wmem = 4096 32768 262142

net.ipv4.netdev_max_backlog = 8096

net.core.rmem_default = 262144

net.core.wmem_default = 262144

net.core.rmem_max = 2097152

net.core.wmem_max = 2097152

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_max_syn.backlog = 1024

这些参数通常可以写在/etc/sysctl.conf文件当中，然后通过sysctl -p命令使其生效。

file-max表示一个进程可以同时打开的最大句柄数，通常维持一个套接字连接至少需要占用一个句柄数，所以这个参数直接限制了最大的并发连接数。与此相关的通常还应注意Linux系统下ulimit参数的配置。

tcp_tw_reuse设置为1将允许处于TIME-WAIT状态的socket用于新的TCP连接，通过netstat可以发现服务器上经常会有处于TIME-WAIT状态的连接，而这些连接状态的改变与另一个内核参数也有关系。但通常这些资源实际都是可以立即再投入使用的，所以这个参数对于作为服务器来说是很有意义的。

tcp_keep_alive_time通常系统的默认值是2个小时，这意味着无效连接的回收可能最多会延迟2个小时，因此若不是特殊需要，其值应该设置的小一些，以加快清理无效的连接。但值得注意的是，keepalive消息也是要占用资源的，所以这个值也不能太小。设置为600代表是10分钟，通常是比较合理的。

tcp_fin_timeout是服务器主动关闭连接时，socket维持在FIN-WAIT-2状态的最大时间，不宜太长。理由同样是为了资源的尽快回收利用。

tcp_max_tw_buckets设置了系统允许的处于TIME_WAIT套接字数量的上限，超过上限时，这些套接字将立刻被清除并打印警告。通常该参数默认值太高，对于服务器来说，TIME_WAIT状态连接过多，将会明显影响性能，应尽早发现出现的问题和释放资源。

tcp_max_syn_backlog参数决定了TCP在连接建立阶段接收SYN请求队列的最大长度，设置的大一些通常可以避免在服务器比较繁忙时Linux不至于直接丢失客户端的连接请求。

ip_local_port_range定义了本地端口的取值范围，根据实际情况可以尽可能让范围大一些。

tcp_rmem和tcp_wmem定义了TCP接收和发送缓存的最小值，默认值，最大值。

netdev_max_backlog是指当网卡接收数据包的速度大于内核处理的速度时，保存这些数据包的队列最大值，设置为1024通常就比较合适了。

rmem_default，wmem_default，rmem_max，wmem_max这些参数都是与内核套接字接收和发送缓存区大小相关。与TCP的接收和发送缓存可以一起综合考虑，值得注意的是，对于TCP连接，维护这个缓存，也就是滑动窗口是需要消耗内存的。因此过大的值将容易造成内存吃紧的情况，而过小的值则会影响大数据量的传输速度，所以这些值需要根据业务特点结合硬件实际情况设定。

在服务器硬件资源额定有限的情况下，最大的压榨服务器的性能，提高服务器的并发处理能力，是很多运维技术人员思考的问题。要提高Linux系统下的负载能力，可以使用nginx等原生并发处理能力就很强的web服务器，如果使用Apache的可以启用其Worker模式，来提高其并发处理能力。除此之外，在考虑节省成本的情况下，可以修改Linux的内核相关TCP参数，来最大的提高服务器性能。当然，最基础的提高负载问题，还是升级服务器硬件了，这是最根本的。

Linux系统下，TCP连接断开后，会以TIME_WAIT状态保留一定的时间，然后才会释放端口。当并发请求过多的时候，就会产生大量的TIME_WAIT状态的连接，无法及时断开的话，会占用大量的端口资源和服务器资源。这个时候我们可以优化TCP的内核参数，来及时将TIME_WAIT状态的端口清理掉。

本文介绍的方法只对拥有大量TIME_WAIT状态的连接导致系统资源消耗有效，如果不是这种情况下，效果可能不明显。可以使用netstat命令去查TIME_WAIT状态的连接状态，输入下面的组合命令，查看当前TCP连接的状态和对应的连接数量：

#netstat -n | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’

这个命令会输出类似下面的结果：

LAST_ACK 16

SYN_RECV 348

ESTABLISHED 70

FIN_WAIT1 229

FIN_WAIT2 30

CLOSING 33

TIME_WAIT 18098

我们只用关心TIME_WAIT的个数，在这里可以看到，有18000多个TIME_WAIT，这样就占用了18000多个端口。要知道端口的数量只有65535个，占用一个少一个，会严重的影响到后继的新连接。这种情况下，我们就有必要调整下Linux的TCP内核参数，让系统更快的释放TIME_WAIT连接。

用vim打开配置文件：#vim /etc/sysctl.conf

在这个文件中，加入下面的几行内容：

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_fin_timeout = 30

输入下面的命令，让内核参数生效：#sysctl -p

简单的说明上面的参数的含义：

net.ipv4.tcp_syncookies = 1

#表示开启SYN Cookies。当出现SYN等待队列溢出时，启用cookies来处理，可防范少量SYN攻击，默认为0，表示关闭；

net.ipv4.tcp_tw_reuse = 1

#表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接，默认为0，表示关闭；

net.ipv4.tcp_tw_recycle = 1

#表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭；

net.ipv4.tcp_fin_timeout

#修改系統默认的 TIMEOUT 时间。

在经过这样的调整之后，除了会进一步提升服务器的负载能力之外，还能够防御小流量程度的DoS、CC和SYN攻击。

此外，如果你的连接数本身就很多，我们可以再优化一下TCP的可使用端口范围，进一步提升服务器的并发能力。依然是往上面的参数文件中，加入下面这些配置：

net.ipv4.tcp_keepalive_time = 1200

net.ipv4.ip_local_port_range = 10000 65000

net.ipv4.tcp_max_syn_backlog = 8192

net.ipv4.tcp_max_tw_buckets = 5000

#这几个参数，建议只在流量非常大的服务器上开启，会有显著的效果。一般的流量小的服务器上，没有必要去设置这几个参数。

net.ipv4.tcp_keepalive_time = 1200

#表示当keepalive起用的时候，TCP发送keepalive消息的频度。缺省是2小时，改为20分钟。

net.ipv4.ip_local_port_range = 10000 65000

#表示用于向外连接的端口范围。缺省情况下很小：32768到61000，改为10000到65000。（注意：这里不要将最低值设的太低，否则可能会占用掉正常的端口！）

net.ipv4.tcp_max_syn_backlog = 8192

#表示SYN队列的长度，默认为1024，加大队列长度为8192，可以容纳更多等待连接的网络连接数。

net.ipv4.tcp_max_tw_buckets = 6000

#表示系统同时保持TIME_WAIT的最大数量，如果超过这个数字，TIME_WAIT将立刻被清除并打印警告信息。默认为180000，改为6000。对于Apache、Nginx等服务器，上几行的参数可以很好地减少TIME_WAIT套接字数量，但是对于 Squid，效果却不大。此项参数可以控制TIME_WAIT的最大数量，避免Squid服务器被大量的TIME_WAIT拖死。

内核其他TCP参数说明：

net.ipv4.tcp_max_syn_backlog = 65536

#记录的那些尚未收到客户端确认信息的连接请求的最大值。对于有128M内存的系统而言，缺省值是1024，小内存的系统则是128。

net.core.netdev_max_backlog = 32768

#每个网络接口接收数据包的速率比内核处理这些包的速率快时，允许送到队列的数据包的最大数目。

net.core.somaxconn = 32768

#web应用中listen函数的backlog默认会给我们内核参数的net.core.somaxconn限制到128，而nginx定义的NGX_LISTEN_BACKLOG默认为511，所以有必要调整这个值。

net.core.wmem_default = 8388608

net.core.rmem_default = 8388608

net.core.rmem_max = 16777216 #最大socket读buffer,可参考的优化值:873200

net.core.wmem_max = 16777216 #最大socket写buffer,可参考的优化值:873200

net.ipv4.tcp_timestsmps = 0

#时间戳可以避免序列号的卷绕。一个1Gbps的链路肯定会遇到以前用过的序列号。时间戳能够让内核接受这种“异常”的数据包。这里需要将其关掉。

net.ipv4.tcp_synack_retries = 2

#为了打开对端的连接，内核需要发送一个SYN并附带一个回应前面一个SYN的ACK。也就是所谓三次握手中的第二次握手。这个设置决定了内核放弃连接之前发送SYN+ACK包的数量。

net.ipv4.tcp_syn_retries = 2

#在内核放弃建立连接之前发送SYN包的数量。

#net.ipv4.tcp_tw_len = 1

net.ipv4.tcp_tw_reuse = 1

# 开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接。

net.ipv4.tcp_wmem = 8192 436600 873200

# TCP写buffer,可参考的优化值: 8192 436600 873200

net.ipv4.tcp_rmem = 32768 436600 873200

# TCP读buffer,可参考的优化值: 32768 436600 873200

net.ipv4.tcp_mem = 94500000 91500000 92700000

# 同样有3个值,意思是:

net.ipv4.tcp_mem[0]:低于此值，TCP没有内存压力。

net.ipv4.tcp_mem[1]:在此值下，进入内存压力阶段。

net.ipv4.tcp_mem[2]:高于此值，TCP拒绝分配socket。

上述内存单位是页，而不是字节。可参考的优化值是:786432 1048576 1572864

net.ipv4.tcp_max_orphans = 3276800

#系统中最多有多少个TCP套接字不被关联到任何一个用户文件句柄上。

如果超过这个数字，连接将即刻被复位并打印出警告信息。

这个限制仅仅是为了防止简单的DoS攻击，不能过分依靠它或者人为地减小这个值，

更应该增加这个值(如果增加了内存之后)。

net.ipv4.tcp_fin_timeout = 30

#如果套接字由本端要求关闭，这个参数决定了它保持在FIN-WAIT-2状态的时间。对端可以出错并永远不关闭连接，甚至意外当机。缺省值是60秒。2.2 内核的通常值是180秒，你可以按这个设置，但要记住的是，即使你的机器是一个轻载的WEB服务器，也有因为大量的死套接字而内存溢出的风险，FIN- WAIT-2的危险性比FIN-WAIT-1要小，因为它最多只能吃掉1.5K内存，但是它们的生存期长些。

经过这样的优化配置之后，你的服务器的TCP并发处理能力会显著提高。以上配置仅供参考，用于生产环境请根据自己的实际情况。

发布时间: 9年前【底层开发】250人已围观【返回】【回到顶端】

很赞哦！ (1)

上一篇：libevent简介和使用

下一篇：epoll在LT和ET模式下的读写方式