交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
行业精选无线系列
无线管理与应用
1、故障现象
内网访问外网速率很慢,包括:打开网页慢,下载速率慢等。
2、故障可能原因
(1)用户内网数据转发异常
(2)出口带宽被占满或出口线路通信质量很差
(3)内网用户被限制下载速率
(4)设备末配置防攻击策略,导致设备受到攻击,数据转发异常
(5)出口路由器性能不足
3、故障处理流程
4、故障处理步骤
故障处理主要包含以下6个步骤,详细排查过程请进入相应步骤查看:
步骤1:检查内网数据转发情况
步骤2:检查出口设备数据转发情况
步骤3:检查内网用户是否被限速
步骤4:检查设备是否配置了防攻击策略
(1)配置本地CPU防攻击
(2)配置防攻击ACL
(3)配置黑洞路由
(4)配置反向路径检查
步骤5:检查出口路由器是否性能不足
步骤6:搜集故障信息,联系4008-111000协助处理
步骤1:检查内网数据转发情况
如果用户内网出现异常(如广播风暴、二层/三层环路等),会导致内网用户访问外网速率很慢。 在对出口设备进行排查前需先确保内网网络正常。
在用户反馈内网访问外网速率很慢的时间,通过在内网用户pc上ping网关、核心设备地址,出口设备内网口地址、出口设备外网口地址、及公网地址看是否存在丢包、延时大等现象。
1)内网用户ping网关、核心设备地址。如果测试不丢包、延时小,则说明内网网络正常。如果出现丢包、大延时等现象,则需排查内网设备是否工作正常,或是否内网存在广播风暴、环路等问题。
2)如果内网用户ping内网设备正常,ping出口设备地址和公网地址存在较大的丢包、延时,则说明出口设备对于数据的转发处理可能存在问题,请继续如下“步骤2:检查出口设备数据转发情况”步骤排查。
步骤2:检查出口设备数据转发情况
(1)通过show run命令查看路由器的配置信息,检查路由器是否所有接口都已经正确配置了ip ref。REF为锐捷特有的快速转发技术,开启后能够大大提升设备的数据转发性能。REF功能在新设备上(如RSR10-02E、RSR20-14E/F、RSR7708)已经默认开启,无需再手动配置。老设备(如RSR10、RSR20、RSR30、RSR50、RSR50E、NPE50)需手动在接口上配置ip ref功能。
需要配置ip ref功能的接口如下:
以太网接口:
interface FastEthernet
interface GigabitEthernet
虚接口:
interface Dialer
interface Group-Async
interface Multilink
interface Tunnel
interface Virtual-ppp
interface Virtual-template
interface Vlan
广域网接口:
interface Async
interface ATM
interface Pos
interface Serial
Controller e1
Controller sonet
注意:老版本在某些接口下可能无法配置ip ref功能,配置ref的原则:只要该接口下有ip ref命令,就必须配置。
(2)检查出口带宽使用情况
在用户反馈访问外网比较慢的时候,或者在业务高峰期时,登陆至出口路由器上,通过show interface查看外网出接口的带宽使用情况:
Ruijie#show interface GigabitEthernet 0/0
========================== gigabitEthernet 0/0 ========================
Index(dec):2 (hex):2
gigabitEthernet 0/1 is UP , line protocol is UP
......
Link Mode: 1000M/Full-Duplex, media-type is fiber.
Output flowcontrol is off;Input flowcontrol is off.
5 minutes input rate 270321441 bits/sec, 34849 packets/sec //5分钟平均input流量速率,约270Mbit/s
5 minutes output rate 39273174 bits/sec, 27295 packets/sec //5分钟平均output流量速率,约39Mbit/s
20159977 packets input, 17620635433 bytes, 0 no buffer, 0 dropped
Received 1451 broadcasts, 0 runts, 0 giants
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 abort //input异常报文统计
15389517 packets output, 2887923864 bytes, 0 underruns , 0 dropped
0 output errors, 0 collisions, 3 interface resets //output异常报文统计
1)确认用户向运营商所购买的接口带宽大小,和目前设备已经使用的接口带宽大小。
2)如果用户的出口带宽还有富余,但内网访问外网速率依然很慢,请继续以下“步骤2:”步骤排查。
3)如果目前使用的带宽已经接近用户所购买的带宽,则说明出接口带宽不足。导致接口带宽不足的可能原因
· 用户业务增长导致出口带宽不足,需与用户确认近期是否有新增业务。如确实由于业务增长而导致的带宽不足,则需考虑增加接口线路带宽。
· 内网存在攻击,向外网发送大量垃圾报文。如果近期客户的业务部署并无变化,但在某个时间段内,内网流量突然飚高,则可能是内网存在流量攻击导致。
如果怀疑内网存在攻击,请参考“步骤3:检查出口路由器是否性能不足”步骤中的处理办法。
(3)检查出口异常报文统计是否正常
通过多执行几次show interface(每次隔1分钟左右),查看前后的input/output异常报文统计的增长情况。在线路、接口正常时,异常报文统计增长缓慢(根据业务量,增长速率一般小于100packets/s),且小量的异常报文不会对业务造成影响。
如果异常报文增长速度过快(大于100packets/s),可执行如下操作:
· 强制配置本端、对端设备接口的双工、速率参数测试
· 更换两端设备接口的网线、或尾纤测试
· 更换外网接口、板卡测试
如果在以上操作之后,出口依然有大量的异常报文统计增长,则请直接跳到“搜集故障信息,联系4008-111000协助处理”步骤处理。
步骤3:检查内网用户是否被限速
如果限速配置错误,或配置不合理,也可能导致内网用户访问外网速率很慢。
(1)如果用户处配有专门的流量控制设备(如我司的ACE等),则请查看相关流量控制设备上的限速配置,确保配置合理准确。
(2)如果用户限速功能配置在出口路由器上,则请检查路由器上限速相关的配置。一个典型的ip rate-control配置如下:
ip access-list standard 1 //使用ACL定义需要被限速的源网段
10 permit 172.18.10.0 0.0.0.255
20 permit 172.18.20.0 0.0.0.255
interface GigabitEthernet 0/0 //进入外网接口
ip rate-control 1 bandwidth both 150 session total 200 rate 50 //配置每用户限速150KB/S,每用户最大连接数200,每秒最大新建连接数50
注意点:
· 配置ip rate-control的接口必须为ip nat outside接口
· ip rate-control限速的单位为KB/S
· session(每用户最大连接数)和rate(每用户最大新建连接数)参数为可选配置;两个参数的建议值为200和50
· 常见应用对于带宽的需求见下表:
步骤4:检查出口设备是否配置了防攻击策略
网络出口设备易遭受到来自内网和外网的网络攻击,如果设备末做基本的防攻击策略,则可能会经常出现如CPU高,CLI响应缓慢,内网访问外网资源速率很慢等现象。
这些情况的产生一方面是由于控制平面和转发平面的处理能力的差异,另一方面是由于缺乏对控制层面的保护。 通常我们可以通过如下手段来加强设备对控制层的保护:
(1)配置本地CPU防攻击
(2)配置防攻击ACL
(3)配置黑洞路由
(4)配置反向路径检查
各功能的详细配置请进入各子步骤查看。
(1)配置本地CPU防攻击
1)配置启用防攻击功能
Ruijie# config
Ruijie(config)# control-plane protocol //进入control-plane 配置模式,并进入 protocol 子接口
Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,protocol上的流量限速为 500pps,允许的突发峰值为 600pps
Ruijie(config)# control-plane data //进入control-plane 配置模式,并进入 data 子接口
Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,data 上的流量限速为 500pps,允许的突发峰值为 600pps
Ruijie(config-cp)# glean-car 10 //配置Glean-CAR,对每个源允许每秒 10 个匹配到 glean 邻接的报文
Ruijie(config)# control-plane manage //进入control-plane 配置模式,并进入 manage子接口
Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,manage 上的流量限速为 500pps,允许的突发峰值为 600pps
Ruijie(config-cp)# arp-car 10 //配置ARP-CAR,对每个源允许每秒 10 个ARP 报文
Ruijie(config-cp)# port-filter //启用Port-Filter 子功能
Ruijie(config-cp)# management-interface gi0/0 allow telnet snmp //配置MPP规则,指定 gi0/0 口为带内管理接口,并只允许接收 telnet,snmp 的协议报文
2)查看CPU防攻击
通过show ef-rnfp all命令查看所有已配置的设备防攻击信息及统计。
(2)配置防攻击ACL
现在的网络中存在大量的攻击:外网的TCP 半开连接攻击,碎片攻击,还有一些迅雷、P2P 的流量虽然内网已经断开了连接,但是外网还是会发大量的数据包过来,占用大量的带宽和浪费路由器的资源。所以在路由器做出口的时候必须要加上防攻击的ACL。放通需要放通的流量,再拒绝所有外网始发到内网、设备的数据。
-----------------------------------------------------------------------------------------------------------
*/注意,以下相应ACL的配置,需根据不同场景下的实际业务进行相应修改,否则可能导致客户业务异常,或业务中断!!!/*
1)配置针对外网口的 ACL
配置阻止所有外网主动访问内网和路由器的流量,放通从外网访问内网服务器的流量.
ip access-list extended 101
10 permit tcp any any eq telnet //放通从外网来的 telnet 数据
20 permit icmp any any //放通 ping数据
30 permit ip any host 60.12.27.181 eq 80 //如果内网有WEB服务器,需放通相应流量
40 permit tcp any host 61.153.10.249 eq ftp //如果内网有FTP服务器,需放通相应流量
50 permit tcp any host 61.153.18.28 eq 8080 //如果内网有https服务器,需放通相应流量
60 deny ip any any // 在外网口拒绝所有的流量
2)配置 针对内网口的 ACL
ip access-list extended 100
10 permit tcp any host 192.168.199.1 eq telnet //放通从内网到本机的 telnet
20 permit icmp any host 192.168.199.1 //放通从内网到本机的 ping
30 deny ip any host 192.168.199.1 //deny 其它所有内网到本机的数据
40 permit ip any any //放通所有从内网到外网去的数据。注意,该条目必须配置,否则会导致内网所有访问外网的流量中断!!
3)在相应接口下应用ACL
interface GigabiteEthernet 0/0
ip access-group 100 in //在内网口配置
interface GigabiteEthernet 0/0
ip access-group 101 in //在外网口配置
(3)配置黑洞路由
为了防止外网的扫描,内网的变换源地址攻击,造成路由循环,会浪费路由器的大量资源,可以通过配置相应的黑洞路由将该部分流量直接丢弃。具体配置方式如下:
如果NAT地址池的地址为
ip nat pool natpool prefix-length 24
address 202.56.32.1 202.56.32.127
则NAT地址池为202.56.32.1-202.56.32.127,黑洞路由配置如下:
ip route 202.56.32.0 255.255.255.128 null0
(4)其它相关安全功能配置
1)关闭mss协议的nat转换功能
Ruijie(config)#no ip nat translation mss
2)开启TCP半连接防护功能
Ruijie(config)#ip session track-state-strictly
3)在接口下配置 no ip directed-broadcast、no ip mask-reply
Ruijie(config)#no ip mask-reply
Ruijie(config)#no ip directed-broadcast
4)在内网接口配置反向路径检查功能
Ruijie(config)#interface gigabitEthernet 0/1 //进入内网接口
Ruijie(config-if)#ip verify unicast source reachable-via rx //配置反向路径检查功能
步骤5:检查出口路由器是否性能不足
在用户反馈内网访问外网很慢的时间点,登陆至设备上搜集如下信息:
(1)查看路由器的CPU使用情况
通过show cpu命令查看设备的cpu使用率。
Ruijie#show cpu
=======================================
CPU Using Rate Information
CPU utilization in five seconds: 0% //最近5秒平均cpu使用率
CPU utilization in one minute : 0% //最近1分钟平均cpu使用率
CPU utilization in five minutes: 0% //最近5分钟平均cpu使用率
NO 5Sec 1Min 5Min Process
0 0% 0% 0% LISR INT
1 0% 0% 0% HISR INT
......
(2)查看路由器的内存使用情况
通过show memory命令来查看设备的内存使用率。
Ruijie#show memory
System Memory Statistic:
Free pages: 70818
watermarks : min 2165, lower 4330, low 6495, high 7895
System Total Memory : 512MB, Current Free Memory : 286340KB //总内存大小与空闲内存大小
Used Rate : 45% //内存使用率
一般情况下,cpu的使用率都会在10%以内;内存的使用率在80%以内(RSR10由于本身内存较小,因此在加载业务的情况下内存使用率有可能达到80%~90%,但只要内存使用率比较稳定,末再持续增长就是正常的,不影响设备运行)。
(3)查看路由器的流表使用情况
通过show ip fpm statistics命令查看路由器的流表使用情况:
Ruijie# show ip fpm statistics
The capacity of the flow table:2080000 //设备支持的流表数量
Number of active flows:168351 //目前已经使用的流表数
Number of the defragment contexts:20 //代表需要组装的分片数据包的个数
Number of the buffers hold by FPM:20 //分片数据包占用的缓存
Event count (%256):156 //流事件通告次数,可以不关注
分别确认业务正常和业务很慢时,设备的已使用流表数。如果业务很慢时设备已使用的流表数远远大于业务正常时设备已使用的流表数,则需确认用户最近是否业务量有较大增长,否则可能是由于内网某些PC中毒向外发起大量连接请求,占用了过多流表,从而导致某些业务无法访问,或速率很慢。
(4)如经以上步骤排查,依然出现CPU高、内存高、流表占用高等情况,请直接跳到“步骤6:收集信息后,请联系4008111000协助处理”步骤处理
步骤6:收集信息后,请联系4008111000协助处理
如经以上步骤排查,故障依然无法解决,请搜集以下故障信息,联系4008-111000协助处理:
(1)基本信息收集
show ver
show slot
show run
show log
show ip interface brief
show ip route
show ef-rnfp all
确定出口线路有几条,及各线路的带宽大小
高峰期上下行流量大小
业务慢的时间点,是否有规律
高峰时段内网用户数量
用户的详细网络拓扑和网络规划
(2)业务很慢时,登陆至设备上,搜集如下信息:
show cpu //每隔10秒搜集1次,共搜集3次
show memory //每隔10秒搜集1次,共搜集3次
show interface //每隔10秒搜集1次,共搜集3次
show ip fpm statistics //每隔10秒搜集1次,共搜集3次
show ip fpm counters //每隔10秒搜集1次,共搜集3次