交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
制造业
高教/职教
医疗卫生
交通
公共安全
“运维实战家”专栏,从技术到实践,
和您聊聊运维的那些事儿,讲述运维人的“昨天、今天和明天”
作者:风起儿
01 前言
01 防火墙演化史
防火墙的发展历史也经历了从低级到高级、从功能简单到功能复杂的过程。在这一过程中,随着网络技术的不断发展,新需求的不断提出,防火墙在原有的路由交换的基础上扩展和往协议上层功能不断的丰富的道路上演进和发展,形成今天这样功能丰富多样的功能集合一体化的形态,见下图:
02 防火墙的数据包处理流程
防火墙在网络中就是一个多面手基本什么都可以干,能不能像路由交换那样的报文来了就转,主要看防火墙的特点:功能多,多意味着大杂烩,如果没有合理的配料和工序就会变成了一锅粥,防火墙根据实际客户业务需求给自己的核心定位是控制,而路由交换的核心在转发,防火墙的数据报转发流程就是它完成自己合理配料和工序的过程。见下图 :
02 正片
谈完防火墙的身世,那就来看看防火墙的吐槽……
“背锅”不是防火墙的专利,“逃跑”不是防火墙的特技,掌握我们的防火墙的升级改造的八步曲,让我们依旧坚挺下去的秘密,下面让我们一起修炼秘笈吧:
01 了解需求背景
先和接口的售前、销售了解项目的方案、设备清单、需求列表,项目注意事项以及客户和集成商的相关人等;基于前面的基础再和客户以及集成商一起确认清楚需求清单、分工责任界面、工期等,主要是形成一版需求跟踪矩阵和干系人管理,把事和人搞清楚下面的具体的事情就好开展了。
02 业务环境调研
网络拓扑能够在大框下直观地反馈网络架构和业务关系,但是往往网络拓扑因为客户水平的参差不齐和拓扑的绘制标准缺少明确规定,很难给出准确的业务走向和实际物理状况这个时候就需要业务信息收集。
业务访问关系的信息收集尤其在新建项目和安全等级要求比较高的项目中特别重要,它是业务开通与否的依据,也是测试验证的参考,仅供参考列表如下:
序号 | 业务名称 | 源IP | 目IP | 端口 |
1 | CRM测试 | 192.168.1.2 | 192.168.10.4 | 10000~65535 |
协议类型 | 起止日期 | 申请人 |
UDP | 2020.1.1-2020.3.31 | 张山 |
防火墙的设备的配置和状态对于遇到升级改造非常重要,它是设备测试验证和业务上线的前提,锐捷防火墙基础信息收集的命令如下:
序号 | 名称 | 执行命令 | 信息类别 |
1 | 备份配置 | exec backup config | 配置 |
2 | 系统配置文件 | show configuration | 配置 |
3 | 系统基本信息 | get sys status | 硬件状态信息 |
4 | 系统状态信息 | get sys performance status | 硬件状态信息 |
5 | 设备硬件信息 | get hardware status | 硬件状态信息 |
6 | 硬件性能使用情况 | diag sys top | 硬件状态信息 |
7 | 查看 ntp 状态 | diagnose sys ntp status | 硬件状态信息 |
8 | 查看硬盘状态 | diagnose hardware deviceinfo disk | 硬件状态信息 |
9 | 查看硬盘情况 | exec disk list | 硬件状态信息 |
10 | 查看 ha 配置 | show full-configuration system ha | HA信息 |
11 | 查看 ha 状态 | get sys ha status | HA信息 |
12 | 查看 ha 信息 | diagnose sys ha dump | HA信息 |
13 | 检查配置文件是否同步 | diagnose sys ha showcsum | HA信息 |
14 | 单接口状态 | diagnose hardware deviceinfo nic 接口名 | 网络基础状态信息 |
15 | 聚合接口状态 | diagnose netlink aggregate name 聚合接口名 | 网络基础状态信息 |
16 | 限速接口状态 | diagnose netlink device list | 网络基础状态信息 |
17 | 接口状态统计 | get sys interface physical | 网络基础状态信息 |
18 | ARP表 | get sys arp | 网络基础状态信息 |
19 | ARP详细信息 | diagnose ip arp list | 网络基础状态信息 |
20 | 查看路由表 | get router info routing-table all | 网络基础状态信息 |
21 | 查看转发表 | get router info kernel | 网络基础状态信息 |
22 | 系统进程 | diagnose sys top 5 99 | 系统进程状态 |
23 | 查看日志 | exec log display | 日志记录 |
业务可用性记录在防火墙升级改造的时候可以在设备上抓取,它是测试验证的参考项,同时也是割接后评判业务关系的凭据,锐捷防火墙业务相关信息收集的命令如下:
序号 | 名称 | 执行命令 | 信息类别 |
1 | 查看防火墙策略 | show firewall policy | 策略 |
2 | 查看会话表 | get system session list | 业务会话 |
3 | 查看会话表前过滤 | diagnose sys session list | 业务会话 |
4 | 会话表过滤 | diagnose sys session filter | 业务会话 |
5 | 查看整体会话状态 | diagnose sys session full-stat | 业务会话 |
6 | 查看会话统计 | get system session-info statistics | 业务会话 |
备注:锐捷防火墙升级改造需要有以上命令适用,替换友商的设备提供类似命令
03 软硬件环境准备
1>硬件环境
检查根据实际情况进行增减,参考表格如下:
环境要求:安防门和锁、静电地板、湿度、装修、卫生保洁、空调等
机柜:物理位置、机柜规格参数、资源使用情况等
供电:PDU供电标准、插头规格、电源线长度等
线缆:运营商、光纤跳线、双绞线,ODF架资源等
工具:记号笔、螺丝刀、标签纸和标签机、卡扣、测试仪器等
2>软件准备
其中包含软件新旧系统版本及其补丁包和版本相关文档说明,软件工具类如下
升级工具:如FTP软件3CDaemon
调试工具:如CRT、Xshell
测试工具:如HostMonitor、网关监控系统等
3>测试搭建
在测试环境允许条件下,尽可能的搭建1比1的测试环境,模拟业务做功能和业务需求的相关测试,测试记录表格可以参考如下:
测试项目 | VPN(IPSec)对接阿里云站点 |
测试目的 | 检测IPSEC VPN隧道对接功能 |
测试方法 | 1、基本上网配置 |
2、创建VPN | |
3、修改VPN参数 | |
4、配置路由和策略 | |
5、测试业务 | |
预期结果 | 可以对接阿里云VPN需求,满足业务访问需求 |
测试工具 | 无特殊工具 |
测试记录 |
|
测试结果 | 达到预期效果 |
04 模拟测试验证
1>网络连通性测试
防火墙的相关常用命令如下:
RG-WALL #execute ping-options source 192.168.1.200//指定ping数据包的源地址 192.168.1.200
RG-WALL#execute ping 8.8.8.8 //继续输入ping的目标地址,即可通过192.168.1.200的源地址执行ping操作
RG-WALL #execute traceroute 8.8.8.8 //进行路径探测
RG-WALL #execute telnet 2.2.2.2 //进行telnet访问
RG-WALL #execute ssh 2.2.2.2 //进行ssh 访问
2>业务可用性测试
这部分主要是让业务一些关键业务如:CRM,OA等;特殊业务和应用比如:语音,长链接等需要配合上线前验证测试;其他普通业务也可以使用ping,telnet端等方式模拟访问业务可以在防火墙进行查看相关记录。
如命令抓报:
命令格式:diagnose sniffer packet <interface> <'filter'> <verbose> <count>
1 interface
<interface> 指定实际的接口名称,可以是真实的物理接口名称,也可以是VLAN 的逻辑接口名称,当使用“any”关键字时,表示抓全部接口的数据包。
2 verbose显示内容
<verbose> 指控制抓取数据包的内容。常用选项4和6。
3 count
<count> 抓取的数据包的数量。
4 filter 包过滤参数
举例:
diagnose sniffer packet any 'host 192.168.1.11' 4 2
diagnose sniffer packet wan1 'icmp and host 8.8.8.8' 1 10;
如会话日志记录:
勾选后可以在会话日志中查询相关测试记录。
3>网络高可用架构参考如下
备注:根据实际情况进行测试和演练。
05 风险评估
1>网络影响范围
防火墙新建项目业务风险相对比较低,如果是升级整改过程一般会涉及很多应用和业务属于重要变更,由于业务实际情况单纯从网络层面是不完整的,一些特殊的业务可能无法正常使用,在实施割接提内部变更评审流程,在流程上和技术原理上确认网络影响风险范围后,还需要告知甲方有关负责人员进行相关业务的评估,把风险降到最低。
2>业务影响粒度
针对一些未知的特殊应用服务提供的业务可能出现中断情况,需要前期梳理的细致程度以及前期业务可用性记录抓取业务时机和次数间隔来去确定业务的前后变化。
梳理关系见参照表格如下:
序号 | 业务名称 | 源IP | 目IP | 端口 |
1 | CRM测试 | 192.168.1.2 | 192.168.10.4 | 1000~65535 |
类型 | 起止日期 | 申请人 |
UDP | 2020.1.1-2020.3.31 | 张山 |
3>割接风险评估
技术复杂度:操作步骤的长度和是否新技术引入来衡量
故障恢复时间:业务恢复的时长和等级级别对应
业务影响范围:可以根据业务重要性和范围指标评估
历史记录:记录是否存在以及其记录发生的频率作为指标参考
回退方案:有无验证、是否可逆、方案操作明细度
06 割接方案
割接方案可以参考公司的《技术服务部网络变更管理程序V2.0》的变更方案(模版)编写,不做详细叙述。
割接过程中可能遇到一些问题,建议根据防火墙数据包处理流程进行排查,也可以根据业务现象经验跳过相关步骤直接看最有可能发生的选项,主要排查思路为:
1> 检查设备配置,确保设备当前配置与规划中一致;
2> sniffer抓包,分析数据包是否正常转发到防火墙,或防火墙是否转发相关报文;
3> debug flow,显示数据包在防火墙内完整数据流的处理过程,该步骤对于防火墙收到数据包但没有转发时非常有用,常用的命令及作用如下:
diagnose debug flow filter add x.x.x.x 定制过滤器,支持多种过滤,如过滤IP
diagnose debug flow show console enable 开始 flow 的输出
diagnose debug flow show function-name enable 显示功能模块
diagnose debug flow trace start 100 定义索要跟踪数据包的数量
diagnose debug enable 开启 debug 功能
diagnose debug flow trace stop 关闭debug flow trace
diagnose debug flow filter clear 清除过滤条件
diagnose debug disable 关闭debug命令
diagnose debug reset 重置所有的debug命令
以上检查如果都检查不出来什么问题,及时联系400后台支持
07 变更规范
1> 变更规范
变更根据实际情况的需要,走公司《技术服务部网络变更管理程序V2.0》的规定流程。
2> 充分授权
简单归纳为“三授权:技术、管理、客户”,对于升级改造过程中遇到的技术相关问题疑难点要和后台技术人员深度沟通交流,找到解决方案,以及得到批准;割接方案的影响范围和风险点及其相关解决方案需要及时同步到上级主管认可同意;客户也需要知道割接方案的风险点,一起参与评估影响范围以及对应的措施(回退,应急方案),客户同意需要有一定呈现而不是停留在口头上,需要落实在短信,微信,邮件等有效证明上。
08 值守保障
主要分为2个部分:当天的割接过程中的割接分工和割接完成之后的业务保障值守:
1>割接分工
主要是把当天割接的人、责任范围、时间、地点、联系方式等明确下来并通告大家统一指令,避免混乱,参考表格如下:
分组 | 姓名/手机 | 角色 | 地点 | |
指挥小组 | 张山/139XXXXXXX1 | 决策 | 地点0 | |
现场总协调 | 李四/139XXXXXXX2 | 现场接口人 | 地点1 | |
王五/139XXXXXXX3 | 现场接口人 | 地点2 | ||
指令发布 | XXX/139XXXXXXXX | 指令下发 | 地点0 | |
保障组 | XXX/137XXXXXXXX | 故障分析定位组 | \ | |
XXX/138XXXXXXXX | ||||
实施人员分组 | ||||
分组 | 实施/手机 | 复核/手机 | 地点 | |
网络操作组 | 网络A | XXX/139XXXXXXXX | YYY/139YYYYYYYY | 地点1 |
网络B | XXX/140XXXXXXXX | YYY/140YYYYYYYY | 地点2 | |
机房组 | 机房I | 机房组 | ZZZ/139ZZZZZZZZ | 地点1 |
机房J | 机房组 | ZZZ/140ZZZZZZZZ | 地点2 | |
业务验证组 | 验证组1 | AAA/139AAAAAAAA | BBB/139BBBBBBBB | 地点1 |
验证组2 | AAA/140AAAAAAAA | BBB/140BBBBBBBB | 地点2 |
2>值守规范
一般涉及网络大的调整,尤其是涉及防火墙等安全设备的升级改造如果没有充分业务验证,都需要在工作日上班保障时间,具体时间长度和保障方式需要和客户协商。如果故障处理不了及时升可以参考按照公司《故障处理管理程序V1.7》规定进行处理。参考表格如下:
值守保障人员 | ||||
分组 | 值守人员/手机 | 升级人员/手机 | 地点 | |
网络操作组 | 网络A | XXX/139XXXXXXX1 | YYY/139YYYYYYY1 | 地点XX |
机房组 | 机房I | XXX/139XXXXXXX2 | YYY/139YYYYYYY2 | 地点XX |
业务验证组 | 验证组1 | XXX/139XXXXXXX3 | YYY/139YYYYYYY3 | 地点XX |
03 尾言
以上关于防火墙升级改造的八步曲在我们的日常割接中有很多雷同之处,也有些特殊的地方,细细片语之间希望你品味其中蕴意,在面对我们的下一代防火墙的时候有些帮助,谢谢观赏。