排查 IX BGP 会话中断
如果你的 Internet Exchange(IX)出现中断,通常是 Border Gateway Protocol(BGP)会话出现问题。按照以下故障排查步骤逐一检查,确认 BGP 会话是否是 IX 故障的根本原因。
提示
Megaport 为 Peering 方和网络运营人员提供了可通过网页访问的公共 MegaIX Looking Glass,用于调查当前路由状态。你可以在此处查询主用和冗余路由服务器的实时 BGP 数据:MegaIX Looking Glass。
故障排查操作
| 操作 |
步骤 |
检查设备上的接口或 CRC循环冗余校验。用于检测数据传输错误的一种差错检测码。 错误和丢包 |
接口统计信息和日志有助于识别是哪一端的交叉连接导致了故障,以及潜在的解决方案。例如,网络接口上入方向错误数不断增加,通常可以排除该 SFP小型可插拔(SFP)是一种可热插拔的收发器,应用于数据通信和电信网络,实现两个设备之间的数据传输。 本身的问题,并指示 IX 其他组件可能存在问题。
重要说明:
接口类型、SFP 类型和线缆类型
- 1 Gbps 1000BASE-LX [10km;在 SMOF一种芯径较小的光纤,可在任意时刻仅支持单一模式或单一路径的光传输。该光纤只有一种传播模式:在纤芯内仅有单一波长的光。多模光纤(MMOF)成本更低,但在不发生信号劣化的情况下,只能用于较短距离传输。
上双工] - 10 Gbps 10GBASE-LR [10km;在 SMOF 上双工]
- 100 Gbps 100GBASE-LR4 [10km;在 SMOF 上双工]
MTU(最大以太网帧大小)- 客户 Ports 之间的 VXC 为 9100 字节。
- MCR 和 MVE 支持 1500 字节的标准 MTU。
- IX 和许多 CSP 端口不支持巨帧,但都支持 1500 字节的标准 MTU。
LAG描述使用多条并行网络连接来提高吞吐量,使其超过单条链路(1 个连接)所能达到的上限的各种方法。 一般来说,对于链路聚合,物理端口必须位于同一台交换机/路由器上。
- 协议:LACP
- 接口:10GBASE-LR(10 Gbps)或 100GBASE-LR4(100 Gbps)。不支持 1 Gbps 端口。
- 单个 LAG 中的最大接口数量:8
- 不支持跨多设备的多机箱链路聚合(MC-LAG)。
首选 A 端 VLAN(VXC/IX)- Untag (enabled) (无标签(已启用)) – 这会将 A 端 Port 限制为单个服务。每个 Port 上仅一个 VXC/IX,相当于你设备侧的接入端口。
- Untag (disabled) (无标签(已禁用)) – 在 A 端 Port 上指定 802.1q VLAN 编号。每个 VXC 都以单独的 VLAN 形式在该 Port 上交付。此 VLAN ID 必须在该 Port 上唯一,取值范围为 2 到 4093。如果你指定了已在使用的 VLAN ID,系统会显示下一个可用的 VLAN 编号。将 VLAN ID 留空时,系统会随机分配一个 VLAN 编号,相当于你设备侧允许 VLAN 的 Trunk 端口。
802.1Q 隧道(Q-in-Q802.1Q 隧道(也称为 Q-in-Q 或 802.1ad)是一种 OSI 第 2 层服务提供商在为客户提供服务时使用的技术。802.1ad 支持 内层 和 外层 两种标签,其中 外层(有时称为面向服务提供商的 S-tag)可以被移除,以显露 内层(C-tag 或客户)标签,用于对数据进行分段。 )IEEE 802.1ad(Azure VXC)
- 访问 Microsoft Azure ExpressRoute 需要使用 Q-in-Q(IEEE 802.1ad)。根据所选方式不同,你的设备配置也会不同,可能为 Q-in-Q、Q-in-Q 拆分、无标签 VXC 或 MCR。
|
| 验证接口、SFP、线缆与布线是否正确 |
- 在千兆接口上确认使用了自协商(auto-negotiation)(speed auto 和 duplex auto)。
- 确认交叉连接线缆在两端均连接到了正确的端口。
- 确认 SFP 光口功率(Tx 和 Rx)在两端均为良好光信号。
|
验证 第 2 层OSI 模型的第 2 层是数据链路层。它提供节点到节点的数据传输(两个直接连接节点之间的链路)。大多数 Megaport Virtual Cross Connect(VXC)在该层运行。第 2 层分为介质访问控制(MAC)层(控制网络中的设备如何获得对介质的访问权以及传输许可),以及逻辑链路控制(LLC)层(负责识别网络层协议并对其进行封装,同时控制错误检测和帧同步)。 配置 |
- 确认 MTU 大小正确。
- 若使用 LAG,确认 LACP 配置正确。不支持 MC-LAG。
- 确认你的设备按照 Megaport Portal 中的“Preferred A-End VLAN”进行配置。
- 如果使用了 VLAN,确认在你的设备侧配置了正确的 VLAN 编号。
- 如果使用 Azure VXC,确认你的设备按其中一种 Q-in-Q 方法进行了配置。
|
验证 第 3 层OSI 模型的第 3 层是网络层。它将逻辑网络地址转换为物理主机地址(IP 寻址)。三层路由器会基于地址信息分析流量并进行相应转发,并且需要了解在 BGP 会话中为路由表的交换而通常交换的各项细节。 配置 |
- 确认接口 IP 地址和子网地址配置正确。
- 确认路由协议配置(EIGRP/OSPF/BGP)正确。
- 在第 3 层 网络设备之间运行 ping 测试(例如,Edge 路由器、BGP 对等体)。
- 在源主机与目标主机之间运行 ping 测试(端到端连通性测试)。
- 如果 ping 测试失败,请检查两端的 ARP地址解析协议 (ARP) 路由表包含 MAC 地址(第 2 层)到 IP 地址(第 3 层)的映射列表。
表和路由表。
- 如果 ping 测试失败且两端路由表无问题,则从两端获取 traceroute一种诊断工具,用于检查数据在互联网中的传输路径,以确定目的地是否可达。
日志。
|
| 验证设备上的光口功率 |
通过终端读取的光功率有助于判断读数是否处于阈值范围内。检查设备和端口图表中的错误,并查看 Megaport optic graphs history。图表每五分钟更新一次,因此如果抖动较少发生,图表可能无法捕获光功率的瞬时下降。确保光功率读数符合规范。 |
| 对 IX 网络内的路由服务器和/或双边 Peering 伙伴执行 ping 测试 |
ping 测试向指定 IP 地址发送数据包,以确认或否认基于 IP 的网络设备之间是否具备连通性。若连通,将包含该连接的时延(响应时间)。
|
| 验证到路由服务器和/或双边 Peering 伙伴的第 2 层 连通性(ARP) |
第 2 层 控制 WAN 或 LAN 网段上节点之间的数据流,也负责检测并在可能情况下纠正第 1 层 错误。第 2 层 连通性问题会影响连接到你 MCR 的 VXC 的功能。连接到 云服务提供商 (CSP) 时,请确保 VLAN 配置详情正确。连接到 Azure 时需特别注意,因为你将使用 Q-in-Q。
第 2 层 连通性问题也会影响你的 IX 服务。使用 Megaport 的 IX 服务时,会使用 MAC 地址对你的设备进行认证。根据你的网络设计,如果你正在与 Megaport 或其他组织进行 Peering,请确保你已在 Megaport Portal 中指定了正确的 MAC 地址。
在提交支持请求之前,请先进行以下检查:- 使用 Looking Glass tool 检查你的 IX 服务状态。你可以访问主用和冗余路由服务器的实时 BGP 数据。与物理的第 1 层 问题相比,第 2 层 问题更具挑战性。向 Megaport 提供第 2 层 连通性详情将有助于定位问题。
- 如果你未与 Megaport 直接进行 Peering,请与进行 Peering 的公司确认任何配置更改。
- 运行 ping 测试以验证是否建立了第 2 层 连通性。
- 检查 ARP 表,并确认 Megaport Portal 中可见该 MAC 地址。
- 确认配置符合 Megaport 技术规格。
如需更多指导,请联系你的客户经理(Account Manager),并预约与 Megaport 解决方案架构师(Solution Architect)会面。
|
| 验证 BGP 配置 |
- 接口设置(包括 VLAN 编号)
- BGP IP 地址和子网掩码
- BGP AS自治系统(AS)是由相互连接的 Internet Protocol(IP)路由前缀构成的集合,这些前缀由一个或多个网络运营商代表单一的管理实体或域进行控制。 ASN 指自治系统号,是分配给每个 AS 的唯一数值 ID,用于 BGP 路由。
号 - 要通告的 BGP 网络地址
- BGP 邻居 IP 地址和子网掩码
- BGP 邻居 AS 号
- 要接收的 BGP 邻居网络地址
- BGP 邻居之间的身份验证
- 如适用,BGP 路由过滤与操控
|
| 检查 BGP 错误消息 |
当 BGP 会话检测到错误(例如保持定时器到期、邻居能力变更或请求重置 BGP 会话)时,BGP 协议会发送通知消息。一旦检测到错误,BGP 会话将被关闭。
例如,输入 show log %BGP-xxxxx。
更多信息,参见 Internet Exchange 概述。 |
后续步骤
如果上述故障排查操作仍未解决问题,请联系技术支持。在请求协助之前,请收集以下信息:
故障排查结果
- 详细提供你已执行的所有故障排查步骤。例如,如果放置了回环(loop),请注明其位置以及朝向。
网络设备配置摘录
- 接口配置
- 静态路由与路由协议配置(EIGRP/OSPF/BGP)
- 出现问题的数据流所涉及的防火墙规则与 ACL 配置
BGP 命令输出与报文捕获信息
- 两端的路由表(show IP route <ip-address>)。
- 两端的路由协议状态与相关表项,例如显示 BGP 状态的 BGP 邻居表(show ip bgp summary)以及 BGP 邻居详情(show ip bgp neighbors <neighbor-ip-address>)。
- 具有 BGP 路由问题的 BGP 路由表项(show IP BGP 命令的输出)。
- BGP 已通告路由(show IP BGP neighbors <neighbor-ip-address> advertised-routes)。
- BGP 已接收路由(show IP BGP neighbors <neighbor-ip-address> routes 命令的输出- Routing table(show IP route <ip-address>))。
- 源主机与目标主机之间的 Traceroute 日志。
- 如可能,提供 Packet capture 日志(文件大小可达 10 M)。
注意
有关何时需要在数据中心现场安排现场服务技术人员的更多信息,参见 客户现场服务。