September 18th 2020: LSHIY(AS17920) Core1-FMT1 中断分析

2020年9月19日 0 条评论 117 次阅读 2 人点赞

故障时间 September 18th 2020 17:44:23 UTC
恢复时间 September 18th 2020 17:59:00 UTC

今天,LSHIY(AS17920)完成了 FCIX(Fremont Cabal Internet eXchange) 的连接,在连接 FCIX(Fremont Cabal Internet eXchange) 之前, LSHIY(AS17920) 在 Core1-FMT1 只有一个IP传输提供商,与唯一的IP传输提供商 Hurricane Electric(AS6939) 使用的私有线缆建立的 BGP 会话,因此我们在安装 Core1-FMT1 设备时与 Hurricane Electric(AS6939) 的会话并没有添加任何导出过滤规则 “export all;”  。

今天完成了 FCIX(Fremont Cabal Internet eXchange) 的连接,为了提高网络可用性和连接,我们第一时间通过 FCIX 与 FCIX RS1、FCIX RS2、HE 建立的 Peering 会话,由于我们 Peering 会话都是使用 “template” 所有在配置完成 Peering 会话后,我们在查看收到的路由表时,发现没有收到任何路由表,随后我们在与 FCIX RS1、FCIX RS2、HE 的 Peering 会话配置中添加了导入规则 “import all;” ,并且载入了配置,随后 IPv4 网络中断,当时尝试了2次重新连接到 Core1-FMT1 设备时,发现无法连接, traceroute 发现没有路由,我们尝试使用 IPv6 连接到 Core1-FMT1 成功连接上,我们第一时间查看 BGP 会话状态 ,我们发现与 Hurricane Electric(AS6939) 的私有传输会话连接中断,提示 “连接被拒绝(Connection refused)”  我们立刻检查配置,发现与 Hurricane Electric(AS6939) 的私有传输会话并没有添加任何导出过滤规则 “export all;” ,导致从 FCIX Peering 收到的路由表全部导出到与 Hurricane Electric(AS6939) 的私有传输会话,触发了 HE 的限制规则导致 “连接被拒绝(Connection refused)” ,我们立刻添加了导出过滤规则并载入了配置,发现还是无法解决。

因为 Hurricane Electric(AS6939) 的限制需要人工重置会话,我们立刻给 Hurricane Electric(AS6939) 的网络运用中心(NOC)发送紧急邮件,但是我们无法发送,因为我们基础服务位于  Core1-FMT1 的网络下,在September 18th 2020 17:56 UTC 我使用我的个人邮箱给  Hurricane Electric(AS6939) 的网络运用中心(NOC)发送成功了紧急邮件,4分钟后 September 18th 2020 17:59:00 UTC  HE 的 NOC 回复 “I have cleared the session, and it re-established.” 最终,中断恢复。

很抱歉由于我的个人疏忽导致此次中断事件,我们会完善工作流程,在载入配置前进行多次确认,从而避免再次发送类似中断事件。

LSC_MOE

这个人太懒什么东西都没留下

文章评论(0)