“网络就像wifi,没有故障的时候,就没有人意识到它的存在”,这句话有无数的翻版,但是对于网络工程师来说,这就是现身说法 。
由于即便是在上千人的公司,网络工程师的人数也仅仅是个位数,所以他们的工作也鲜为人知。
“网络是不是有问题?”这句话几乎成了所有SRE排错时的口头禅,如果这个时候网络工程师表示沉默,或者无法拿出足够的证据,那背锅几乎是无疑的 。
如何让网络环境的运行状态更加透明?如何在每次业务故障的时候自证清白?这不仅是基础服务团队要关心的内容,更是整个技术团队想要了解的黑匣子 。
监控
网络设备存活监控
对于SRE来说,需要监控程序是否正常;对于主机组来说,需要监控服务器硬件是否正常;对于网络来说,我们首先需要关心网络设备是否可达 。当一台TOR不可达时,基本上预示着会有一片服务器不可达,业务的痛感是相当强烈的 。
网络设备的监控最好和业务监控系统尽量解藕,因为网络故障极有可能引发业务系统异常,如果恰巧导致的是业务的监控系统异常,那网络设备的告警将失去可靠性,且不说“监控不准”这个锅是谁的,这种局面会让网络工程师Trouble Shooting时陷入被动,延长了故障时间 。
每一个网工在走出校门的那一刻,都已经具备基本的编程基础, 况且交换机的数量和服务器的数量有着量级上的差别,所以如果你能看懂几句python,100 的python代码即可搞定一个简易的设备存活监控的程序,Github中可
推荐阅读
- 有没有中英文自动翻译软件?
- 营业执照多久自动注销 营业执照会自动注销吗
- 自动排课表用那个软件比较好?
- APP总是闪退怎么办 手机APP自动退出怎么解决
- 短期金融工具有哪些
- 笔记本电脑时间不能自动更新
- 如何制作流程图,wps自动生成流程图方法
- 马自达星骋三厢太耗油 马自达3星骋自动挡耗油吗
- 微信自动抢红包怎么设置 最简单的微信自动抢红包方法
- 威力全自动洗衣机怎么用 详细步骤1