第64章 运维工程师——午夜机房的灯

小主,

陈工点点头:“方案我认可,后续的巡检报告记得同步给我们一份。对了,你们运维团队是不是人手不够?每次故障都是你凌晨来处理。”

林夏笑了笑:“最近是有点忙,不过团队正在扩招,等新人入职就能分担些压力了。”其实她心里清楚,运维这行就是“养兵千日,用兵一时”,平时要做巡检、备份、升级,故障时必须随叫随到,尤其是金融、医疗这类关键行业的客户,容不得半点差错。

复盘会结束后,林夏回到公司,刚坐下就被运维经理老张叫进了办公室:“夏,下午有个新客户的运维交接,是做在线教育的,他们刚把业务迁到咱们的云平台,你去对接下,把日常运维的注意事项跟他们说清楚。”

“没问题。”林夏接过客户资料,里面写着“每日晚上七点到九点是直播高峰期,带宽需求是平时的三倍”。她立刻在笔记本上标注:“在线教育客户,直播时段需重点监控带宽和CDN节点状态,提前扩容。”

下午两点,林夏准时出现在客户公司的会议室。对方的技术负责人李工是个三十多岁的男人,手里拿着厚厚的运维手册:“林工,我们之前没接触过云运维,好多东西都不懂,比如怎么看监控告警,怎么申请资源扩容,都得麻烦你多讲讲。”

林夏打开演示文档,从云平台的监控面板开始讲起,教他们怎么识别关键指标异常,怎么设置自定义告警阈值:“比如这个CPU使用率,你们直播时如果超过80%,系统会自动告警,你们可以提前半小时申请扩容,避免卡顿。”她一边说,一边在屏幕上演示操作步骤,“我把常用的运维操作录了视频,等下发给你,还有我们团队的24小时运维电话,有问题随时打。”

李工认真地记着笔记,时不时打断提问:“如果遇到突发流量,比如直播时突然来了很多观众,扩容来得及吗?”

“我们有弹性扩容功能,能根据实时流量自动增加服务器节点,最快三分钟就能完成部署。”林夏调出弹性扩容的配置界面,“不过建议你们提前跟我们报备大型活动,比如招生直播、考试答疑,我们可以提前做好资源预留,更稳妥。”

交接会持续了两个多小时,林夏离开时,李工送她到门口:“太感谢了,你讲得特别清楚,我们心里踏实多了。”林夏笑着说:“不用客气,后续有任何问题,随时联系我。”

回到公司时,已经是下午五点。运维办公室里,同事们正在收拾东西准备下班,小陆跑过来问:“夏姐,晚上有运维值班吗?我想跟你学怎么处理夜间告警。”

林夏看了眼值班表:“今晚我值班,你要是不介意,可以留下来,不过可能会熬夜。”

小陆立刻点头:“我不介意!我想多学点实际操作,之前在学校学的都是理论,跟实际差太远了。”

晚上七点,运维值班系统的告警声突然响起。林夏点开一看,是电商客户的存储集群使用率超过了85%,触发了预警。“小陆,过来看看,这是存储扩容的场景。”林夏把终端递给小陆,“先查存储使用率的增长曲线,看是突发增长还是持续增长,再跟客户确认是不是有数据备份或者活动。”

小陆盯着曲线看了一会儿:“是持续增长,最近一周每天都在涨5%左右。”林夏点点头,拨通了客户运维的电话:“张工,你们的存储集群快满了,是不是最近在做历史数据迁移?需要我们协助扩容吗?”

电话那头的张工恍然大悟:“对,我们在迁去年的订单数据,忘了跟你们说!麻烦你们帮我们扩容到100TB,今晚就得弄,不然明天白天影响订单入库。”