必备条件:
- 工作和非工作时间,随时响应并快速解决客户问题
-早上6点检查监控状态,如有问题,需要立即推动问题解决
- 具有strong的沟通技巧
- 人员需要稳定
优先条件:
暂无
岗位职责:
1. 事件和服务请求管理,通过 snow 和电子邮件等支持渠道处理来自用户的问题和咨询.
与 l2 团队合作,在服务等级协议 (sla) 要求范围内排除故障并解决事件.
2. 系统问题管理,调查问题并提供潜在解决方案,包括代码故障排除、错误数据逻辑分析以及上下游数据问题识别和修复.
与 l2 支持团队紧密合作,核实工单分类和影响分析,并在 l2 团队的初步分析与实际情况出现偏差时提供更正.
3. 升级和跟踪,及时向上级和内部支持团队升级并跟踪事件/问题状态.
当根本原因分析需要更多时间时,与 l2 团队和其他团队合作,提供变通方案.
对问题进行深入的根本原因分析,并在服务等级协议 (sla) 要求范围内提供最终解决方案.
4. 数据分析支持,协助进行数据比较、验证和系统趋势分析,与 l2 团队合作,共同发现改进机会.
根据需要提供日志文件和详细信息(例如,根据新的 api 数据比对结果制定增强解决方案).
5. 解决数据问题,无论其涉及新场景还是已知场景.
根据数据问题模式增强运营平台,并为 l2 提供日常运营所需的数据维护工具.
6 系统维护与监控:执行常规系统检查和监控任务,包括计划作业检查、服务器性能监控、数据库连接验证、系统数据同步监控、系统证书管理、可用性检查以及基础设施健康评估等.
与 l2 合作进行每日晨间数据审查.
例如,监控证书到期日期并在到期前一个月发送通知,并在修补程序、变更或服务中断后验证系统和数据的可用性.
7. 修补程序管理:根据影响级别和业务需求部署错误修复
与内部团队协调以确保及时解决问题,并根据业务关键时间段安排紧急修补程序窗口.
8. 发布与变更管理支持,协助项目团队和运维人员完成项目范围内的重大系统变更,包括发布环境准备、发布任务执行以及参与系统测试/质量保证等.
9. 管理生产、测试和其他环境
处理 git 分支管理
优化系统日志和健康检查流程等.
10. 通过解决 epa/scas/ccsl 和其他评估中发现的风险,解决安全问题.
11. 系统稳健性管理,提升系统性能和可靠性
主动修复潜在问题,例如监控和改进 tp99 延迟、进行例行稳健性检查以及优化日志管理等.
12. 根据 infra规则支持定期系统升级,并与infra平台 合作解决基础设施问题,例如定期补丁部署、基础设施版本升级、sdk 升级、软件框架版本升级等.
13. 进行从开发到运维的运维交接培训
验证培训文档内容,确保其符合运维要求.
14. 知识管理,生成并维护运维知识
向 l2 支持提供内部知识转移课程和文档.
根据需要为主机厂和经销商用户提供培训.
15. 所有知识内容均需根据mb要求输出/更新,例如运营流程文档、sop、常见问题解答等.
16. 沟通与通知支持:协助l2进行沟通和通知管理,包括评估集成/受影响的系统、评估影响并提出解决方案等.
17. 针对不涉及重大功能变更的业务变更实施系统调整
18. 业务驱动调查:根据业务需求调查系统功能和逻辑
根据当前系统状态提供解决方案,并将发现的新需求转发给应用程序开发团队.
19. 根据客户的要求,提供技术、数据、功能和逻辑澄清支持.
20. 根据既定规则和流程提供运营支持,例如事件管理、重大事件管理、用户访问管理、特殊数据操作、修补程序和发布管理等.
定期提交运营报告,并向 l2 提供必要的应用程序和基础设施监控数据.
22. 提供详细的工作清单,其中包含事件和任务详情,用于验证交付成果,涵盖事件解决时间、任务类别、任务内容和任务处理时间等.
任职要求:
通过配置或小代码变更满足紧急业务需求,例如增强数据同步逻辑、数据清理等.