Mô tả công việc:
Thực hiện triển khai và thay đổi hệ thống, đảm bảo an toàn khi release, tự động hóa vận hành, xử lý incident mức trung bình đến cao và duy trì SLO cho các dịch vụ đang vận hành.
– Chuẩn hóa runbook thành automation nhằm giảm thao tác thủ công và hạn chế rủi ro sai sót
– Theo dõi xu hướng tiêu thụ CPU, RAM, storage, network; đề xuất kế hoạch cấp phát và mở rộng tài nguyên
– Tiếp nhận yêu cầu triển khai từ Phòng Phần mềm, thực hiện đầy đủ các bước theo quy trình: test → deploy → monitor → verify
– Phối hợp với SOC/ATTT trong công tác ứng phó sự cố an toàn thông tin: cung cấp log/trace, triển khai biện pháp giảm thiểu như rate limit, WAF rule, patch hoặc mitigation liên quan đến dịch vụ
– Khoanh vùng sự cố và khôi phục dịch vụ theo SLA; phối hợp với Dev và Infra để điều tra nguyên nhân
– Thiết lập và duy trì cơ chế tự động rollback khi health check hoặc SLO vi phạm, hoặc khi quá trình deploy thất bại
– Thiết kế, xây dựng và vận hành automation cho change, upgrade và kiểm tra configuration drift bằng Ansible, Terraform, script hoặc CI/CD
– Tối ưu hệ thống alerting: threshold, suppression, routing và deduplication để giảm nhiễu
– Thực hiện mitigation, rollback hoặc hotfix theo quy trình đã phê duyệt
– Tham gia trực incident 24/7, đóng vai trò primary responder khi NOC/AppOps kích hoạt
– Tối ưu hiệu năng và độ ổn định của hệ thống thông qua caching, tuning resource requests/limits và scale policy trong phạm vi cho phép
– Thực hiện RCA sơ bộ sau sự cố, đề xuất action items và cập nhật runbook, monitoring nhằm tránh tái diễn
– Xây dựng và duy trì các tài liệu vận hành: release runbook, automation catalog, CI/CD pipeline documentation, incident playbook và on- call handover
– Xây dựng dashboard theo từng service, thiết lập alert dựa trên SLI như latency, error rate, saturation, availability
– Thực hiện các hình thức triển khai canary, blue- green hoặc rolling theo kiến trúc hệ thống, đảm bảo các “gate” kiểm soát rủi ro
Yêu cầu công việc:
– Có kinh nghiệm xây dựng runbook chuẩn hóa theo ITIL là điểm cộng
– Thành thạo monitoring và logging với Prometheus, Grafana, ELK hoặc các công cụ tương đương
– Tốt nghiệp Đại học trở lên đúng nhóm ngành theo yêu cầu
– Nắm vững hệ điều hành Linux, có khả năng scripting (Bash/Python) hoặc làm việc với IaC/automation như Ansible, Terraform
– Ưu tiên ứng viên có kinh nghiệm với Kubernetes, Docker, Helm hoặc GitOps (ArgoCD)
– Có kinh nghiệm với hệ thống CI/CD như GitLab CI, Jenkins; triển khai an toàn và thực hiện rollback
– Có kinh nghiệm sử dụng APM/tracing như Jaeger, Tempo hoặc công cụ SLO là lợi thế
– Có từ 6 tháng kinh nghiệm vận hành hệ thống, DevOps hoặc SRE
– Hiểu biết cơ bản về HA và scaling; có khả năng đọc metrics và log để khoanh vùng sự cố
– Có kỷ luật trong change management, sẵn sàng tham gia on- call theo phân công
Quyền lợi:
Đãi ngộ (lương, thưởng, review lương):
– Được tham gia các khóa huấn luyện, đào tạo nâng cao kỹ năng, nghiệp vụ của CMC cũng như các hãng công nghệ lớn như Microsoft, IBM, Google…
– Ký hợp đồng lao động, đóng bảo hiểm đầy đủ, nghỉ 12 ngày phép/năm và các ngày Lễ, Tết theo quy định
– Các ngày nghỉ Lễ, Tết theo quy định của Nhà nước và có thưởng theo quy định của công ty
– Xét thưởng và xét tăng lương 2 lần/năm
– Mức lương cứng hấp dẫn + thưởng KPI tháng / quý / năm lũy kế + phúc lợi Lễ Tết + thưởng thâm niên
– Bảo hiểm chăm sóc sức khỏe Aon Care (điều trị nội trú và ngoại trú)
Cơ hội thử thách và phát triển:
– Cơ hội làm việc với tập khách hàng viễn thông hàng đầu thế giới
– Được ủng hộ, trao quyền cho những ý kiến sáng tạo và đột phá
– Cơ hội tiếp cận, đào sâu những công nghệ mới nhất, tiên tiến nhất với tập khách hàng đa ngành và các dự án quy mô lớn
– Cơ hội được làm việc tại công ty công nghệ viễn thông hàng đầu Việt Nam (Top 4)
– Được dẫn dắt, hỗ trợ bởi team lead/chuyên gia ưu tú, đầu ngành trong lĩnh vực
Văn hoá môi trường làm việc:
– Môi trường làm việc trẻ, năng động, sáng tạo, công bằng, kỷ luật
– Chế độ chăm sóc y tế đặc biệt dành cho CBNV
– Văn phòng xanh, đạt tiêu chuẩn quốc tế
– Làm việc 5 ngày/tuần (khoảng 44h/tuần), nghỉ Thứ 7 và Chủ Nhật
– Tham gia gắn kết với tập thể qua các hoạt động team building, CLB chạy bộ, bóng đá, esport, các buổi liên hoan sinh nhật, Lễ Tết…