Tổng quan về vị trí:
Chúng tôi đang tìm kiếm một Kỹ sư Quản lý Độ tin cậy (SRE) có kỹ năng chuyên môn cao để tham gia vào vận hành, đảm bảo hệ thống công nghệ thông tin cho chuỗi sản xuất và bán lẻ hàng thời trang và gia dụng, với hàng trăm cửa hàng trên toàn quốc.
Ứng viên sẽ chịu trách nhiệm xây dựng và duy trì cơ sở hạ tầng hoạt động ổn định, kiểm soát rủi ro để hỗ trợ nền tảng công nghệ bao gồm Python, Postgres, Redis, RabbitMQ, VMWare, NodeJS, MongoDB, MySQL và Linux.
Nhiệm vụ chính:
Quản lý Cơ sở hạ tầng:
Tối ưu hóa và quản lý cơ sở dữ liệu sử dụng Postgres, MongoDB đảm bảo hiệu suất cao và độ tin cậy.
Thiết kế, triển khai và duy trì cơ sở hạ tầng có tính sẵn sàng cao và khả năng mở rộng bằng cách sử dụng VMWare cho ảo hóa.
Cấu hình và duy trì các dịch vụ middleware như Redis và RabbitMQ để hỗ trợ nhu cầu ứng dụng.
Giám sát Hệ thống và Ứng phó Sự cố:
Phát triển và triển khai các chiến lược giám sát cho tất cả các lớp của nền tảng công nghệ, bao gồm hiệu suất của ứng dụng, tình trạng hệ thống và sự ổn định về hạ tầng mạng.
Giám sát Hệ thống và Ứng phó Sự cố:
Triển khai các quy trình cảnh báo tự động và ứng phó sự cố để giải quyết các vấn đề một cách nhanh chóng và hiệu quả.
Phát triển và triển khai các chiến lược giám sát cho tất cả các lớp của nền tảng công nghệ, bao gồm hiệu suất của ứng dụng, tình trạng hệ thống và sự ổn định về hạ tầng mạng.
Chủ động xác định các vấn đề tiềm ẩn và giải quyết sự cố để giảm thiểu thời gian ngừng hoạt động và đảm bảo tính sẵn sàng 24/7.
Điều chỉnh và Tối ưu hóa Hiệu suất:
Hợp tác với các nhóm phát triển để tối ưu hóa các ứng dụng Python, NodeJS về hiệu suất và khả năng mở rộng.
Tinh chỉnh cơ sở dữ liệu Postgres, MongoDB, MySQL để xử lý hiệu quả các khối lượng truy vấn lớn và phức tạp.
Liên tục đánh giá và tối ưu hóa hiệu suất hệ thống, tập trung vào việc giảm độ trễ và tăng khả năng xử lý.
Tự động hóa và Công cụ giám sát
Triển khai áp dụng Infrastructure as Code (IaC) để đảm bảo tính nhất quán và khả năng tái sử dụng trong quá trình triển khai.
Phát triển và duy trì các công cụ tự động hóa để cải thiện hiệu quả hoạt động, bao gồm các quy trình triển khai, quản lý cấu hình và các công cụ giám sát.
Hợp tác và Giao tiếp:
Làm việc chặt chẽ với các nhóm phát triển, vận hành và sản phẩm để đảm bảo việc triển khai và vận hành trơn tru các ứng dụng, đặc biệt là Odoo.
Tham gia vào việc đánh giá mã nguồn, thảo luận về kiến trúc và cung cấp các hướng dẫn về độ tin cậy và khả năng mở rộng của hệ thống cho đội ngũ phát triển.
Bảo mật và Tuân thủ:
Thường xuyên thực hiện các đánh giá và kiểm tra bảo mật, và giải quyết các lỗ hổng một cách kịp thời.
Triển khai và duy trì các thực tiễn tốt nhất về bảo mật trên toàn bộ cơ sở hạ tầng, đảm bảo tuân thủ các tiêu chuẩn và quy định của ngành.
Lập kế hoạch Năng lực và Phục hồi sau Thảm họa:
Tiến hành lập kế hoạch năng lực để đảm bảo cơ sở hạ tầng có thể đáp ứng các nhu cầu hiện tại và tương lai.
Phát triển và duy trì các kế hoạch phục hồi sau thảm họa để đảm bảo tính liên tục của hoạt động kinh doanh trong trường hợp xảy ra các sự cố lớn.