Job purpose
Chịu trách nhiệm thiết kế và triển khai hệ thống kiểm soát chất lượng cho các sản phẩm AI từ PoC đến Production, đảm bảo sản phẩm đáp ứng các tiêu chí về hiệu năng, độ tin cậy, tính công bằng, khả năng giải thích và tuân thủ trước khi đưa vào vận hành thông qua:
• Phối hợp cùng với AI Engineer, MLOps, PO AI để tích hợp các tiêu chuẩn QC xuyên suốt quá trình phát triển, huấn luyện và triển khai AI.
• Xây dựng khung kiểm thử với “cổng chất lượng” (quality gates) rõ ràng.
• Thiết kế quy trình kiểm thử đánh giá độ chính xác, khả năng giải thích và tính công bằng của mô hình.
• Phát hiện và ngăn ngừa rủi ro trước khi phát hành, tạm dừng roll- out và đề xuất biện pháp khắc phục.
Job Responsibilities
Xây dựng khung kiểm thử AI
• Liên tục cải tiến khung QC dựa trên dữ liệu Production, phản hồi từ người dùng, DevOps, AI Engineer.
• Xác định chỉ số đánh giá phù hợp với sản phẩm AI: hiệu năng, độ tin cậy, tính công bằng, khả năng giải thích, mức độ phù hợp ngữ cảnh.
• Xây dựng cơ chế kiểm thử theo hướng Data – Centric và mở rộng cho multi- agent.
• Thiết kế và phát triển khung kiểm thử AI với quality gates cho từng giai đoạn PoC- > Staging- > Production.
Triển khai & vận hành kiểm thử
• Thiết lập và triển khai khung đánh giá rủi ro chất lượng AI: bias, drift, prompt failure, hiện tượng hallucination.
• Xây kịch bản và tổ chức kịch bản kiểm thử AI:
• Thủ công: Edge- case detection, kiểm thử trải nghiệm người dùng với đầu ra không cố định.
• Liên tục đánh giá hiệu quả Phương pháp, công cụ kiểm thử, nghiên cứu bổ sung giải pháp mới.
• Tham vấn và hỗ trợ AI Engineer, Data Team chuẩn hoá dữ liệu kiểm thử, lựa chọn ground truth theo từng use case và user segment.
• Tích hợp toàn bộ quy trình kiểm thử vào chuỗi CI/CD AI first: đảm bảo các bạn cập nhật mô hình đều được kiểm tra chất lượng trước khi triển khai thực tế.
• Tự động: Kiểm thu hồi quy (regression), stress test đầu vào, kiểm thử chống phá (adversarial), kiểm thử thống kế (distributional tests).
Đánh giá & ngăn ngừa rủi ro AI
• Thiết lập quy trình phê duyệt lại trước khi phát hành bản sửa.
• Đề xuất và phối hợp triển khai các biện pháp remediation: huấn luyện lại mô hình, điều chỉnh prompt, tinh chỉnh tham số.
• Phân tích nguyên nhân lỗi: model bias, data drift, prompt failure.
Giám sát chất lượng Production
• Chủ động đưa ra quyết định tạm dừng roll- out hoặc roll- back mô hình khi phát hiện các rủi ro vượt mức an toàn trong quality gate, kích hoạt các quy trình kiểm định lại đối với các model không đạt yêu cầu chất lượng, ảnh hưởng tới người dùng cuối.
• Thiết lập dashboard giám sát realtime toàn bộ hoạt động AI Production với các chỉ số cốt lõi: độ trễ phản hồi (latency), mức xử lý (throughput), tỷ lệ lỗi (error rate), sự bất thường đầu ra …
Phát triển năng lực đội ngũ
• Soạn thảo tài liệu hướng dẫn, checklist kiểm thử cho từng loại agent.
• Tổ chức workshop internal về phương pháp kiểm thử AI.
• Hướng dẫn Tester áp dụng khung kiểm thử AI đã chuẩn hoá, vận hành các công cụ kiểm thử.