Chuyên Viên Phân Tích Dữ Liệu (Smart Data Hub)
Mô tả công việc
Thiết kế và vận hành Airflow DAG theo best practices: idempotency, retry strategy, SLA, dependency, secrets/connections, triển khai theo dev/staging/prod.
Thiết kế và phát triển data pipelines (ETL/ELT): ingest, chuẩn hoá, validate chất lượng dữ liệu, xử lý lỗi, replay, backfill và lineage cơ bản.
Container hoá, phối hợp thiết lập CI/CD và quy trình release/rollback; tham gia trực vận hành (monitoring, incident, runbook).
Thiết kế và triển khai cơ chế quản lý Master Data: định nghĩa domain/master entities, quy tắc chuẩn hoá, match/merge/dedup, đồng bộ master sang hệ thống downstream.
Viết tài liệu kỹ thuật gọn, rõ (ADR, pipeline notes) và review code nhằm đảm bảo chất lượng, bảo mật và khả năng mở rộng
Triển khai và vận hành Data Catalog: tự động thu thập metadata, cập nhật lineage, gán owner/steward, thiết lập glossary & tiêu chuẩn đặt tên.
Xây dựng, tối ưu và vận hành Spark jobs: partition strategy, shuffle/join optimization, xử lý skew, theo dõi hiệu năng và chi phí.
Tham gia xây dựng Data Governance: data policy, phân quyền truy cập theo role, quy trình phê duyệt truy cập, audit log, data retention & lifecycle.
Thiết kế/duy trì Metadata layer: data dictionary, schema/versioning (schema registry/contract nếu áp dụng), tagging & classification.
Thiết kế biện pháp phòng chống rò rỉ dữ liệu (DLP): phân loại dữ liệu nhạy cảm, masking/tokenization, kiểm soát export/egress, theo dõi truy cập bất thường.
Yêu cầu công việc
Bằt buộc:
Thành thạo ít nhất 1 ngôn ngữ: Python (Airflow) hoặc Java/Scala (Spark, Camel) hoặc TypeScript (data service); ưu tiên biết thêm ngôn ngữ thứ 2.
Tư duy hệ thống, phân tích root- cause; phối hợp tốt với product/data/ops; chủ động báo cáo tiến độ và rủi ro
Nắm nguyên tắc Data Governance: phân quyền truy cập, audit, retention, phân loại dữ liệu nhạy cảm (PII/Confidential) và quy trình phê duyệt truy cập.
SQL tốt và có kinh nghiệm với RDBMS (PostgreSQL/MySQL); hiểu index và query tuning ở mức thực dụng.
Hiểu và vận hành Apache Airflow: DAG design, retries, backfill/catchup, dependency, secrets/config.
Nắm khái niệm Master Data/Reference Data; hiểu match/merge/dedup và nguyên tắc data quality (completeness, consistency, accuracy, timeliness).
Từ 2+ năm kinh nghiệm làm backend/data platform, ưu tiên có dự án xử lý dữ liệu/pipeline.
Kinh nghiệm Docker: Dockerfile/compose, network/volume, cấu hình theo môi trường và secrets cơ bản.
Hiểu và vận hành Apache Spark: transformations/actions, partitioning, shuffle/join strategy, đọc/ghi Parquet/ORC; biết debug qua Spark UI/logs.
Hiểu metadata/lineage/ownership trong phát triển pipeline.
Tư duy bảo mật dữ liệu: encryption, masking, hạn chế exposure qua API/export và nguyên tắc least privilege.
Ưu tiên:
Kinh nghiệm DLP/security controls: row/column- level security, kiểm soát egress, anomaly detection cho truy cập dữ liệu.
Message streaming (Kafka/RabbitMQ): consumer group/offset, ordering, at- least- once vs exactly- once (concept).
Kinh nghiệm từ 2 năm làm việc trong lĩnh vực BA, ERP Consultant, hoặc triển khai phần mềm quản trị doanh nghiệp (ưu tiên ứng viên có kinh nghiệm thực tế với Odoo).
Đã từng triển khai Data Catalog hoặc MDM tool; hiểu Data Contracts / schema registry & schema evolution.
Observability: Prometheus/Grafana, ELK/OpenSearch; tracing (OpenTelemetry).
Data quality/lineage/catalog tooling: OpenMetadata hoặc tương đương.
Kubernetes/Helm; kinh nghiệm triển khai Airflow/Spark trên cluster.
Lakehouse/table format: Delta/Iceberg/Hudi; query engine: Trino/Presto/ClickHouse.
Quyền lợi
Thử việc hưởng 100% lương;
Có cơ hội được đào tạo phát triển và thăng tiến.
Mức lương hấp dẫn thỏa thuận theo năng lực,thỏa thuận theo năng lực;
Vui chơi, du lịch + các hoạt động team building;
Thưởng ngày Lễ/Tết, hiệu suất công việc;
Thời gian làm việc linh hoạt từ T2- T6;
Môi trường làm việc trẻ trung, năng động, tài năng;
Mức lương cạnh tranh, đánh giá hiệu quả công việc định kỳ;
Cập nhật gần nhất lúc: 2026-02-12 09:35:04














