Mô tả công việc
Xây dựng và quản lý hệ thống tích hợp dữ liệu (Data Pipelines):
Thiết kế, triển khai và tối ưu hóa các quy trình ETL (Extract, Transform, Load) và ELT (Extract, Load, Transform) để chuyển đổi dữ liệu từ nhiều nguồn khác nhau.
Làm việc với đa dạng các nguồn dữ liệu:
Nguồn dữ liệu streaming (thời gian thực): Kafka, Pub/Sub... ·
APIs: RESTful APIs, GraphQL...
Cơ sở dữ liệu NoSQL: Elasticsearch, Redis, Cassandra...
Cơ sở dữ liệu quan hệ (SQL) như Oracle, PostgreSQL, MySQL,...
Nguồn dữ liệu dạng file: CSV, JSON, Parquet,...
Giám sát, xử lý sự cố và đảm bảo độ tin cậy, tính sẵn sàng và hiệu suất của các pipeline.
Sử dụng các công cụ điều phối (orchestration tools) như Apache Nifi, Apache Airflow để lên lịch và tự động hóa các pipeline.
Xử lý, làm giàu và trình diễn dữ liệu:
Thực hiện các kỹ thuật làm sạch dữ liệu (data cleaning): xử lý dữ liệu thiếu (missing values), trùng lặp (duplicates), sai định dạng,..
Đảm bảo chất lượng và tính toàn vẹn của dữ liệu trong suốt quá trình xử lý.
Thiết kế và xây dựng các bảng dữ liệu (data mart), kho dữ liệu (data warehouse) hoặc các API dữ liệu phục vụ nhu cầu truy xuất, phân tích, báo cáo bằng Trino, Superset,...
Phát triển các logic chuyển đổi dữ liệu phức tạp bằng Scala, Python, SQL hoặc Spark, Flink để làm sạch, chuẩn hóa và định hình lại dữ liệu thô.
Xây dựng các quy trình làm giàu dữ liệu (data enrichment) bằng cách kết hợp dữ liệu từ nhiều nguồn khác nhau để tạo ra các trường thông tin mới có giá trị hơn.
Quản lý hạ tầng và kiến trúc dữ liệu:
Phối hợp với đội ngũ DevOps để triển khai và quản lý hạ tầng dữ liệu trên nền tảng Kubernetes.
Tham gia vào việc thiết kế mô hình dữ liệu (data modeling) và kiến trúc kho dữ liệu để tối ưu hóa cho việc truy vấn và phân tích.
Làm việc với các nền tảng dữ liệu hiện đại như Data Warehouse (StarRocks, ClickHouse) và Data Lake (S3, Iceberg).
Hợp tác và hỗ trợ:
Tuân thủ các best practice về phát triển phần mềm (version control với Git, CI/CD, code review).
Viết tài liệu kỹ thuật rõ ràng cho các pipeline và quy trình dữ liệu đã xây dựng.
Làm việc chặt chẽ với nhóm Data Scientist và Data Analyst để hiểu rõ yêu cầu và cung cấp dữ liệu chất lượng cao, đáp ứng đúng nhu cầu.