Title: Data Engineer – Hệ thống Kho dữ liệu tập trung (Data Lakehouse / EDW)
Level: Mid- Sen
Địa điểm làm việc: Văn phòng SotaTek hoặc Vendor triển khai
Mô tả công việc:
Data Engineer chịu trách nhiệm xây dựng và vận hành nền tảng dữ liệu dùng cho AI, nghiên cứu khoa học, dashboard vận hành và phân tích báo cáo của bệnh viện.
Nhiệm vụ chính:
Thiết kế – xây dựng – vận hành pipeline dữ liệu
Thu thập dữ liệu từ HIS, LIS, RIS, PACS, EMR và các hệ thống vệ tinh.
Xây dựng ETL/ELT pipeline theo tiêu chuẩn healthcare (HL7, FHIR).
Tích hợp dữ liệu thời gian thực hoặc near real- time (CDC).
Xây dựng Data Lake / Data Warehouse
Thiết kế schema (Star/Snowflake, Lakehouse – Iceberg/Delta/Parquet).
Dữ liệu lâm sàng, xét nghiệm, chẩn đoán hình ảnh, viện phí, bảo hiểm.
Chuẩn hoá dữ liệu theo ICD- 10, LOINC, SNOMED- CT (nếu có).
Tối ưu hóa dữ liệu & hiệu năng
Tối ưu storage, partition, indexing.
Tối ưu query engine (Presto/Trino/Spark/ClickHouse/Postgres).
Đảm bảo chất lượng dữ liệu (Data Quality)
Phát hiện dữ liệu lỗi, mapping sai, thiếu trường.
Xây bộ kiểm tra: completeness, validity, consistency.
Vận hành nền tảng dữ liệu
CI/CD cho pipeline dữ liệu.
Quản lý metadata, lineage (OpenMetadata/Amundsen).
Orchestration (Airflow, Dagster).
Bảo mật & compliance
Đảm bảo chuẩn bảo mật: HIPAA- like, NIST, ISO 27001.
Triển khai masking, tokenization, de- identification dữ liệu bệnh nhân.
Hỗ trợ team BI & AI
Tối ưu dataset cho ML, feature store (nếu có).
Cung cấp dataset sạch cho phân tích, dashboard, mô hình AI.
Yêu cầu Bắt buộc:
2–4 năm kinh nghiệm làm Data Engineer.
Thành thạo SQL, tối ưu truy vấn, xử lý dữ liệu lớn.
Có kinh nghiệm với:
Python
hoặc
Scala
Kinh nghiệm thiết kế & vận hành pipeline ETL/ELT.
Hiểu về kiến trúc Data Warehouse / Data Lake / Lakehouse.
Apache Airflow, Spark, Trino/Presto, Kafka (hoặc tương đương)
DB: PostgreSQL, ClickHouse, MySQL, SQL Server…
Data Lake: Iceberg / Delta Lake / Hive / Parquet
Ưu tiên mạnh (Healthcare domain)
Biết chuẩn: HL7 v2/v3, FHIR, ICD- 10, LOINC, DICOM.
Kinh nghiệm với data governance & lineage.
Từng xử lý dữ liệu y tế: HIS, LIS, RIS, PACS, EMR.
Thái độ & kỹ năng mềm:
Giao tiếp tốt, phối hợp với BA, BI, AI team.
Cẩn thận, hiểu tầm quan trọng của dữ liệu y tế.
Có tinh thần ownership và trách nhiệm cao.