Data Engineer Scala, Python, SQL

CÔNG TY TNHH GIẢI PHÁP BRAIN TECH
Mức lương
Đang cập nhật
Địa điểm làm việc
Phú Nhuận, Hồ Chí Minh
Kinh nghiệm yêu cầu
Cập nhật
Thông tin cơ bản

Mô tả công việc

Mô tả công việc

Xây dựng và quản lý hệ thống tích hợp dữ liệu (Data Pipelines):

Thiết kế, triển khai và tối ưu hóa các quy trình ETL (Extract, Transform, Load) và ELT (Extract, Load, Transform) để chuyển đổi dữ liệu từ nhiều nguồn khác nhau.
Làm việc với đa dạng các nguồn dữ liệu:
Nguồn dữ liệu streaming (thời gian thực): Kafka, Pub/Sub... ·
APIs: RESTful APIs, GraphQL...
Cơ sở dữ liệu NoSQL: Elasticsearch, Redis, Cassandra...
Cơ sở dữ liệu quan hệ (SQL) như Oracle, PostgreSQL, MySQL,...
Nguồn dữ liệu dạng file: CSV, JSON, Parquet,...
Giám sát, xử lý sự cố và đảm bảo độ tin cậy, tính sẵn sàng và hiệu suất của các pipeline.
Sử dụng các công cụ điều phối (orchestration tools) như Apache Nifi, Apache Airflow để lên lịch và tự động hóa các pipeline.

Xử lý, làm giàu và trình diễn dữ liệu:

Thực hiện các kỹ thuật làm sạch dữ liệu (data cleaning): xử lý dữ liệu thiếu (missing values), trùng lặp (duplicates), sai định dạng,..
Đảm bảo chất lượng và tính toàn vẹn của dữ liệu trong suốt quá trình xử lý.
Thiết kế và xây dựng các bảng dữ liệu (data mart), kho dữ liệu (data warehouse) hoặc các API dữ liệu phục vụ nhu cầu truy xuất, phân tích, báo cáo bằng Trino, Superset,...
Phát triển các logic chuyển đổi dữ liệu phức tạp bằng Scala, Python, SQL hoặc Spark, Flink để làm sạch, chuẩn hóa và định hình lại dữ liệu thô.
Xây dựng các quy trình làm giàu dữ liệu (data enrichment) bằng cách kết hợp dữ liệu từ nhiều nguồn khác nhau để tạo ra các trường thông tin mới có giá trị hơn.

Quản lý hạ tầng và kiến trúc dữ liệu:

Phối hợp với đội ngũ DevOps để triển khai và quản lý hạ tầng dữ liệu trên nền tảng Kubernetes.
Tham gia vào việc thiết kế mô hình dữ liệu (data modeling) và kiến trúc kho dữ liệu để tối ưu hóa cho việc truy vấn và phân tích.
Làm việc với các nền tảng dữ liệu hiện đại như Data Warehouse (StarRocks, ClickHouse) và Data Lake (S3, Iceberg).

Hợp tác và hỗ trợ:

Tuân thủ các best practice về phát triển phần mềm (version control với Git, CI/CD, code review).
Viết tài liệu kỹ thuật rõ ràng cho các pipeline và quy trình dữ liệu đã xây dựng.
Làm việc chặt chẽ với nhóm Data Scientist và Data Analyst để hiểu rõ yêu cầu và cung cấp dữ liệu chất lượng cao, đáp ứng đúng nhu cầu.

Yêu cầu công việc

Yêu cầu công việc

Yêu cầu bắt buộc:

Thành thạo ít nhất một ngôn ngữ lập trình, ưu tiên Scala, Python, và có kiến thức vững chắc về SQL để truy vấn và thao tác dữ liệu phức tạp.
Tư duy logic, kỹ năng giải quyết vấn đề xuất sắc và khả năng làm việc độc lập cũng như làm việc nhóm.
Tốt nghiệp Đại học chuyên ngành Công nghệ thông tin, Toán tin, Khoa học dữ liệu hoặc lĩnh vực liên quan.
Có kinh nghiệm thực tế trong việc xây dựng và vận hành các pipeline ETL/ELT.
Hiểu biết về các công nghệ Big Data như Apache Spark, Apache Flink là một lợi thế lớn.
Tối thiểu 2- 3 năm kinh nghiệm ở vị trí Data Engineer hoặc các vai trò tương tự.

Yêu cầu ưu tiên (Điểm cộng):

Khả năng đọc hiểu tài liệu kỹ thuật bằng tiếng Anh tốt.
Có kinh nghiệm với các công cụ điều phối pipeline như Apache Nifi.
Kinh nghiệm với containerization (Docker, Kubernetes).
Hiểu biết về các hệ thống dữ liệu streaming như Kafka.

Quyền lợi

Tại sao bạn sẽ yêu thích làm việc tại đây

Môi trường, điều kiện làm việc chuyên nghiệp, tiện nghi, hiện đại, rộng rãi, thân thiện với môi trường, chuẩn văn phòng hạng B+.
Hỗ trợ chi phí đi công tác.
Các hoạt động Team building theo Quý và du lịch hàng năm.
Được cung cấp trang thiết bị làm việc (Macbook, LCD 24”, Laptop,...).
Mức lương cạnh tranh, tương xứng với năng lực và kinh nghiệm. Được đánh giá lương tối thiểu 1 lần/năm.
Được xem xét tài trợ kinh phí các chương trình đào tạo, tham gia hội thảo trong nước và quốc tế giúp nâng cao năng lực, phục vụ công việc.
Được đánh giá năng lực làm việc theo quý/năm và nâng cấp bậc trong công việc; làm việc, cộng tác cùng đội ngũ nhân sự chất lượng cao, chuyên gia theo mô hình quản trị dựa trên OKRS, SAFe; nhiều cơ hội phát triển năng lực, thăng tiến sự nghiệp dựa trên năng lực và giá trị của bản thân.
Được hưởng đầy đủ các chế độ phúc lợi theo luật Lao động Việt Nam (BHXH, BHYT, BHTN).
Phụ cấp ăn sáng, ăn trưa và tiền gửi xe.
Thưởng Lễ, Tết, Sinh nhật, Kết hôn.
Được ghi nhận, thưởng theo năng lực và hiệu quả công việc hàng quý/năm và theo quy định của Công ty.

Cập nhật gần nhất lúc: 2025-09-22 15:50:02

Xem thêm

Đặc điểm công việc

Hạn nộp hồ sơ
27/10/2025
Hình thức làm việc
Đang cập nhật
Cấp bậc
Nhân Viên
Số lượng cần tuyển
Đang Cập Nhật
Ngành nghề
IT phần mềm
Khu vực
Phú Nhuận, Hồ Chí Minh
Xem thêm
Xem thêm
Người tìm việc lưu ý:
Bạn đang xem tin Data Engineer Scala, Python, SQL - Mã tin đăng: 5285545. Mọi thông tin liên quan tới tin tuyển dụng này là do người đăng tin đăng tải và chịu trách nhiệm. Chúng tôi luôn cố gắng để có chất lượng thông tin tốt nhất, nhưng chúng tôi không đảm bảo và không chịu trách nhiệm về bất kỳ nội dung nào liên quan tới tin việc làm này. Nếu người tìm việc phát hiện có sai sót hay vấn đề gì xin hãy báo cáo cho chúng tôi

CÔNG TY TNHH GIẢI PHÁP BRAIN TECH

Quy mô: Cập nhật
Trụ sở: Cập nhật

Bí kíp tìm việc an toàn

Dưới đây là những dấu hiệu của các tổ chức, cá nhân tuyển dụng không minh bạch:
1. Dấu hiệu phổ biến:
Hình ảnh 1
Nội dung mô tả công việc sơ sài, không đồng nhất với công việc thực tế
Hình ảnh 2
Hứa hẹn "việc nhẹ lương cao", không cần bỏ nhiều công sức dễ dàng lấy tiền "khủng"
Hình ảnh 3
Yêu cầu tải app, nạp tiền, làm nhiệm vụ
Hình ảnh 4
Yêu cầu nộp phí phỏng vấn, phí giữ chỗ...
Hình ảnh 5
Yêu cầu ký kết giấy tờ không rõ ràng hoặc nộp giấy tờ gốc
Hình ảnh 6
Địa điểm phỏng vấn bất bình thường
2. Cần làm gì khi gặp việc làm, công ty không minh bạch:
- Kiểm tra thông tin về công ty, việc làm trước khi ứng tuyển
- Báo cáo tin tuyển dụng với 123job thông qua nút "Báo cáo tin tuyển dụng" để được hỗ trợ và giúp các ứng viên khác tránh được rủi ro
- Hoặc liên hệ với 123job thông qua kênh hỗ trợ ứng viên của 123job:
Hotline: 0961.469.398

Việc làm đề xuất liên quan

Việc làm đã xem gần đây