ai-career · Vietnamese · 20 min
🇺🇸 Read in EnglishBản Đồ Toàn Diện Ngành DS/AI: Vai Trò, Lộ Trình Kỹ Năng, và Thị Trường Việt Nam
May 18, 2026
Dữ liệu tính đến tháng 5/2026Từ taxonomy vai trò đến lộ trình kỹ năng, từ bản đồ sự nghiệp đến danh sách công ty đang tuyển ở Việt Nam — tất cả trong một tài liệu tham khảo. Dùng được cho người mới hoàn toàn lẫn junior đang định hướng chuyên sâu.
Dữ liệu tính đến tháng 5/2026 — Lĩnh vực này thay đổi nhanh. Một số số liệu, mô hình, hoặc công cụ có thể đã được cập nhật.
Nếu bạn đang cố tìm hiểu ngành DS/AI, bạn sẽ gặp rất nhiều thông tin mâu thuẫn nhau: một người nói học Python là đủ, một người nói cần biết toán thống kê sâu, một người nói cứ học LLM là xong. Phần lớn những lời khuyên này đúng trong một hoàn cảnh nhất định — và sai với hoàn cảnh của bạn.
Bài này không phải bài viết đọc một lần. Đây là tài liệu tham khảo — bạn có thể đọc toàn bộ lần đầu để có bức tranh tổng thể, rồi quay lại từng phần khi cần trong quá trình xây dựng sự nghiệp. Nó bao gồm:
- Taxonomy đầy đủ các vai trò trong ngành (không phải chỉ "Data Scientist")
- Bản đồ sự nghiệp — 5 tầng kiến trúc, nhánh chữ Y, IC vs Management
- 4 track chuyên môn và cách chọn track phù hợp với bạn
- Lộ trình kỹ năng theo từng giai đoạn (năm 0–1, 1–3, 3+)
- Ngành và ứng dụng — ngành nào cần kỹ năng gì
- Thị trường Việt Nam — công ty, mức lương, cơ hội
- Cách phá rào cản đầu tiên — portfolio, phỏng vấn, kế hoạch hành động
Phần 1: Giải Mã Ngành — Thực Ra Có Những Vai Trò Nào?
Nhiều người mới vào nghề nghĩ ngành này chỉ có "Data Scientist". Thực ra có hàng chục vai trò khác nhau, mỗi vai trò trả lời một câu hỏi khác nhau về dữ liệu.
Taxonomy đầy đủ
| Nhóm vai trò | Vai trò cụ thể | Câu hỏi trả lời |
|---|---|---|
| Analytics | Data Analyst, BI Developer, Analytics Engineer | Chuyện gì đã xảy ra? Tại sao? |
| Data Engineering | Data Engineer, Data Platform Engineer, Analytics Engineer | Dữ liệu đến từ đâu, lưu ở đâu, pipeline sạch như thế nào? |
| Data Science | Data Scientist, Applied Scientist, Research Scientist | Chuyện gì sẽ xảy ra? Model tốt nhất cho bài toán này là gì? |
| ML Engineering | ML Engineer, MLOps Engineer, AI Engineer | Model đưa vào production như thế nào? Làm thế nào để maintain? |
| AI Engineering | AI Engineer, LLM Engineer, Prompt Engineer | Xây ứng dụng AI/GenAI thực tế như thế nào? |
| AI Research | Research Scientist, Applied Research Scientist | Phương pháp mới nào cho phép AI làm được điều chưa làm được? |
| AI Product & Governance | AI Product Manager, Responsible AI Architect, AI Ethics | AI tạo ra giá trị gì? Có an toàn và tuân thủ pháp lý không? |
Tại sao cùng tiêu đề "Data Scientist" lại đòi hỏi những thứ hoàn toàn khác nhau?
Đây là câu hỏi gây nhầm lẫn nhất cho người mới. Câu trả lời đơn giản: vì mỗi công ty định nghĩa vai trò theo bài toán họ cần giải.
- "DS" tại startup nhỏ = làm tất cả: phân tích, xây model, deploy, báo cáo — thực chất là Data Generalist
- "DS" tại ngân hàng = tập trung vào credit scoring và fraud detection với yêu cầu explainability nghiêm ngặt
- "DS" tại e-commerce = recommendation system, A/B testing, demand forecasting
- "DS" tại công ty sản xuất = computer vision, predictive maintenance, anomaly detection
Khi đọc JD, đừng chỉ đọc tiêu đề — đọc phần "Responsibilities" và "Required skills" để hiểu vai trò thực sự là gì.
Phần 2: Bản Đồ Sự Nghiệp — Cấu Trúc Tổng Thể
5 Tầng Kiến Trúc Thị Trường DS/AI
Tầng 5: AI Product / Governance ─── [AI PM, Responsible AI Architect]
↑
Tầng 4: ML Engineering ──────────── [ML Engineer, MLOps, AI Engineer]
↑
Tầng 3: Data Science / Modeling ─── [Data Scientist, Applied Scientist]
↑
Tầng 2: Analytics ───────────────── [Data Analyst, BI Developer]
↑
Tầng 1: Data Engineering ────────── [Data Engineer, Platform Engineer]
Lưu ý quan trọng: đây không phải thứ bậc cấp bậc mà là phân tầng theo câu hỏi. Một Senior Data Engineer được trả lương cao hơn Junior Data Scientist — tầng không bằng với giá trị hay mức lương.
Nhánh Chữ Y — Quyết Định Sau 5–7 Năm
Khoảng năm thứ 5–7, mọi người trong ngành đều phải đối mặt với một lựa chọn có tính định hình:
Junior → Mid → Senior ← ĐIỂM PHÂN NHÁNH
/ \
IC Track Management Track
Staff Engineer Engineering Manager
Principal Engineer Senior Manager
Distinguished Engineer Director → VP
IC Track (Individual Contributor): Đi sâu về kỹ thuật, không quản lý trực tiếp. Ở cấp Principal hay Distinguished, mức lương tương đương Director trong nhiều công ty lớn. Đây là con đường được lựa chọn có chủ đích, không phải "bị kẹt lại".
Management Track: Nhân sức mạnh thông qua đội nhóm — ít code hơn, ảnh hưởng ở tầm tổ chức rộng hơn. Cần kỹ năng quản lý con người và stakeholder communication mạnh.
Khi nào cần quyết định? Bạn không cần quyết định vào năm 1. Nhưng biết mình muốn nhánh nào từ năm 2–3 sẽ giúp bạn chọn kỹ năng bổ sung đúng hướng — IC track cần đi sâu về kỹ thuật, Management track cần rèn kỹ năng leadership và communication sớm hơn.
Mốc Thời Gian Thực Tế
| Cấp độ | Kinh nghiệm | Đặc điểm |
|---|---|---|
| Junior / Entry-level | 0–2 năm | Học cách làm việc trong team thực tế, hiểu codebase có sẵn, hoàn thành task được giao |
| Mid-level | 2–4 năm | Tự chủ trong feature/project nhỏ, bắt đầu mentor junior, đặt câu hỏi về thiết kế |
| Senior | 4–7 năm | Sở hữu toàn bộ initiative lớn, define technical direction, ảnh hưởng cross-team |
| Staff/Principal | 7+ năm (IC) | Giải bài toán cấp tổ chức, công việc có tầm ảnh hưởng đa năm |
| Manager / Director | 4+ năm (Management) | Quản lý team, grow people, define strategy cùng leadership |
Phần 2.5: Sóng GenAI, LLM, và Multi-Agent — Ngành Đang Thay Đổi Ra Sao?
Bất kỳ hướng dẫn nghề nghiệp DS/AI nào viết vào năm 2026 mà không đề cập đến GenAI, LLM, và multi-agent AI đều đang bỏ qua điều quan trọng nhất đang xảy ra với ngành. Không phải để dọa bạn — mà để bạn định hướng đúng ngay từ đầu.
Ba Làn Sóng Thay Đổi Ngành (2020–2026)
Làn sóng 1 — Dân chủ hóa ML (2020–2022): AutoML và low-code platforms bắt đầu tự động hóa một phần việc xây model. Ngưỡng vào ngành hạ thấp hơn — điều này tốt cho cộng đồng, nhưng cũng có nghĩa là basic model building không còn là kỹ năng phân biệt.
Làn sóng 2 — Bùng nổ LLM (2022–2024): ChatGPT ra mắt tháng 11/2022 và thay đổi tốc độ của mọi thứ. Prompt engineering, RAG, fine-tuning, và LLM APIs trở thành kỹ năng thực tế trong vài tháng — không phải vài năm như các công nghệ trước. Track AI Engineering hình thành như một ngành riêng trong giai đoạn này.
Làn sóng 3 — Agentic AI và Multi-Agent Systems (2024–nay): AI không còn chỉ trả lời câu hỏi — nó tự lập kế hoạch, tự dùng công cụ, tự phối hợp với các agent khác để hoàn thành nhiệm vụ phức tạp. Đây là làn sóng đang diễn ra khi bài này được viết và sẽ định hình lại ngành trong 3–5 năm tới.
Cái Gì Đang Bị Disrupt — Và Cái Gì Không
LLMs không thay thế Data Scientist — nhưng chúng đang thay đổi cái gì Data Scientist làm, và cái gì nên được focus.
Đang bị tự động hóa đáng kể:
- Viết SQL đơn giản từ mô tả ngôn ngữ tự nhiên
- Tạo báo cáo và summary cơ bản từ data
- Code boilerplate cho data pipelines và model training
- Tìm kiếm và tổng hợp thông tin từ tài liệu nội bộ (Enterprise RAG)
Đang bị disrupt một phần (vẫn cần người):
- Exploratory data analysis — LLM hỗ trợ tốt nhưng vẫn cần người hiểu kết quả và đặt câu hỏi đúng
- Feature engineering — LLM có thể suggest, nhưng domain expertise quyết định feature nào thực sự có ý nghĩa
- Model evaluation — AI có thể chạy metrics, nhưng không thể đánh giá model có thực sự giải đúng bài toán business không
Trở nên có giá trị hơn — không phải ít hơn:
- Domain knowledge và problem framing: LLM biết mọi thứ chung chung nhưng không biết business cụ thể của bạn. Người hiểu sâu tại sao VPBank cần explainable AI, tại sao COD mechanics ảnh hưởng đến routing algorithm — ngày càng có giá trị.
- System design cho AI production: Xây chatbot đơn giản mất vài giờ với LangChain. Xây RAG system reliable ở production scale, với evaluation framework, monitoring để phát hiện hallucination, cost optimization — đây là bài toán LLM không tự giải được.
- Đánh giá và kiểm soát chất lượng AI output: Khi AI tạo ra nhiều output hơn, nhu cầu về người có thể evaluate chính xác tăng theo. Kỹ năng "biết khi nào AI đang sai" trở thành differentiator thực sự.
- Human judgment trong high-stakes decisions: Ngân hàng có thể dùng AI để screen credit — nhưng quyết định cuối cùng về khoản vay lớn vẫn cần con người chịu trách nhiệm. Người hiểu cả AI lẫn domain có vị trí không thể thay thế.
Multi-Agent AI — Tại Sao Quan Trọng Với Sự Nghiệp Của Bạn
Multi-agent AI là hệ thống gồm nhiều AI agents phối hợp — mỗi agent có vai trò riêng (researcher, analyst, writer, code executor, reviewer). Thay vì một DS ngồi cả ngày phân tích dataset, run models, và viết báo cáo — một pipeline multi-agent có thể làm phần lớn trong vài phút. DS dành thời gian để review, validate, và đưa ra judgment.
Đây không phải viễn cảnh tương lai. Techcombank's Smartie GenAI (trợ lý nhân viên nội bộ) và MoMo's AI assistant đang chạy dạng này trong production tại Việt Nam ngay lúc này.
Điều này có nghĩa gì với career của bạn:
Kỹ năng orchestration — biết thiết kế agent pipeline, phân chia task, define evaluation checkpoints — đang trở thành lợi thế cạnh tranh rõ ràng. Kỹ năng "bắt AI làm đúng" (prompt engineering, agent design, output evaluation) không còn là nice-to-have mà là core competency của DS/AI practitioner năm 2026. Và meta-skill quan trọng nhất: biết khi nào không dùng AI — hiểu giới hạn của LLM (hallucination, context limitations, bias) và biết bài toán nào cần human judgment.
Tốc Độ Thay Đổi — Chiến Lược Để Không Bị Bỏ Lại
Chu kỳ từ "research paper" đến "production-ready tool" đã rút ngắn từ vài năm xuống còn vài tháng:
- RAG: research concept 2020 → enterprise standard 2024
- LoRA fine-tuning: paper 2021 → tool phổ biến 2023
- Agentic AI: research 2023 → production patterns 2025–2026
Tốc độ này sẽ không chậm lại. Chiến lược đúng không phải là học mọi thứ mới ngay khi nó ra — mà là:
Xây nền tảng conceptual vững chắc: Người hiểu tại sao attention mechanism hoạt động sẽ hiểu model mới nhanh hơn người chỉ biết gọi API. Người hiểu sâu về retrieval search sẽ implement RAG tốt hơn người chỉ copy tutorial. Fundamentals không lỗi thời — chúng là thứ cho phép bạn học nhanh.
Theo dõi có chọn lọc: Theo 2–3 nguồn chất lượng cao (Anthropic Research Blog, Hugging Face Blog, Lilian Weng's blog) và focus vào trend có practical implication — không cần đọc mọi paper.
Thực hành trên production problems: Người làm RAG cho real enterprise document sẽ gặp và giải quyết class of problems mà người chỉ làm tutorial không bao giờ thấy — hallucination trong domain cụ thể, chunking issues với tiếng Việt, cost optimization khi scale.
Phần 3: 4 Track Chuyên Môn — Chọn Đường Của Bạn
Track 1: Analytics & Business Intelligence
Bạn làm gì: Biến dữ liệu thô thành insights mà business stakeholders có thể hành động. Dashboard, báo cáo, ad-hoc analysis, A/B test readout.
Bạn trả lời câu hỏi: "Doanh thu tháng này giảm vì đâu?" "Campaign nào hiệu quả nhất?" "Khu vực nào đang underperform?"
Kỹ năng cốt lõi: SQL (bắt buộc và phải giỏi), Python hoặc R cho analysis, visualization (Tableau, Power BI, Looker, hoặc Python Plotly/Seaborn), statistical thinking cơ bản.
Phù hợp với bạn nếu: Bạn thích làm việc gần với business, giải thích insights cho người không kỹ thuật, và thấy thỏa mãn khi giúp team ra quyết định tốt hơn.
Con đường tiêu biểu: Data Analyst → Senior Analyst → Analytics Manager / Analytics Engineer → Head of Analytics
Track 2: Data Science & Machine Learning
Bạn làm gì: Xây model dự báo và phân loại để giải quyết bài toán business. Credit scoring, fraud detection, demand forecasting, churn prediction, recommendation.
Bạn trả lời câu hỏi: "Khách hàng này có trả nợ không?" "Đơn này có phải gian lận không?" "Tuần tới cần bao nhiêu hàng?"
Kỹ năng cốt lõi: Python (scikit-learn, XGBoost, LightGBM), thống kê và xác suất, feature engineering, model evaluation và validation, SQL, hiểu domain sâu.
Phù hợp với bạn nếu: Bạn thích giải bài toán có cấu trúc rõ ràng, thích làm việc với dữ liệu và toán, và thấy thỏa mãn khi model của mình tạo ra impact đo được.
Con đường tiêu biểu: Data Scientist → Senior DS → Staff DS / DS Manager → Principal DS / Director of DS
Track 3: AI Engineering & LLM
Bạn làm gì: Xây ứng dụng AI thực tế dùng LLM và các công nghệ GenAI — chatbot, RAG systems, AI agents, fine-tuning pipeline, evaluation framework.
Bạn trả lời câu hỏi: "Làm sao xây chatbot biết về tài liệu nội bộ của công ty?" "Fine-tune model như thế nào cho domain cụ thể?" "Làm sao đảm bảo AI không hallucinate?"
Kỹ năng cốt lõi: Python, LLM APIs (OpenAI, Anthropic, Google), LangChain/LlamaIndex, vector databases (ChromaDB, Pinecone, Qdrant), prompt engineering, RAG architecture, evaluation methodology.
Phù hợp với bạn nếu: Bạn hứng thú với LLM và GenAI, thích xây ứng dụng người dùng có thể tương tác trực tiếp, và có tư duy engineering (không chỉ model).
Con đường tiêu biểu: AI Engineer → Senior AI Engineer → Staff AI Engineer / AI Engineering Manager → Principal AI Engineer / Head of AI
Track 4: Data Engineering & MLOps
Bạn làm gì: Xây và maintain hạ tầng dữ liệu và AI — data pipelines, data lakes, feature stores, model deployment, CI/CD cho ML, monitoring trong production.
Bạn trả lời câu hỏi: "Làm sao dữ liệu từ 10 nguồn khác nhau về được một nơi sạch sẽ?" "Làm sao deploy model mà không downtime?" "Làm sao phát hiện model drift trước khi nó gây ra vấn đề?"
Kỹ năng cốt lõi: Python, SQL, Spark/dbt, Airflow hoặc Prefect, Docker + Kubernetes, cloud platforms (AWS/GCP/Azure), MLflow, Kafka cho streaming.
Phù hợp với bạn nếu: Bạn thích xây hệ thống chạy tốt ở quy mô lớn, thích tư duy về reliability và scalability, và cảm thấy thỏa mãn khi pipeline chạy trơn tru.
Con đường tiêu biểu: Data Engineer → Senior DE → Staff DE / Data Engineering Manager → Principal DE / Head of Data Platform
So Sánh Nhanh 4 Track
| Track | Gần với Business | Gần với Code | Mức lương VN (Senior) | Nhu cầu thị trường |
|---|---|---|---|---|
| Analytics | Rất cao | Thấp–Trung bình | 35–60M VND/tháng | Ổn định, cạnh tranh cao |
| DS / ML | Cao | Cao | 45–90M VND/tháng | Cao, cần domain sâu |
| AI Engineering | Trung bình | Rất cao | 55–100M VND/tháng | Đang tăng mạnh |
| Data Engineering | Thấp | Rất cao | 50–90M VND/tháng | Cao, thiếu nhân lực |
Mức lương ước tính dựa trên thị trường Việt Nam 2025–2026, công ty công nghệ và ngân hàng lớn.
Phần 4: Lộ Trình Kỹ Năng Theo Giai Đoạn
Nền Tảng — Tất Cả Mọi Track Đều Cần
Trước khi chọn track, hãy chắc chắn bạn có nền tảng này:
Python cơ bản–trung bình
- Cú pháp cơ bản, data structures, functions, OOP cơ bản
- Pandas, NumPy cho data manipulation
- Matplotlib/Seaborn cho visualization
SQL — không thể thiếu
- SELECT, JOIN, GROUP BY, Window Functions
- Viết được query phức tạp (subquery, CTE)
- Hiểu query optimization cơ bản
Thống kê cơ bản
- Probability distributions, hypothesis testing
- Confidence intervals, p-value (và tại sao p-value thường bị dùng sai)
- Correlation vs causation
Git
- Basic workflow: commit, branch, merge, pull request
- Không cần expert nhưng cần đủ để làm việc trong team
Giai Đoạn 0–1 Năm: Xây Nền + Chọn Track
Mục tiêu: có đủ kỹ năng để nộp đơn vào vị trí entry-level, và bắt đầu thấy mình hứng thú với track nào nhất.
Cho mọi track:
- Hoàn thiện nền tảng (Python, SQL, Git, Statistics)
- Làm ít nhất 2 project end-to-end, đưa lên GitHub
- Tìm hiểu domain của ngành bạn muốn vào
Nếu bạn nghiêng về Analytics: Học Tableau hoặc Power BI, thực hành viết báo cáo từ raw data, học cách design dashboard hiệu quả.
Nếu bạn nghiêng về DS/ML: Học scikit-learn pipeline đầy đủ, thực hành trên các dataset Kaggle, học cách evaluate model đúng cách (không chỉ accuracy).
Nếu bạn nghiêng về AI Engineering: Xây chatbot đơn giản với OpenAI API, tìm hiểu RAG basics với LangChain, hiểu khái niệm embeddings và vector search.
Nếu bạn nghiêng về Data Engineering: Học Airflow hoặc Prefect cho pipeline orchestration, xây ETL pipeline đơn giản, tìm hiểu data warehouse concepts.
Về GenAI — bất kể track nào: Đây không phải optional trong năm 2026. Ở mức tối thiểu, mọi người trong ngành nên biết gọi LLM API (OpenAI hoặc Anthropic), hiểu RAG là gì và khi nào cần dùng, và có thể đánh giá chất lượng output của LLM. Đây là "digital literacy" của DS/AI practitioner hiện đại.
Giai Đoạn 1–3 Năm: Chuyên Sâu + Domain Knowledge
Mục tiêu: trở thành người có thể tự chủ trong project, bắt đầu có domain knowledge thực sự trong ngành mình làm.
Cho Analytics track:
- dbt cho analytics engineering
- Advanced SQL: window functions, recursive CTEs, query optimization
- Experimentation design: A/B testing từ đầu đến cuối
- Domain knowledge sâu về ngành bạn làm (banking metrics, e-commerce funnel, etc.)
Cho DS/ML track:
- Advanced feature engineering (target encoding, interaction features, time-based features)
- Ensemble methods (XGBoost, LightGBM, stacking)
- Model explainability (SHAP, LIME) — bắt buộc cho tài chính và nhiều ngành regulated
- MLflow cho experiment tracking
- Bắt đầu học MLOps cơ bản: Docker, CI/CD cho model
Cho AI Engineering track:
- RAG architecture sâu: chunking strategies, hybrid search, reranking
- Fine-tuning fundamentals: LoRA/QLoRA, dataset preparation, evaluation
- Agentic AI: tool use, memory, multi-agent patterns
- LLM evaluation framework: RAGAS, custom metrics
- Production considerations: cost optimization, latency, safety
Cho Data Engineering track:
- Spark cho large-scale processing
- Streaming với Kafka hoặc Flink
- Cloud-native data stack (dbt + Snowflake/BigQuery/Redshift)
- Feature Store: Feast hoặc Tecton
- Data quality và observability: Great Expectations, Monte Carlo
Giai Đoạn 3+ Năm: Senior và Hướng Tới Nhánh Chữ Y
Mục tiêu: sở hữu technical direction cho team hoặc bắt đầu xây kỹ năng leadership nếu muốn Management track.
Technical depth (IC track):
- System design cho ML systems ở quy mô lớn
- Cross-functional influence: làm việc với Engineering, Product, Business
- Mentoring junior và mid-level
- Đóng góp vào technical decisions cấp công ty
Leadership skills (Management track):
- Hiring và phỏng vấn
- Project planning và stakeholder management
- Performance review và career development cho direct reports
- Translating business goals into technical roadmap
Phần 5: Ngành và Kỹ Năng Đặc Thù
Nền tảng kỹ thuật là chung. Nhưng mỗi ngành yêu cầu một lớp kỹ năng và domain knowledge riêng bên trên nền tảng đó.
Ma Trận Ngành × Track × Kỹ Năng Đặc Thù
| Ngành | Track phù hợp nhất | Kỹ năng đặc thù | Domain knowledge cần có |
|---|---|---|---|
| Ngân hàng / Fintech | DS/ML, Data Eng | Credit scoring, SHAP/LIME, imbalanced data, survival analysis | Basel II/III cơ bản, regulatory context VN |
| E-commerce / Bán lẻ | DS/ML, AI Eng, Analytics | Recommendation systems, A/B testing, demand forecasting, GenAI search | Conversion funnel, GMV, retention metrics |
| Logistics / Vận chuyển | DS/ML, Data Eng | OR-Tools/optimization, time-series, geospatial (GeoPandas, H3) | COD mechanics, route network structure |
| Marketing / Growth | Analytics, DS/ML | Multi-touch attribution, CLV, propensity scoring, causal inference | Marketing funnel, paid media basics |
| Healthcare / Y tế | DS/ML, AI Eng | Medical imaging (nếu vision), NLP cho clinical notes, privacy-preserving ML | HIPAA/PDPA, clinical workflow |
| Sản xuất / Manufacturing | DS/ML, Data Eng | Computer vision, predictive maintenance, anomaly detection, edge AI | OEE metrics, sensor data, production line flow |
| R&D / Nghiên cứu | DS/ML, AI Eng | RAG cho tri thức nội bộ, LLM fine-tuning, experiment tracking | Domain khoa học (tùy ngành) |
Phần 6: Thị Trường Việt Nam — Ai Đang Tuyển, Cơ Hội Ở Đâu
Công Ty Đang Tuyển DS/AI Tại Việt Nam
Ngân hàng & Fintech:
- Big banks: Techcombank, VPBank, MB Bank, TPBank, ACB, VIB, BIDV, Vietcombank — đây là nhóm đầu tư mạnh nhất vào AI trong 3 năm qua
- Fintech: MoMo, VNPay, ZaloPay, VinID — các bài toán credit scoring và behavioral AI
E-commerce & Retail:
- Shopee Vietnam, Tiki, Lazada Vietnam — recommendation, personalization, logistics DS
- VinCommerce, The Coffee House, Highlands — retail analytics và demand forecasting
Technology & Product:
- VNG Corporation (ZaloPay, Zalo) — NLP, recommendation, anti-fraud
- FPT Software, FPT AI — AI consulting và product
- VNPT Technology, Viettel AI — AI cho telco và public sector
- Grab Vietnam, Be Group — gig economy AI (pricing, matching, routing)
Logistics:
- GHN (Giao Hàng Nhanh), GHTK, J&T Express, ViettelPost — routing optimization, demand forecasting
Startup & AI-first:
- Hệ sinh thái startup AI đang phát triển nhanh trong các lĩnh vực healthtech, edtech, proptech, agritech
Mức Lương Thực Tế Tại Việt Nam (2025–2026)
| Cấp độ | Analytics | DS / ML | AI Engineering | Data Engineering |
|---|---|---|---|---|
| Entry-level | 12–20M | 15–25M | 18–30M | 15–25M |
| Mid-level | 20–35M | 25–50M | 30–60M | 28–55M |
| Senior | 35–60M | 45–90M | 55–100M | 50–90M |
| Staff / Lead | 60–90M | 80–150M | 90–160M | 80–140M |
Đơn vị: VND/tháng (gross). Ngân hàng và công ty nước ngoài thường trả cao hơn 20–40% so với mức trên. Remote/offshore cho công ty nước ngoài có thể cao hơn nhiều.
Xu Hướng Thị Trường
Tăng trưởng mạnh nhất hiện tại:
- AI Engineering / LLM: nhu cầu tăng gấp đôi so với năm 2024, supply vẫn thiếu
- MLOps: pipeline vào production là bottleneck ở nhiều công ty, người biết làm tốt khan hiếm
- AI cho ngân hàng: +28,36% CAGR đến 2030 (theo vietnam.worldfis.com)
Đang ổn định:
- Data Analytics: nhu cầu ổn định, nhưng cạnh tranh cao vì supply nhiều
- Data Engineering: nhu cầu cao nhưng ít người nhắm tới vì ít "sexy" hơn DS
Opportunity mà ít người để ý:
- Domain AI cho thị trường Nhật Bản (Healthcare AI, Care Robotics) — tiếng Nhật + AI là combination cực hiếm
- Responsible AI và AI Governance — sắp có yêu cầu pháp lý, nhân sự hiểu cả kỹ thuật lẫn compliance khan hiếm
- Edge AI cho sản xuất — Việt Nam có nhiều nhà máy FDI cần, nhưng ít người làm được
Phần 7: Phá Rào Cản Đầu Tiên — Cách Vào Nghề Thực Tế
Portfolio: Chất Lượng Hơn Số Lượng
Một portfolio DS/AI tốt không phải là nhiều project — là đúng project được làm đúng cách.
Tiêu chí của một project portfolio tốt:
-
End-to-end: Không chỉ model — bao gồm data loading, EDA, feature engineering, model, evaluation, và kết luận business. Người review muốn thấy bạn hiểu toàn bộ pipeline.
-
Domain relevance: Project liên quan đến ngành bạn muốn vào. Credit scoring nếu nhắm ngân hàng. Recommendation nếu nhắm e-commerce. Người review có thể hỏi bạn về domain — nếu project không liên quan, câu hỏi domain sẽ lộ ngay bạn không chuẩn bị.
-
Writeup rõ ràng: README hoặc blog post giải thích bài toán, approach, và kết quả bằng ngôn ngữ business. Không chỉ "accuracy = 0.87" mà là "model phát hiện được 85% giao dịch gian lận trong khi chỉ flag 3% false positive, giúp team giảm 60% workload review thủ công."
-
Code chạy được: Code phải chạy được khi người khác clone về.
requirements.txt, notebook chạy được từ đầu đến cuối, không hardcode paths.
Số lượng project cần thiết: 2–3 project chất lượng tốt đủ để nộp đơn junior. Nhiều hơn không làm bạn mạnh hơn nếu chất lượng không đồng đều.
Quy Trình Phỏng Vấn Thường Gặp
Khác với các ngành khác, phỏng vấn DS/AI thường có cấu trúc nhiều vòng. Hiểu cấu trúc giúp bạn chuẩn bị đúng.
Vòng 1 — Technical screening (30–45 phút):
- SQL: viết query live hoặc take-home
- Python cơ bản: data manipulation, algorithm đơn giản
- Statistics/probability: câu hỏi về distributions, hypothesis testing, A/B testing setup
- Đây thường là vòng loại đông nhất — SQL và statistics là điểm rớt phổ biến nhất
Vòng 2 — Case study / Take-home (2–5 ngày):
- Dataset thực tế + câu hỏi mở
- Bạn có thời gian nhưng cũng bị evaluate về cách tiếp cận, không chỉ kết quả
- Trình bày lại kết quả cho interviewer — communication quan trọng như technical
Vòng 3 — Technical deep-dive (45–60 phút):
- Đào sâu vào case study bạn đã làm
- Machine learning concepts: bias-variance tradeoff, overfitting, evaluation metrics
- System design: "Design một fraud detection system cho ngân hàng" — không cần code, cần tư duy
Vòng 4 — Behavioral / Culture fit (30–45 phút):
- STAR method (Situation, Task, Action, Result)
- Câu hỏi về cách làm việc với non-technical stakeholders
- Câu hỏi về failure và learning
Mẹo thực tế: Ở vòng case study, đừng chỉ tập trung vào model accuracy. Người review muốn thấy bạn: (1) hiểu bài toán business trước khi code, (2) làm EDA kỹ trước khi model, (3) chọn metric đúng với bài toán (không phải lúc nào cũng accuracy), (4) kết luận bằng recommendation thực tế.
Kế Hoạch 90 Ngày Cho Người Mới
Tháng 1 — Nền tảng và chọn track
Tuần 1–2: Hoàn thiện Python + SQL nếu chưa tốt. Làm một project nhỏ với dataset Kaggle liên quan đến ngành mục tiêu.
Tuần 3–4: Đọc 5–10 JD thực tế của ngành bạn muốn vào. Ghi lại top 5 kỹ năng xuất hiện nhiều nhất. Xác định mình đang thiếu gì trong danh sách đó.
Tháng 2 — Build project chất lượng
Chọn 1 dataset liên quan đến ngành mục tiêu. Làm đúng quy trình: EDA → feature engineering → model → evaluation → business recommendation. Viết writeup rõ ràng. Đưa lên GitHub với README tốt.
Học 1 kỹ năng đặc thù của ngành: SHAP cho tài chính, RAG pipeline cho e-commerce/R&D, Docker cho engineering tracks.
Tháng 3 — Apply và học từ thực tế
Nộp đơn vào 5–10 vị trí phù hợp. Không cần chờ "hoàn hảo". Dùng mỗi vòng phỏng vấn như một cơ hội học thêm — ghi lại câu hỏi bạn không trả lời được, nghiên cứu sau đó.
Phần 8: Sai Lầm Theo Từng Giai Đoạn
Sai lầm của người mới (0–1 năm)
Học quá rộng, không đủ sâu ở đâu. "Generalist" ở cấp junior không phải lợi thế — bạn chưa đủ kinh nghiệm để generalize. Chọn 1 track và đi sâu.
Bỏ qua SQL. Hầu hết vòng technical screening bắt đầu bằng SQL. Không vượt qua được vòng này thì model skill tốt đến đâu cũng không được test.
Build project không có writeup. Code trên GitHub không có README hoặc explanation = người review không hiểu bạn đang giải bài toán gì và tại sao approach đó đúng.
Nhầm DS với MLE. Data Scientist (sở hữu insight và modeling) khác với ML Engineer (sở hữu production systems và deployment). Đọc JD kỹ để apply đúng vị trí.
Sai lầm của junior (1–3 năm)
Không đầu tư vào domain knowledge. Sau 2 năm làm ngân hàng mà vẫn không biết Basel II/III là gì — đây là dấu hiệu bạn đang "làm theo task" thay vì hiểu sâu ngành. Domain knowledge là thứ phân biệt DS tốt với DS xuất sắc.
Tránh deploy và production. Nhiều DS tự giới hạn bản thân trong notebook và "model building". Nhưng impact thực sự đến từ model chạy trong production — học Docker, MLflow, deployment cơ bản từ năm 2.
Chờ đến năm 4–5 mới chọn chuyên môn. Specialization không phải thứ để "sau này mới nghĩ". Năm 2–3 là thời điểm lý tưởng — domain knowledge và kỹ năng kỹ thuật compound với nhau theo thời gian.
Đo lường bản thân bằng model metrics thay vì business impact. "Model accuracy của tôi là 94%" không có ý nghĩa gì nếu bạn không biết nó tạo ra bao nhiêu giá trị business. Học cách kết nối technical output với business outcome từ sớm.
Sai lầm liên quan đến GenAI — Ở mọi giai đoạn
Dùng AI tools mà không hiểu output của chúng. GitHub Copilot, Claude, ChatGPT có thể generate code nhanh — nhưng code đó có thể sai theo những cách tinh tế mà chỉ người hiểu fundamentals mới phát hiện được. Trong production (ngân hàng, y tế, logistics), AI output sai là vấn đề nghiêm trọng. Quy tắc thực tế: dùng AI để tăng tốc, không phải để thay thế sự hiểu biết. Luôn có thể giải thích tại sao code đó đúng trước khi ship.
Bỏ qua GenAI/LLM vì nghĩ là hype. Phản ứng ngược lại cũng là sai lầm. Nếu bạn đang xây career trong DS/AI mà chưa biết gọi LLM API, chưa hiểu RAG là gì, chưa bao giờ dùng LangChain hoặc LlamaIndex — bạn đang bỏ qua một làn sóng đang định hình lại toàn bộ ngành. GenAI không phải là hype với những người đang deploy nó vào production tại Techcombank, MoMo, Walmart mỗi ngày.
Học tools của GenAI mà không xây fundamentals. Ngược lại với việc bỏ qua GenAI: học LangChain trước khi hiểu retrieval search, học fine-tuning trước khi hiểu tại sao model cần được fine-tune, học prompt engineering nhưng không biết tại sao prompt đó hoạt động — đây là cách xây trên nền cát. Khi tool thay đổi (và sẽ thay đổi rất nhanh), bạn sẽ phải học lại từ đầu. Người hiểu conceptual foundation sẽ adapt nhanh hơn nhiều.
Coi AI Engineering là track dễ vì "chỉ gọi API". AI Engineering đòi hỏi system thinking, evaluation methodology, production reliability, và cost optimization — đây là engineering discipline thực sự, không phải chỉ là "gọi OpenAI API". Người giỏi AI Engineering trong production có market value cao nhất trong ngành hiện tại, chính vì ít người làm được đúng cách.
Tóm Tắt Nhanh — Quick Reference
Chọn Track Theo Background
| Bạn có background... | Track phù hợp để bắt đầu |
|---|---|
| Business / Economics | Analytics → DS/ML |
| Computer Science / Lập trình | Data Engineering → AI Engineering |
| Toán / Thống kê / Vật lý | DS/ML → Applied Research |
| Kỹ thuật cơ khí / Điện / Tự động hóa | DS/ML → Data Engineering (Manufacturing focus) |
| Không có background kỹ thuật | Analytics (entry barrier thấp nhất) |
Checklist Trước Khi Nộp Đơn Junior
- Python: xử lý được DataFrame phức tạp, viết được function clean
- SQL: viết được JOIN, GROUP BY, Window Functions, CTE
- GitHub: ít nhất 2 project với README rõ ràng
- 1 project liên quan đến ngành mục tiêu
- Có thể giải thích kết quả project bằng ngôn ngữ business (không chỉ metric)
- Biết tên ít nhất 5 công ty trong ngành mục tiêu đang tuyển
Thứ Tự Học Cho Người Mới Hoàn Toàn (6 tháng)
Tháng 1–2: Python cơ bản + pandas + SQL cơ bản — 2 giờ/ngày
Tháng 3: SQL nâng cao + thống kê cơ bản + visualization — 2 giờ/ngày
Tháng 4: Chọn track → học kỹ năng đặc thù + làm project đầu tiên
Tháng 5: Hoàn thiện project + viết writeup + đẩy lên GitHub
Tháng 6: Project thứ hai + bắt đầu apply + luyện phỏng vấn SQL
Nguyên tắc cuối cùng:
Ngành DS/AI không có con đường duy nhất đúng. Nhưng có những nguyên tắc phổ quát: đi sâu vào một track hơn là biết tất cả mọi thứ nửa vời; domain knowledge cộng hưởng với kỹ năng kỹ thuật theo thời gian, và càng bắt đầu sớm thì compound càng lớn; và impact thực sự đến từ việc bạn giúp được business giải quyết bài toán — không phải từ model complexity hay library bạn biết.
Thị trường DS/AI tại Việt Nam đang trong giai đoạn tăng trưởng cấu trúc: AI ngân hàng tăng trưởng 28%+ CAGR, e-commerce GMV tăng 34%+ YoY, và làn sóng AI Engineering mới vừa bắt đầu. Đây không phải bong bóng ngắn hạn — đây là sự dịch chuyển cơ cấu kinh tế, và người chuyên sâu sớm sẽ vào thị trường khi cung vẫn chưa theo kịp cầu trong nhiều năm tới.