Ghi chép
Bài viết
Data Science · LLM · Multi-agent systems (Mô phỏng kinh doanh, Mô phỏng hành vi người dùng) · Deep Research Multi-Agent · Self-Improving Agents
Bài viết mới nhất
AI Tuần W27/2026: Agent thông minh hơn mà không cần huấn luyện lại
Tuần 27/2026: Ba nhóm nghiên cứu độc lập — Sakana AI, một nhóm đa đại học, và Huawei Noah's Ark — cùng đặt cược vào một hướng: agent học và cải thiện mà không chạm đến trọng số mô hình.
AI Tuần W26/2026: Từ mã hóa cứng sang huấn luyện: kiến trúc agent đang thay đổi
Tuần 26/2026: Sakana AI ra mắt Fugu — một mô hình được huấn luyện để điều phối các mô hình khác — trong khi GLM-5.2 mã nguồn mở chứng minh open-weights đã đủ mạnh cho tác vụ lập trình tự động theo chuỗi bước dài.
AI Tuần W22/2026: Anthropic ra mô hình mới và gọi vốn 65 tỷ USD — trong khi dữ liệu sản xuất bắt đầu đặt câu hỏi về ROI của AI coding
Anthropic ra Opus 4.8 với khả năng điều phối hàng trăm tác nhân song song và gọi được 65 tỷ USD — trong cùng tuần, Fujitsu và Hitachi (290.000 nhân viên) triển khai Claude vào hạ tầng công nghiệp Nhật Bản, còn dữ liệu sản xuất thực tế bắt đầu đặt câu hỏi nghiêm túc về ROI của AI coding.
AI Tuần W21/2026: Biên giới công nghệ đang trở thành hàng hóa bình thường
Qwen3.7 Max và Gemini 3.5 Flash ra mắt cùng ngày 19/5 — đặt ra một câu hỏi thực tế: khi frontier reasoning đã thành hàng hóa bình dân, nhóm kỹ thuật của bạn có đang dùng đúng công cụ không? Cộng đồng AI Nhật Bản và Việt Nam tuần này cũng bàn về cùng một bài toán: khi nào dùng LLM, khi nào vẫn cần ML cổ điển.
Tại Sao Hầu Hết Dự Án Agentic AI Thất Bại Ở Bước Cuối Cùng
Andrew Ng và Laurence Moroney đưa ra framework 4 bước cho agentic workflow — Intent, Planning, Tools, Reflection. Ba bước đầu kỹ sư AI đang làm tốt. Bước thứ tư là nơi mọi thứ sụp đổ trong im lặng.
Theo chủ đề
AgentSociety: Khi 10.000 agent AI mô phỏng cả một xã hội
AgentSociety của Tsinghua chạy 10.000 agent LLM tạo ra 5 triệu tương tác — mô phỏng phân cực chính trị, chính sách UBI, và cú sốc bão nhiệt đới. Bài này phân tích kỹ điều đó có nghĩa là gì, và quan trọng hơn, nó chưa chứng minh được điều gì.
Multi-Agent AI Simulation Tháng 5/2026: Bản Đồ Thực Trạng và Những Quyết Định Sắp Tới
Lĩnh vực multi-agent simulation đang ở điểm gãy: quy mô đã được chứng minh, nhưng phương pháp kiểm chứng vẫn chưa có. Bài này phân tích ba domain, bốn xu hướng xuyên suốt, và ba quyết định mang tính định hình tương lai của lĩnh vực.
Mô phỏng hành vi người dùng với AI: Từ Markov đến LLM Persona
Từ chuỗi Markov đơn giản đến 25 tác nhân AI tự tổ chức tiệc Valentine — đây là hành trình kỹ thuật của một trong những bài toán thú vị nhất trong Data Science: dạy máy tính hiểu con người.
Tại sao dùng ChatGPT để mô phỏng người dùng là sai về bản chất — và Microsoft đã làm gì để giải quyết điều này
Khi bạn hỏi ChatGPT 'hãy đóng vai một người dùng 35 tuổi quan tâm đến sức khỏe', nó sẽ trả lời rất lịch sự, rất cân nhắc, rất... AI. TinyTroupe của Microsoft đặt ra một câu hỏi khác hơn: điều gì xảy ra khi bạn thiết kế agent *không phải để hữu ích*, mà để *giống người thật*?
Khi AI agents học cách hành xử như con người
Các mô hình ngôn ngữ lớn đang được dùng để xây dựng những agent mô phỏng hành vi con người với độ chính xác đáng ngạc nhiên. Điều này mở ra hướng nghiên cứu mới trong khoa học xã hội tính toán.
Git và GitHub: Công cụ không thể thiếu trong kỷ nguyên Vibe Coding
AI như Claude Code hay GitHub Copilot viết code ngày càng tốt. Nhưng chính vì thế, Git lại trở nên quan trọng hơn bao giờ hết — để bạn biết AI đã làm gì, và hoàn tác khi cần.
SHAP Không Chỉ Để Giải Thích — Mà Để Tìm Lỗi Mô Hình
Trong dự án dự báo doanh số này, SHAP không chỉ là công cụ thuyết trình cho stakeholder — nó là kính hiển vi để thấy mô hình đang sai ở đâu. Weather features đóng góp 0.4%. Store-level factors đôi khi dự đoán vượt mức thực tế. SHAP tìm ra cả hai.
RecVAE: Khi mô hình tuyến tính đánh bại mạng nơ-ron — và khi thì không
RecVAE (WSDM 2020) cải thiện Mult-VAE với bốn thay đổi kỹ thuật có chủ đích — nhưng trên tập MSD, một mô hình tuyến tính đơn giản vẫn thắng. Đây là bài học thực tế nhất từ bài báo.
Xây dựng hệ thống gợi ý: Từ Collaborative Filtering đến Two-Tower Model
Từ Netflix đến Shopee — hệ thống gợi ý hoạt động thế nào, các thuật toán chính là gì, và bạn nên chọn cái nào cho bài toán của mình?
Dự báo doanh thu bằng Data Science: Từ thống kê cổ điển đến AI
Từ Holt-Winters đến XGBoost rồi đến Chronos — mỗi phương pháp dự báo doanh thu có vị trí riêng của nó. Bài này giúp bạn chọn đúng công cụ cho đúng bài toán.
Đánh Giá Mô Hình Machine Learning Đúng Cách: Từ Accuracy Đến NDCG
Một mô hình đạt 99% accuracy mà không bắt được một giao dịch gian lận nào. Bài này giải thích toàn bộ hệ thống chỉ số đánh giá ML — từ confusion matrix đến NDCG — và cách chọn đúng metric cho bài toán kinh doanh của bạn.
AI Tuần W27/2026: Agent thông minh hơn mà không cần huấn luyện lại
Tuần 27/2026: Ba nhóm nghiên cứu độc lập — Sakana AI, một nhóm đa đại học, và Huawei Noah's Ark — cùng đặt cược vào một hướng: agent học và cải thiện mà không chạm đến trọng số mô hình.
AI Tuần W26/2026: Từ mã hóa cứng sang huấn luyện: kiến trúc agent đang thay đổi
Tuần 26/2026: Sakana AI ra mắt Fugu — một mô hình được huấn luyện để điều phối các mô hình khác — trong khi GLM-5.2 mã nguồn mở chứng minh open-weights đã đủ mạnh cho tác vụ lập trình tự động theo chuỗi bước dài.
AI Tuần W22/2026: Anthropic ra mô hình mới và gọi vốn 65 tỷ USD — trong khi dữ liệu sản xuất bắt đầu đặt câu hỏi về ROI của AI coding
Anthropic ra Opus 4.8 với khả năng điều phối hàng trăm tác nhân song song và gọi được 65 tỷ USD — trong cùng tuần, Fujitsu và Hitachi (290.000 nhân viên) triển khai Claude vào hạ tầng công nghiệp Nhật Bản, còn dữ liệu sản xuất thực tế bắt đầu đặt câu hỏi nghiêm túc về ROI của AI coding.
AI Tuần W21/2026: Biên giới công nghệ đang trở thành hàng hóa bình thường
Qwen3.7 Max và Gemini 3.5 Flash ra mắt cùng ngày 19/5 — đặt ra một câu hỏi thực tế: khi frontier reasoning đã thành hàng hóa bình dân, nhóm kỹ thuật của bạn có đang dùng đúng công cụ không? Cộng đồng AI Nhật Bản và Việt Nam tuần này cũng bàn về cùng một bài toán: khi nào dùng LLM, khi nào vẫn cần ML cổ điển.
AI Tuần W20/2026: Khi AI Vượt Ngưỡng Khai Thác Bảo Mật — Và Những Tín Hiệu Kiến Trúc Quan Trọng Hơn
Claude Mythos Preview hoàn thành 181 lần khai thác lỗ hổng Firefox thành công — so với 2 lần của thế hệ trước. Cùng lúc đó, cả cộng đồng Nhật Bản lẫn Việt Nam đang độc lập đi đến cùng một kết luận kiến trúc về vai trò của Small Language Models trong hệ thống đa tác nhân.
AI Tuần W10/2026: Mistral Small 4 Đặt Lại Mốc Chi Phí — Và Cả Hai Cộng Đồng Đang Tìm Ra Kiến Trúc Giống Nhau
Mistral Small 4 — 22B tham số, Apache 2.0, vượt qua nhiều mô hình đóng lớn gấp 3–5 lần trên benchmark suy luận — ra mắt ngày 3/3/2026 và lập tức đặt lại mốc chi phí cho open-source reasoning. Trong khi đó, cộng đồng kỹ sư Nhật Bản và Việt Nam đang độc lập đi đến cùng một kết luận kiến trúc về multi-model routing trong hệ thống đa tác nhân.
AI Tuần W01/2026: Khi Cộng Đồng Toàn Cầu Đồng Loạt Nhìn Lại — Và Cuốn Sách 173.000 Từ Mở Ra Năm Mới
Tuần đầu tiên của 2026 không có big release nào — nhưng có thứ còn có giá trị hơn: một bức tranh toàn cảnh. Một CTO Nhật Bản xuất bản cuốn sách kỹ thuật 173.000 từ về LLM miễn phí; Simon Willison tổng kết năm với 940 upvote trên HN; MIT Technology Review vẽ ra 5 quỹ đạo định hình 2026. Cộng đồng Việt Nam thực dụng hơn: họ đang chuẩn bị công cụ để không phụ thuộc vào API đắt đỏ.
Multi-Agent AI là gì? Khi nhiều AI hợp tác như một đội nhóm
Một AI đơn lẻ giỏi trả lời câu hỏi, nhưng để giải quyết bài toán phức tạp — cần nhiều AI chuyên biệt làm việc cùng nhau. Multi-agent AI hoạt động như một đội nhóm, mỗi thành viên có vai trò riêng.
LLM là gì? Giải thích đơn giản với ví dụ thực tế
LLM không phải phép thuật — nó là một cỗ máy dự đoán xác suất cực kỳ mạnh. Hiểu bản chất này sẽ giúp bạn dùng AI đúng cách và không bị lừa bởi những gì nó nói.
Overfitting là gì? Khi AI học thuộc lòng thay vì học hiểu
Overfitting xảy ra khi model học quá kỹ dữ liệu training đến mức không thể áp dụng cho dữ liệu mới. Đây là vấn đề cốt lõi nhất trong machine learning — và lý do nó xảy ra rất giống với cách học sai của con người.