ai-weekly · Vietnamese · 7 phút

AI Tuần W26/2026: Từ mã hóa cứng sang huấn luyện: kiến trúc agent đang thay đổi

June 22, 2026

⬡Lưu trữ · tuần 26/2026

Tuần 26/2026: Sakana AI ra mắt Fugu — một mô hình được huấn luyện để điều phối các mô hình khác — trong khi GLM-5.2 mã nguồn mở chứng minh open-weights đã đủ mạnh cho tác vụ lập trình tự động theo chuỗi bước dài.

Tuần này không có một bước đột phá nào đơn lẻ — mà là dấu hiệu của một sự chuyển dịch có hệ thống. Câu hỏi trung tâm của tuần 26 không còn là "mô hình nào mạnh nhất?" mà là: điều phối (orchestration) trong hệ thống đa tác nhân (multi-agent) nên được lập trình hay huấn luyện? Sakana AI đặt cược vào việc huấn luyện, và kết quả đầu tiên khá thuyết phục. Song song đó, mô hình mã nguồn mở GLM-5.2 tiếp tục thu hẹp khoảng cách với các mô hình đóng trên các tác vụ lập trình tự động. Còn ở phía enterprise, làn sóng "xây lại" hệ thống agent sau các thất bại trong triển khai thực tế đang định hình lại cách đội ngũ thiết kế pipeline AI.

Editor's Pick

Sakana AI ra mắt Fugu: điều phối đa tác nhân như một API duy nhất

Ngày 22/6/2026, Sakana AI chính thức phát hành Fugu và Fugu Ultra sau giai đoạn thử nghiệm beta từ tháng 4. Điều làm Fugu khác biệt không phải là hiệu năng đơn thuần — mà là kiến trúc.

Thay vì xây một mô hình độc lập lớn hơn, Sakana xây một meta-model: một mô hình ngôn ngữ nhỏ được huấn luyện chuyên biệt để điều phối các mô hình ngôn ngữ khác. Khi người dùng gọi một endpoint tương thích OpenAI, Fugu tự động chọn mô hình phù hợp từ pool (bao gồm các mô hình của OpenAI, Anthropic, Google), phân công nhiệm vụ, kiểm tra đầu ra, và tổng hợp kết quả cuối cùng. Toàn bộ quá trình điều phối này là hành vi học được — không phải logic lập trình cứng.

Nền tảng lý thuyết của Fugu là hai bài báo được chấp nhận tại ICLR 2026: TRINITY và Conductor. Kết quả trên bộ bài kiểm tra chuẩn (benchmark): LiveCodeBench 93.2, GPQA-Diamond 95.5, SWE-Bench Pro 73.9. Fugu Ultra được định giá $5/triệu token đầu vào và $30/triệu token đầu ra.

Điều quan trọng hơn các con số: đây là bằng chứng sớm rằng lớp điều phối trong hệ thống đa tác nhân có thể là một mô hình được huấn luyện, không nhất thiết phải là code xác định. Nếu hướng này được xác nhận, nó sẽ thay đổi cách các đội ngũ chọn framework agent — LangGraph, AutoGen, hay các lớp điều phối tự viết đều là code tĩnh, Fugu là thứ gì đó khác về bản chất.

Câu chuyện tuần này

Nguồn tiếng Anh

GLM-5.2: mô hình mã nguồn mở vượt GPT-5.5 trên coding với 1/6 chi phí VentureBeat · 17 Jun 2026

Z.ai (trước là Zhipu AI, Bắc Kinh) phát hành GLM-5.2 — mô hình Mixture-of-Experts 753 tỷ tham số, kích hoạt khoảng 40 tỷ tham số mỗi lượt, cửa sổ ngữ cảnh 1 triệu token — dưới giấy phép MIT. Trên SWE-bench Pro, GLM-5.2 đạt 62.1 so với GPT-5.5's 58.6; trên FrontierSWE (hoàn thành tác vụ chuỗi bước dài) đạt 74.4% so với 72.6%; trên MCP-Atlas (đánh giá sử dụng công cụ) đạt 77.0. Trọng số mô hình có sẵn miễn phí trên Hugging Face. Gói API doanh nghiệp bắt đầu từ $12.60/tháng.

Tại sao quan trọng: Một mô hình mã nguồn mở MIT ở mức hiệu năng này cho tác vụ lập trình tự động là áp lực trực tiếp với các mô hình đóng. Đội ngũ xây dựng agent lập trình tự động giờ có lựa chọn open-weights thực sự cạnh tranh.

AWS Bedrock AgentCore chính thức phát hành với vòng lặp tự cải thiện Qiita (AWS) · 17–19 Jun 2026

Tại AWS Summit New York 2026, Amazon đưa nhiều thành phần của Bedrock AgentCore từ preview sang phát hành chính thức (GA). Các tính năng GA bao gồm: Managed Knowledge Bases với Agentic Retrieval API (suy luận nhiều bước qua S3, SharePoint, Google Drive, Confluence); AgentCore Harness cho triển khai agent dựa trên cấu hình; AgentCore Optimization — tạo vòng lặp tự cải thiện thông qua đánh giá, A/B testing, và gợi ý tự động; và Web Search tích hợp với cam kết không rò rỉ dữ liệu. AgentCore Insights (preview) thêm khả năng phát hiện mẫu thất bại ngầm qua hàng nghìn phiên agent.

Tại sao quan trọng: Khi AWS đưa các mẫu truy vấn theo ngữ cảnh và tự tối ưu hóa vào cơ sở hạ tầng managed, đây là tín hiệu rằng những tính năng này đang trở thành yêu cầu sản xuất tiêu chuẩn.

Sóng nâng cấp mô hình: Claude Fable 5, Gemini 3.5 Live Translate, AFM3, Qwen3 Coder Next, MiniMax M2.5 Nhiều nguồn · 10 Jun 2026

Đầu tháng 6/2026, năm công ty AI lớn đồng loạt phát hành hoặc nâng cấp mô hình. Anthropic ra Claude Fable 5 và Claude Mythos 5 (được mô tả là có năng lực an ninh mạng mạnh nhất so với mọi mô hình hiện tại). Google triển khai Gemini 3.5 Live Translate — dịch giọng nói thời gian thực với bảo toàn ngữ điệu, ra mắt trước trên Google Meet. Apple phát hành dòng AFM Generation 3 (5 mô hình từ on-device đến server), với AFM Cloud Pro hướng đến AI agent và suy luận phức tạp. Alibaba ra Qwen3 Coder Next tối ưu cho agent lập trình phần mềm. MiniMax phát hành M2.5 Highspeed mã nguồn mở với kiến trúc MoE, xử lý khoảng 100 token/giây.

Tại sao quan trọng: Năm phát hành cấp frontier trong một tuần từ các lab Mỹ và Trung Quốc cho thấy chu kỳ phát hành đang tăng tốc, thu hẹp cửa sổ lợi thế cạnh tranh của bất kỳ mô hình đơn lẻ nào.

Kỷ nguyên "xây lại": doanh nghiệp đối mặt với vấn đề độ tin cậy của AI agent VentureBeat · Jun 2026

Sau làn sóng triển khai prototype agent trong 2025, các đội ngũ enterprise đang đối mặt với tỷ lệ lỗi tích lũy, overhead điều phối, và pipeline nhiều bước dễ vỡ trong môi trường sản xuất. Vấn đề độ tin cậy mang tính đặc thù của agent: độ chính xác 99% ở mỗi bước, nhân qua 20 bước, vẫn dẫn đến tỷ lệ thất bại đáng kể. Xu hướng đang nổi lên là "structured agentic workflows" — phạm vi giới hạn rõ, checkpoint xác định, có con người trong vòng lặp (human-in-the-loop) khi cần leo thang.

Tại sao quan trọng: Đây là tín hiệu trực tiếp cho các đội ngũ đang lên kế hoạch triển khai agent: phân tích failure mode và thiết kế workflow có cấu trúc trước khi scale số lượng agent.

Nguồn Nhật Bản

Cộng đồng Zenn đưa tin ngay ngày ra mắt về Fugu Zenn · 22 Jun 2026

Bài viết tiếng Nhật trên Zenn cung cấp thêm chiều sâu kỹ thuật về Fugu từ góc nhìn kỹ sư Nhật. Tác giả phân tích nền tảng từ hai bài báo TRINITY và Conductor (ICLR 2026), và lưu ý rằng khả năng scale khi triển khai (test-time scaling) của Fugu — tự gọi lại để xem xét và điều chỉnh đầu ra — là điểm phân biệt với các framework điều phối thông thường. Bài cũng nêu lưu ý thực tế: hạn chế EU/EEA không ảnh hưởng đến Nhật, nhưng điều khoản dịch vụ liên quan đến việc bán lại mô hình cần chú ý với các đội ngũ xây sản phẩm thương mại trên Fugu API.

Tại sao quan trọng: Cộng đồng kỹ sư AI Nhật đang theo dõi sát sao thành quả kiến trúc của Sakana như một "AI champion nội địa" — đây là tín hiệu về mức độ kỳ vọng từ thị trường nội địa.

DiffusionGemma không phải "LLM nhanh hơn" — đó là thí nghiệm thay đổi toàn bộ cơ chế sinh Qiita · 16 Jun 2026

Bài viết này lập luận rằng DiffusionGemma — phát hành của Google ngày 10/6/2026, áp dụng kỹ thuật diffusion ảnh vào sinh văn bản — không nên được xếp vào nhóm "LLM nhanh hơn". Thay vì sinh token tuần tự như cách thông thường, DiffusionGemma sinh các khối 256 token song song rồi tinh chỉnh lặp đi lặp lại. Mô hình là kiến trúc MoE 26B với 3.8B tham số hoạt động; đạt trên 1.000 token/giây trên NVIDIA H100 và 700 token/giây trên RTX 5090 — nhanh hơn khoảng 4 lần so với các mô hình autoregressive tương đương.

Tại sao quan trọng: DiffusionGemma mở ra một paradigm sinh văn bản thay thế cho các ứng dụng yêu cầu độ trễ thấp — hoàn thiện code thời gian thực, chỉnh sửa tài liệu tương tác — nơi sinh tuần tự là nút thắt kiến trúc.

Tổng hợp link LLM và Generative AI cần thiết năm 2026 Qiita · Jun 2026

Một bộ sưu tập link được cộng đồng Nhật tuyển chọn về các tài nguyên LLM và AI tạo sinh năm 2026, tổ chức theo chủ đề: reasoning model, hệ thống đa phương thức, framework agent, prompt engineering, RAG. Tác giả ghi chú rằng chi phí suy luận (inference) LLM đã giảm khoảng 80% từ 2025 đến giữa 2026, với chênh lệch giá 1.000 lần giữa mô hình rẻ nhất và đắt nhất hiện có.

Tại sao quan trọng: Một danh sách tài nguyên được duy trì tích cực từ cộng đồng phản ánh chủ đề nào đang được kỹ sư Nhật tìm kiếm — hữu ích để định hướng nội dung thực hành.

Nguồn Việt Nam

Agentic AI: LLM lên kế hoạch và gọi công cụ bên ngoài theo chuỗi bước AI Vietnam · Jun 2026

Blog giáo dục của AI Vietnam đăng bài giải thích kỹ thuật chi tiết về cách hệ thống Agentic AI dùng LLM làm lõi lên kế hoạch và ra quyết định, trong khi ủy thác thực thi cho các công cụ bên ngoài. Bài bao gồm mẫu ReAct (Reason + Act), kiến trúc tool-calling, quản lý bộ nhớ qua các bước agent, và các failure mode phổ biến trong pipeline nhiều bước. Nội dung hướng đến lập trình viên Việt Nam hiểu LLM ở mức khái niệm nhưng mới bắt đầu với thiết kế hệ thống agent.

Tại sao quan trọng: Sự xuất hiện của nội dung tiếng Việt kỹ thuật ở độ sâu này về thiết kế hệ thống agent cho thấy cộng đồng lập trình viên Việt đang chuyển từ người dùng LLM sang người xây dựng hệ thống LLM.

Model Context Protocol: giao thức ngữ cảnh cho mô hình AI hiện đại Viblo · Jun 2026

Bài viết cộng đồng Viblo giải thích Model Context Protocol (MCP) của Anthropic — chuẩn mở để kết nối LLM với nguồn dữ liệu và công cụ bên ngoài. Bài giải thích kiến trúc server-client của MCP, sự khác biệt với direct API tool-calling, và cung cấp ví dụ thực tế kết nối LLM với database và hệ thống file cục bộ. Tác giả lưu ý MCP đã tăng tốc đáng kể trong giữa 2026, với AWS Bedrock, Google Vertex AI, và nhiều framework mã nguồn mở hỗ trợ chuẩn này.

Tại sao quan trọng: MCP đang trở thành chuẩn de facto cho kết nối LLM-công cụ — lập trình viên Việt Nam xây hệ thống agent sản xuất cần nền tảng này để làm việc với hệ sinh thái công cụ rộng hơn.

Xu hướng tuần này

Điều phối như hành vi học được, không phải code cứng. Fugu của Sakana và nền tảng nghiên cứu phía sau (TRINITY, Conductor) đặt cược kiến trúc rằng điều phối agent — chọn mô hình, phân công nhiệm vụ, kiểm tra đầu ra — nên được huấn luyện vào mô hình, không phải lập trình. Đây là phân kỳ có ý nghĩa so với các framework như LangGraph hay AutoGen, nơi điều phối là code xác định.
Mô hình open-weights thu hẹp khoảng cách frontier trên agentic benchmark. Phát hành MIT-licensed của GLM-5.2 — vượt GPT-5.5 trên SWE-bench Pro và FrontierSWE với một phần nhỏ chi phí API — tiếp tục xu hướng từ 2025–2026 trong đó khoảng cách hiệu năng giữa mô hình mở và đóng trên các benchmark đặc thù (đặc biệt coding và sử dụng công cụ) đang thu hẹp nhanh hơn trên reasoning tổng quát.
Làn sóng chỉnh sửa về độ tin cậy đang diễn ra trong AI enterprise. Nhiều nguồn tuần này hội tụ vào cùng một tín hiệu: 2025 là năm prototype agent cho doanh nghiệp, 2026 là năm thực tế sản xuất buộc phải có kỷ luật kiến trúc. Hệ thống agent nhỏ hơn, có cấu trúc, được giám sát đang vượt trội so với hệ thống lớn lan rộng trong triển khai thực tế.

Tuần tới, sẽ đáng chú ý xem liệu cộng đồng mã nguồn mở có phản ứng với Fugu bằng các triển khai orchestration-as-model tương tự hay không — hoặc liệu kiến trúc này sẽ vẫn là lợi thế riêng của Sakana trong ngắn hạn.

ai-weeklymulti-agentllmopen-source

Nguồn tham khảo