ai-weekly · Vietnamese · 7 phút

AI Tuần W27/2026: Agent thông minh hơn mà không cần huấn luyện lại

July 2, 2026

⬡Lưu trữ · tuần 27/2026

Tuần 27/2026: Ba nhóm nghiên cứu độc lập — Sakana AI, một nhóm đa đại học, và Huawei Noah's Ark — cùng đặt cược vào một hướng: agent học và cải thiện mà không chạm đến trọng số mô hình.

Tuần 27 không có một sự kiện duy nhất chiếm sóng — mà có một luồng tín hiệu nhất quán từ nhiều hướng. Ba nhóm nghiên cứu độc lập, làm việc song song, cùng đặt cược kiến trúc vào cùng một hướng: agent thích ứng và cải thiện mà không cần chạm đến trọng số mô hình (model weights). Fugu Ultra của Sakana AI điều phối GPT-5.5 và Claude để vượt cả hai. Memento-Skills viết lại kỹ năng trong bộ nhớ ngoài. Huawei Noah's Ark tích lũy vết kinh nghiệm để cải thiện liên tục khi mô hình đang trả lời (inference). Cả ba đều tách biệt khả năng học khỏi trọng số mô hình — và sự hội tụ này là tín hiệu kiến trúc quan trọng nhất tuần này. Song song đó, cộng đồng kỹ sư Nhật đang đặt câu hỏi thẳng hơn: AI tạo sinh có nuốt chửng toàn bộ ngành ML truyền thống không?

Editor's Pick

Fugu Ultra của Sakana AI vượt GPT-5.5 và Claude bằng cách điều phối cả hai

Đây không phải câu chuyện về một mô hình mới. Đây là câu chuyện về việc điều phối các mô hình hiện có thông minh hơn thì thắng mô hình đơn lớn hơn.

Ngày 2/7/2026, Sakana AI — lab nghiên cứu AI tại Tokyo — công bố rằng Fugu Ultra đạt kết quả vượt trội trên nhiều bộ bài kiểm tra chuẩn (benchmark), không phải bằng cách huấn luyện một mô hình lớn hơn từ đầu, mà bằng cách điều phối cả GPT-5.5 lẫn Claude cùng lúc. Hệ thống định tuyến từng nhiệm vụ đến mô hình phù hợp theo profile năng lực, rồi tổng hợp kết quả qua một lớp hợp nhất đã được huấn luyện (learned fusion layer). Kết quả: vượt cả hai mô hình thành phần khi dùng riêng lẻ — mà Sakana AI không cần bỏ chi phí huấn luyện mô hình nền.

Điều này kết nối trực tiếp với tuần trước (W26), khi chúng ta thấy Fugu ra mắt như một meta-model điều phối. Tuần này, bằng chứng thực nghiệm cụ thể hơn: hệ thống điều phối thông minh vượt qua chính các mô hình mà nó điều phối. Và đây không phải heuristics lập trình tay — toàn bộ hành vi lựa chọn và tổng hợp là hành vi được học.

Với người xây hệ thống đa tác nhân (multi-agent): câu hỏi thiết kế cốt lõi đang dịch chuyển. Không còn là "mô hình nào tốt nhất?" mà là "làm sao kết hợp các mô hình tôi đã có một cách thông minh?" Đây là tín hiệu rõ ràng nhất tuần này về hướng đi của kiến trúc đa mô hình.

Câu chuyện tuần này

Nguồn tiếng Anh

NVIDIA Nemotron-TwoTower: sinh văn bản nhanh hơn 2.42 lần, không cần huấn luyện lại NVIDIA AI · 2 Jul 2026

NVIDIA phát hành Nemotron-TwoTower — kỹ thuật tối ưu hóa thời điểm mô hình đang trả lời (inference) tái cấu trúc cơ chế attention thành kiến trúc hai-tower, đạt throughput gấp 2.42 lần so với transformer decode thông thường, không giảm chất lượng đầu ra và không cần huấn luyện lại mô hình gốc. Kỹ thuật này không phụ thuộc mô hình cụ thể và đã được kiểm chứng trên nhiều LLM open-weights từ 7B đến 70B tham số.

Tại sao quan trọng: Tăng tốc 2.42 lần không cần chi phí huấn luyện thay đổi đáng kể kinh tế học vận hành LLM tự host — đặc biệt với các đội ngũ đang tối ưu hóa độ trễ và chi phí GPU.

Agent-R1: học tăng cường cho agent thực chiến, không chỉ toán và code VentureBeat · cuối Jun 2026

Nhóm nghiên cứu tại Đại học Khoa học và Công nghệ Trung Quốc phát triển Agent-R1 — một framework học tăng cường (reinforcement learning) mở rộng huấn luyện RL cho agent LLM ra ngoài các domain benchmark quen thuộc (toán, code) sang các tác vụ nhiều bước, nhiều công cụ đòi hỏi truy xuất tuần tự, tương tác môi trường, và phục hồi khi gặp lỗi. Agent-R1 cải thiện đáng kể trên các benchmark agent phức tạp so với supervised fine-tuning và các phương pháp RL trước đó — với lợi thế đặc biệt rõ trên tác vụ cần 5+ lượt gọi công cụ.

Tại sao quan trọng: Mở rộng playbook RL alignment sang các kịch bản quan trọng cho triển khai agent thực tế — không phải bài toán toán học đơn giản mà là luồng công việc lộn xộn, phụ thuộc nhiều công cụ.

Memento-Skills: agent tự viết lại kỹ năng mà không huấn luyện lại mô hình nền VentureBeat · cuối Jun 2026

Nhóm nghiên cứu đa đại học phát hành Memento-Skills — framework cho phép agent AI tự phát triển, cập nhật, và bỏ bớt các kỹ năng thủ tục được lưu trong bộ nhớ ngoài thay vì mã hóa trong trọng số mô hình (model weights). Khi agent gặp tác vụ mới hoặc nhận ra kỹ năng hiện tại đang thất bại, nó tạo ra mã kỹ năng cải thiện và ghi vào thư viện kỹ năng — không cần huấn luyện lại LLM nền. Framework đạt điểm hàng đầu trên benchmark deep research và suy luận nhiều bước phức tạp.

Tại sao quan trọng: Agent tự cải thiện mà không tốn chi phí huấn luyện lại là nút thắt cổ chai chính cho triển khai agent tự động thực tế. Memento-Skills cung cấp kiến trúc cụ thể để giải quyết điều đó.

Huawei Noah's Ark: agent LLM học từ kinh nghiệm, không cần tinh chỉnh VentureBeat · cuối Jun 2026

Lab Huawei Noah's Ark chứng minh một framework bộ nhớ có cấu trúc giúp agent LLM thích ứng động với môi trường hoàn toàn trong thời điểm đang trả lời (inference) — không cập nhật tham số, không tinh chỉnh (fine-tuning) — bằng cách duy trì bộ nhớ liên tục cập nhật về các vết hành động thành công và thất bại. Hệ thống dùng chính kinh nghiệm của agent để tinh chỉnh quyết định tương lai, đạt cải thiện hiệu năng liên tục trên các tác vụ ra quyết định tuần tự.

Tại sao quan trọng: Cùng với Memento-Skills, điều này xác nhận hội tụ kiến trúc: cộng đồng đang dồn về phía cải thiện dựa trên bộ nhớ là con đường thực tế đến agent thích ứng — thay vì huấn luyện lại liên tục. Hai bài báo độc lập, hai tổ chức khác nhau, cùng hướng trong cùng một tuần là tín hiệu mạnh.

Nguồn Nhật Bản

AI tạo sinh có nuốt chửng ngành ML không? Qiita · Jun/Jul 2026 — ngày không xác nhận

Một data scientist trên Qiita kiểm tra câu hỏi: liệu AI tạo sinh và LLM có đang hấp thụ toàn bộ ngành machine learning — khiến kỹ năng ML cổ điển lỗi thời hay tái định vị chúng như hạ tầng bên dưới các mô hình nền (foundation model)? Bài khảo sát những lĩnh vực ML nào (feature engineering, mô hình tabular, chuỗi thời gian, causal inference) vẫn còn riêng biệt không-tạo-sinh và lĩnh vực nào đã bị hấp thụ. Kết luận: vai trò ML practitioner đang phân kỳ — một bên là điều phối viên foundation model, bên kia là kỹ sư ML chuyên biệt xử lý dữ liệu cấu trúc và cảm biến.

Tại sao quan trọng: Một đánh giá cảnh quan trung thực cho bất kỳ chuyên gia DS nào đang điều chỉnh lại lộ trình khi các vị trí liên quan LLM đang lấn át vị trí ML cổ điển.

LLM và phân tích chuỗi thời gian: ranh giới mới của kỹ thuật prompt note.com · Jun/Jul 2026 — ngày không xác nhận

Bài viết thách thức giả định mặc định rằng phân tích chuỗi thời gian đòi hỏi mô hình thống kê chuyên biệt (ARIMA, Prophet, kiến trúc deep learning đặc thù). Tác giả cho thấy kỹ thuật prompt engineering dựa trên LLM có thể xấp xỉ và trong một số trường hợp vượt trội phương pháp cổ điển trên nhận dạng mẫu và phát hiện bất thường — đặc biệt khi dữ liệu huấn luyện có nhãn khan hiếm. Bao gồm ví dụ thực tế về các template câu lệnh hướng dẫn (prompt) mã hóa kiến thức domain trước đây được nhúng vào hand-crafted features.

Tại sao quan trọng: Nếu trực giác cốt lõi đúng, prototype LLM-first có thể rút ngắn vòng thử nghiệm cho bài toán chuỗi thời gian trước khi cam kết với pipeline chuyên biệt tốn kém hơn.

Từ LLM sang "thế giới vật lý AI": sự chuyển dịch cơ bản của 2026 note.com · Jun/Jul 2026 — ngày không xác nhận

Hirohisa Arai lập luận rằng sự chuyển dịch cơ bản của AI năm 2026 không phải là tiếp tục mở rộng mô hình ngôn ngữ, mà là sự nổi lên của "thế giới vật lý AI" (physical AI world models) — hệ thống mã hóa cấu trúc nhân quả, không gian, và thời gian của thế giới thực để cho phép suy luận thể hiện và điều khiển robot. Bài định vị LLM như công nghệ chuyển tiếp và đặt world models (theo hướng gần đây của NVIDIA và Google DeepMind) là bước nhảy vọt thế hệ tiếp theo, với hàm ý cụ thể cho việc đầu tư nghiên cứu AI đang dịch chuyển đến đâu.

Tại sao quan trọng: Hiểu được framing này giúp DS/AI practitioner dự đoán nơi compute, tooling, và nhu cầu tuyển dụng sẽ tập trung trong 2–3 năm tới.

Nguồn Việt Nam

Small Language Models: mảnh ghép còn thiếu của kỷ nguyên Agentic AI Viblo · Jun/Jul 2026 — ngày không xác nhận

Bài viết lập luận rằng Mô hình Ngôn ngữ Nhỏ (Small Language Models — SLM) không phải là lựa chọn thỏa hiệp mà là lựa chọn chiến lược cho các hệ thống agent sẵn sàng sản xuất. Bài so sánh SLM (gọn nhẹ, chuyên biệt, độ trễ thấp) với LLM full-scale và cho thấy kiến trúc đa tác nhân (multi-agent) hưởng lợi từ việc giao SLM xử lý các subtask hẹp, tần suất cao trong khi dành các lần gọi LLM cho các bước điều phối nặng suy luận. Ví dụ thực tế trong bài cho thấy cách xử lý công cụ bằng SLM giảm tổng chi phí suy luận 60–70% so với phương pháp dùng toàn LLM.

Tại sao quan trọng: Với practitioner Việt Nam xây hệ thống agent trong ngân sách thực tế, SLM-as-worker-node là pattern có thể triển khai ngay hôm nay — không phải cân nhắc cho tương lai.

Model Context Protocol: giao thức ngữ cảnh cho mô hình AI hiện đại Viblo · Jun/Jul 2026 — ngày không xác nhận

Bài hướng dẫn kỹ thuật tiếng Việt về Giao thức Ngữ cảnh Mô hình (Model Context Protocol — MCP) của Anthropic — chuẩn mở để kết nối LLM với công cụ, nguồn dữ liệu và API bên ngoài theo cách chuẩn hóa. Bài bao gồm kiến trúc server-client, cách MCP server expose năng lực, và hướng dẫn triển khai connector MCP cơ bản. Tác giả đặt MCP trong bối cảnh so với function calling và RAG như các pattern bổ sung thay vì cạnh tranh.

Tại sao quan trọng: MCP đang nhanh chóng trở thành lớp tương tác tiêu chuẩn de facto cho tích hợp công cụ LLM — lập trình viên Việt Nam cần nền tảng này trước khi xây dựng hệ thống AI sản xuất.

Xu hướng tuần này

Học mà không huấn luyện lại là xu hướng kiến trúc nổi bật nhất tuần 27. Ba kiến trúc độc lập — Fugu Ultra (điều phối đa mô hình), Memento-Skills (viết lại kỹ năng trong bộ nhớ ngoài), và Huawei Noah's Ark (vết kinh nghiệm ở thời điểm mô hình đang trả lời) — hội tụ vào cùng một thiết kế: tách biệt khả năng thích ứng khỏi trọng số mô hình. Ba nhóm nghiên cứu độc lập, cùng tuần, cùng hướng là tín hiệu hội tụ đáng chú ý.
Học tăng cường mở rộng ra tác vụ thực chiến. Agent-R1 chứng minh rằng kỹ thuật RL vốn được tối ưu trên toán và code có thể chuyển giao hiệu quả sang tác vụ agent nhiều bước trong thế giới thực — đặc biệt trên luồng công việc cần 5+ lượt gọi công cụ. Đây là bước cầu nối quan trọng giữa nghiên cứu RL và triển khai agent sản xuất.
Cộng đồng Nhật đặt câu hỏi chiến lược dài hạn. Trong khi cộng đồng tiếng Anh tập trung vào benchmark mô hình mới nhất, kỹ sư Nhật đang thảo luận về hai câu hỏi khác: ML truyền thống còn vai trò gì trong thế giới LLM? Và sau LLM là gì? Đây là cộng đồng kỹ thuật hiếm khi bị cuốn theo hype ngắn hạn — khi họ hỏi thật, đó là tín hiệu hướng dài hạn đáng theo dõi.

Tuần tới, sẽ đáng chú ý liệu Memento-Skills và phương pháp bộ nhớ của Huawei có kéo theo các triển khai mã nguồn mở tương tự hay không — và liệu Fugu Ultra có công bố thêm bằng chứng benchmark nào chứng minh lợi thế điều phối đa mô hình một cách có hệ thống.

ai-weeklymulti-agentself-improving-agentsllm

Nguồn tham khảo