Trong kỷ nguyên phát triển của trí tuệ nhân tạo, các mô hình tính toán lớn thường được vận hành tập trung tại các trung tâm dữ liệu quy mô lớn. Tuy nhiên, mô hình này đi kèm với các thách thức lớn về độ trễ truyền tải, rủi ro bảo mật thông tin và sự phụ thuộc chặt chẽ vào đường truyền Internet. Đối với các hệ thống robot, thiết bị nhúng và phương tiện tự hành vận hành trong thế giới thực, yêu cầu xử lý thông tin tức thời và độc lập là yếu tố bắt buộc.
Tại sự kiện GTC Taipei 2026, Nvidia đã giới thiệu một loạt giải pháp mới tập trung vào việc đưa AI rời khỏi môi trường đám mây để hoạt động trực tiếp trên các thiết bị cạnh biên. Bài viết này sẽ phân tích các cải tiến kỹ thuật nổi bật nhất từ phần cứng đến phần mềm giúp hiện thực hóa xu hướng này.
1. Thiết kế bộ nhớ thống nhất trên siêu chip RTX Spark: Lời giải cho “bức tường bộ nhớ”

Source: https://www.embedded.com/ai-agents-at-the-edge-nvidias-impact-on-embedded-systems
Nỗ lực đưa các mô hình ngôn ngữ lớn (LLM) lên thiết bị cá nhân hoặc thiết bị biên thường gặp rào cản lớn về băng thông truyền tải giữa CPU và GPU, hay còn gọi là “bức tường bộ nhớ” (memory wall). Siêu chip RTX Spark – sản phẩm hợp tác giữa Nvidia, MediaTek và Microsoft – đã áp dụng một hướng đi mới trong thiết kế phần cứng để giải quyết vấn đề này.
Thông số kỹ thuật cốt lõi của siêu chip RTX Spark:
- Hiệu năng tính toán: Đạt mức 1 petaflop.
- Cấu trúc nhân: Tích hợp 20 nhân CPU Grace và hơn 6.000 GPU Blackwell trên cùng một đế chip.
- Kiến trúc bộ nhớ: Loại bỏ hoàn toàn bộ nhớ đồ họa (VRAM) độc lập truyền thống. Thay vào đó, hệ thống sử dụng 128GB bộ nhớ LPDDR5X thống nhất (Unified Memory), kết nối trực tiếp thông qua chuẩn giao tiếp tốc độ cao NVLink C2C.
Bằng việc hợp nhất bộ nhớ và áp dụng định dạng dữ liệu số thực dấu phẩy động 4-bit (FP4) để tối ưu hóa tốc độ suy luận, hệ thống có thể chạy trực tiếp các mô hình LLM quy mô 20 tỷ tham số với bối cảnh (context window) lên tới 1 triệu token ngay trên thiết bị biên mà không cần kết nối mạng. Phương thức này giúp nội địa hóa hoàn toàn các tác vụ của đại lý AI (AI agent).
2. Dịch chuyển từ AI tạo sinh sang AI hành động (Agentic AI)
Thị trường công nghệ đang ghi nhận sự dịch chuyển rõ nét từ AI tạo sinh (Generative AI – chỉ dừng lại ở mức phản hồi văn bản/hình ảnh) sang AI hành động (Agentic AI – có khả năng tự đưa ra quyết định và tương tác vật lý). Để hỗ trợ xu hướng này, Nvidia đã tích hợp khung làm việc (framework) NemoClaw lên dòng sản phẩm Jetson, mở ra khả năng lập trình và triển khai các tác vụ tự chủ cho robot.
Nhiều doanh nghiệp công nghiệp đã bắt đầu ứng dụng giải pháp này vào thực tế sản xuất:
- Solomon: Sử dụng NemoClaw để đồng bộ các chuỗi tác vụ từ suy luận logic, thu nhận dữ liệu cảm biến cho đến điều khiển trực tiếp trên robot hình người. Nhờ đó, robot có thể tự động tính toán, tối ưu hóa điểm gắp và thích ứng linh hoạt theo sự thay đổi của môi trường xung quanh.
- Advantech: Ứng dụng giải pháp này để xây dựng kiến trúc quản lý tập trung cho toàn bộ đội tàu robot tự hành trong nhà xưởng, đồng thời tự động hóa quy trình phát hiện lỗi sản phẩm trên dây chuyền sản xuất thông qua các đại lý AI tại chỗ.

Solomon uses NemoClaw to coordinate AI agents on a humanoid robot
(Source: https://blogs.nvidia.com/blog/jetson-agentic-ai-physical-world/)
3. Đảm bảo tính thời gian thực và an toàn trong môi trường công nghiệp
Trong môi trường vận hành công nghiệp, độ trễ không xác định (non-deterministic latency) là một trong những rủi ro kỹ thuật lớn nhất, có thể dẫn đến các sự cố va chạm hoặc dừng dây chuyền ngoài ý muốn.
Để khắc phục vấn đề này, Nvidia đã thực hiện đồng thời hai bước tiến quan trọng về cả hệ điều hành lẫn phân chia tài nguyên phần cứng:
Hệ điều hành siêu nhẹ Yocto Linux
Trong bộ công cụ phát triển phần mềm JetPack 7.2, Nvidia chính thức hỗ trợ dự án Yocto. Điều này cho phép các kỹ sư hệ thống xây dựng các bản phân phối Linux tùy biến cực kỳ nhỏ gọn, loại bỏ các tiến trình thừa để tối ưu hóa độ ổn định và kiểm soát độ trễ ở mức tối thiểu.
Công nghệ phân chia GPU (MIG) trên dòng Jetson Thor
Bộ xử lý Jetson Thor tích hợp công nghệ Multi-Instance GPU (MIG). Công nghệ này cho phép phân chia phần cứng GPU thành các thực thể độc lập về mặt vật lý. Nhờ đó, tài nguyên tính toán dành cho các tác vụ quan trọng như nhận diện vật cản bảo vệ an toàn cho robot sẽ được cô lập hoàn toàn, không bị ảnh hưởng hay tranh chấp tài nguyên bởi các tiến trình AI phụ trợ khác chạy song song. Giải pháp này đã được Hexagon Robotics ứng dụng để vận hành các thế hệ robot hình người tại các môi trường làm việc phức tạp như công trường xây dựng và kho bãi logistics.

Hexagon Robotics integrates Jetson Thor for safer humanoid robots.
(Source: https://blogs.nvidia.com/blog/jetson-agentic-ai-physical-world/)
Khung bảo mật tích hợp sâu
Để giải quyết bài toán bảo mật khi đưa AI tự chủ vào vận hành trực tiếp, Nvidia phối hợp cùng Microsoft tích hợp các tính năng bảo mật gốc ngay từ cấp độ phần cứng. Hệ điều hành Windows hoạt động trên nền tảng RTX Spark được trang bị các nguyên mẫu bảo mật (security primitives) cho việc quản lý danh tính và thiết lập chính sách vận hành. Đồng thời, công nghệ OpenShell của Nvidia đóng vai trò thiết lập các ranh giới kỹ thuật nghiêm ngặt, kiểm soát hành vi của các đại lý AI luôn nằm trong hành lang an toàn được định nghĩa trước.
4. Tối ưu hóa phần mềm: Giải pháp giảm tổng chi phí sở hữu (TCO)
Một trong những thách thức lớn khi triển khai AI diện rộng là chi phí đầu tư thiết bị ban đầu cao. Nvidia tiếp cận bài toán này bằng cách tối ưu hóa hiệu suất phần mềm thông qua bộ công cụ Jetson Agent Skills, giúp giảm cấu hình phần cứng yêu cầu mà vẫn giữ nguyên năng lực xử lý.
Các số liệu triển khai thực tế từ các đối tác cho thấy hiệu quả rõ rệt của phương pháp này:
| Đơn vị ứng dụng |
Giải pháp kỹ thuật áp dụng |
Hiệu quả tối ưu hóa thực tế |
| NoTraffic (Quản lý giao thông thông minh) |
Cắt tỉa nhân (kernel pruning) & Biên dịch tĩnh |
Giảm 29% dung lượng bộ nhớ yêu cầu. |
| SandStar (Máy bán hàng tự động thông minh) |
Tối ưu hóa cấu trúc dữ liệu phần mềm |
Tiết kiệm 40% dung lượng bộ nhớ, cho phép chuyển đổi phần cứng từ dòng 16GB xuống còn 8GB mà hiệu suất không thay đổi. |
Bên cạnh việc tối ưu hóa cho các thiết bị thế hệ mới, Nvidia cũng nâng cấp hiệu năng cho các thiết bị hiện hữu. Phiên bản Jetson AGX Orin 32GB được công bố mức tăng hiệu suất tính toán lên tới 241 TOPS (tăng thêm 20% so với thông số kỹ thuật ban đầu), giúp doanh nghiệp kéo dài vòng đời khai thác của các phần cứng đã đầu tư.
5. Kết luận
Các giải pháp công nghệ được giới thiệu tại GTC Taipei 2026 cho thấy xu hướng dịch chuyển rõ ràng của AI: từ các mô hình tính toán đám mây tĩnh sang các thực thể tự chủ hoạt động trực tiếp trong thế giới vật lý. Việc giải quyết đồng thời các bài toán về băng thông bộ nhớ (qua RTX Spark), tính thời gian thực (qua Yocto và MIG), an toàn thông tin (qua OpenShell) và tối ưu hóa chi phí vận hành (qua Jetson Agent Skills) đang đặt nền móng kỹ thuật vững chắc để các doanh nghiệp từng bước chuyển đổi sang mô hình vận hành tự động hóa hoàn toàn.
Nguồn tham khảo:
https://blogs.nvidia.com/blog/jetson-agentic-ai-physical-world/
https://www.embedded.com/ai-agents-at-the-edge-nvidias-impact-on-embedded-systems