Công nghệ Intel AMX

Intel AMX (viết tắt của Advanced Matrix Extensions) là một bộ gia tốc phần cứng tích hợp trên các lõi CPU của dòng vi xử lý Intel Xeon thế hệ 4 trở lên, được thiết kế đặc biệt để tăng tốc các khối lượng công việc học sâu (deep learning) như đào tạo và suy luận trí tuệ nhân tạo (AI)

AMX tối ưu cho xử lý ma trận, vốn là cốt lõi trong các thuật toán deep learning như convolution, attention, v.v.

Đặc điểm chính của Intel AMX

Gia tốc ma trận

Intel AMX mở rộng kiến trúc x86 với các thanh ghi 2 chiều gọi là tiles, mỗi tile gồm nhiều phần tử dữ liệu, cho phép thực hiện các phép toán ma trận lớn trong một chu kỳ xử lý duy nhất, giúp tăng tốc các phép nhân ma trận (matrix multiplication) rất phổ biến trong AI và machine learning.

AMX gồm hai thành phần chính:

TILE register file – Dùng để lưu trữ ma trận cỡ lớn.
TILE compute instructions – Tập lệnh thực thi các phép toán ma trận hiệu quả cao.

Hỗ trợ đa dạng kiểu dữ liệu

AMX hỗ trợ các kiểu dữ liệu phổ biến trong AI như BF16 (bfloat16) cho cả đào tạo và suy luận, INT8 cho suy luận, và FP16 (floating point 16-bit) giúp tăng hiệu suất tính toán mà vẫn giữ độ chính xác cần thiết.

Tích hợp trực tiếp trên CPU

Thay vì phải dùng các bộ tăng tốc rời như GPU hoặc FPGA, AMX được tích hợp ngay trên lõi CPU, giúp giảm độ trễ, đơn giản hóa thiết kế hệ thống và tiết kiệm chi phí triển khai.

Cấu trúc linh hoạt và mở rộng

AMX gồm hai thành phần chính là các tile (bộ thanh ghi 2D) và TMUL (tile matrix multiply unit) – bộ tăng tốc thực hiện các phép nhân ma trận trên các tile này. Kích thước tile có thể được cấu hình linh hoạt, giúp phần mềm dễ dàng tận dụng các cải tiến trong tương lai mà không cần thay đổi mã nguồn.

Lợi ích của Intel AMX

Tăng tốc hiệu năng AI: Giúp cải thiện đáng kể tốc độ xử lý các mô hình AI phức tạp như mạng neuron sâu, xử lý ngôn ngữ tự nhiên (NLP), hệ thống đề xuất, nhận dạng hình ảnh, và các ứng dụng máy học khác. Tăng tốc inference và training AI trực tiếp trên CPU. Hỗ trợ tốt các framework như TensorFlow, PyTorch khi dùng với Intel OneAPI hay các công cụ tối ưu hóa của Intel.
Giảm chi phí và độ phức tạp: Giảm nhu cầu phần cứng tăng tốc rời, từ đó giảm tổng chi phí sở hữu (TCO) và đơn giản hóa việc triển khai, bảo trì hệ thống AI. Tối ưu hiệu suất và tiết kiệm điện năng cho khối lượng tính toán lớn.
Tối ưu hóa tài nguyên CPU: Tận dụng tối đa khả năng xử lý của CPU Intel Xeon thế hệ mới, đồng thời hỗ trợ các khối lượng công việc AI quy mô lớn với hiệu quả cao, giảm phụ thuộc vào GPU trong một số workload.

Ứng dụng thực tế

AI server không cần GPU vẫn chạy tốt các mô hình NLP, recommendation, computer vision,...
Data center xử lý batch inference với hiệu quả cao hơn.
Giúp CPU bắt kịp GPU trong một số tác vụ chuyên biệt.

Intel AMX là bộ gia tốc ma trận tích hợp trên CPU Intel Xeon giúp tăng tốc đáng kể các phép toán ma trận trong AI, hỗ trợ đa dạng kiểu dữ liệu và giảm độ phức tạp, chi phí triển khai các ứng dụng học sâu trên nền tảng CPU.