08/06/2025
Các con chip thuộc bộ sưu tập Xeon thế hệ thứ 5 - codename Emerald Rapids và card đồ họa top end như RTX 5090 đóng vai trò chủ chốt trong các workloads AI inference.
CPU tiền xử lý dataset trước khi được upload lên GPU.
Số lượng nhân và cache lớn: (đến 64 nhân / socket), và gấp 3 bộ nhớ đệm L3 so với thế hệ trước đó nên Emerald Rapids có khả năng xử lý dataset lớn và các tính toán phức tạp 1 cách hiệu quả hơn.
Công nghệ bộ nhớ và I/O mới với 8 kênh RAM DDR5 và PCIe thế hệ 5 đem đến băng thông siêu tốc và độ trễ thấp - là điểm cực kỳ quan trọng khi cấp dữ liệu nhanh chóng cho GPU và các phần cứng tăng tốc khác.
Có sẵn AI Acceleration với các tính năng như Intel Advanced Matrix Extensions (AMX) cung cấp tăng tốc phần cứng - thường thấy trong workload AI, tăng tốc inference trực tiếp từ CPU.
Đa nhiệm hiệu quả: xung cao hơn, hiệu quả xử lý đơn nhân và đa nhân tốt hơn, bao gồm tiền xử lý dữ liệu, indexing, hậu xử lý dữ liệu xung quanh AI inference.
Tiết kiệm chi phí và linh hoạt: CPU Emerald Rapids có thể đạt tốc độ suy luận tương đương với một số GPU (ví dụ: Tesla T4) cho một số khối lượng công việc nhất định, cung cấp giải pháp thay thế hoặc bổ sung tiết kiệm chi phí cho suy luận GPU, đặc biệt là trong các đường ống đa phương thức và tác vụ Tạo tăng cường truy xuất (RAG)
Chuẩn bị dữ liệu và quản lý pipeline trên CPU: CPU Xeon Emerald Rapids xử lý tiền xử lý dữ liệu, lập chỉ mục, tìm kiếm và các tác vụ tính toán I/O chuyên sâu hoặc vô hướng khác một cách hiệu quả nhờ số lượng lõi cao, bộ nhớ đệm lớn và tiện ích mở rộng tăng tốc AI (AMX). Điều này chuẩn bị và cung cấp dữ liệu tối ưu cho GPU để suy luận.
Tính toán AI mạnh trên GPU: RTX 5090 thực hiện các phép tính suy luận AI cốt lõi, đặc biệt là các phép toán ma trận và đánh giá mô hình học sâu, tận dụng tính song song lớn và Tensor Core để suy luận mô hình nhanh, quy mô lớn.
Kết nối tốc độ cao: Emerald Rapids hỗ trợ PCIe Gen5, cung cấp kết nối băng thông cao và độ trễ thấp cho các GPU như RTX 5090, giảm thiểu tình trạng tắc nghẽn truyền dữ liệu giữa CPU và GPU.
Phân phối khối lượng công việc cân bằng: Bằng cách chuyển giao các tác vụ không phải học sâu và xử lý dữ liệu cho CPU, GPU có thể tập trung hoàn toàn vào việc tăng tốc suy luận mạng nơ-ron, cải thiện thông lượng và hiệu quả chung.
Hiệu quả về chi phí và điện năng: CPU Emerald Rapids cải thiện hiệu suất trên mỗi watt và giảm tổng chi phí sở hữu, bổ sung cho sức mạnh tính toán cao của GPU để tạo ra hệ thống suy luận AI cân bằng, có thể mở rộng.