Cách thức Intel Storage tăng tốc triển khai AI

0
583

Quản lý dữ liệu AI phức tạp dựa trên Công nghệ Intel® Optane™ và Công nghệ Intel® 3D NAND.

Intel cho Bộ nhớ AI

Intel® Optane™ tối ưu hóa SSD tài nguyên tính toán với hiệu suất hỗn hợp cao thông qua nhiều lượng công việc, kiểu truy cập và kích thước khối khác nhau. Ổ cứng SSD 3D NAND của Intel® cho thấy giá trị dữ liệu được lưu trữ đồng thời giảm chi phí lưu trữ, tăng dung lượng và hiệu quả hoạt động. Sự kết hợp giữa các công nghệ lưu trữ của Intel mang đến giải pháp nhanh và linh hoạt nhằm đảm bảo khả năng lưu trữ bắt kịp với nhu cầu phát triển ngày càng phức tạp của đường ống dữ liệu AI.

Dù là doanh nghiệp đang hay chưa sử dụng dịch vụ tăng tốc nhờ AI thì cũng đến lúc cần phải quan tâm đến việc xử lý dữ liệu ngày càng phức tạp. Trong báo cáo nghiên cứu gần đây nhất, Whatech nhận thấy thị trường kho lưu trữ toàn cầu được AI hỗ trợ đang phát triển “từ 10,4 tỷ USD năm 2019 lên 34,5 tỷ USD vào năm 2024; tốc độ phát triển CAGR là 27,1%.” Các trình điều khiển rất rộng, bao gồm cả “sự tăng trưởng mạnh mẽ khối lượng dữ liệu, nhu cầu về cơ sở hạ tầng doanh nghiệp toàn cầu để làm mới bộ nhớ, tăng việc áp dụng các dịch vụ dựa trên công nghệ đám mây và nhu cầu về AI trong các trung tâm dữ liệu HPC.”

Cho dù chúng ta đã sẵn sàng hay chưa thì AI vẫn sẽ ngày càng phổ biến và được ứng dụng rộng rãi. Trước tiên phải nhận thức được sự phức tạp của dữ liệu AI. Người ta nói nhiều về ba chữ ‘V’ và đề cập đến cách thức hoạt động như sau:

• Volume- Khối lượng: Khi dữ liệu đào tạo AI phát triển, các thuật toán ngày càng thông minh hơn. Cloudian chỉ ra rằng “Việc quản lý các tập dữ liệu này đòi hỏi các hệ thống lưu trữ mở rộng không giới hạn.”

• Velocity – Tốc độ: Theo kết quả khảo sát của IDG: Đến năm 2025 có gần 20% dữ liệu sẽ rất quan trọng đối với cuộc sống hàng ngày của chúng ta và 10% là “siêu hạn.”- Nghĩa là việc truy cập dữ liệu này là chắc chắn.

• Variety- Đa dạng: Sự đa dạng đề cập đến định dạng của dữ liệu. Khi các doanh nghiệp tìm cách cải thiện trải nghiệm của khách hàng, hoạt động hiệu quả hơn và sự cạnh tranh cao hơn, họ sẽ phân tích dữ liệu trên nhiều định dạng hơn, bao gồm nhập dữ liệu từ các giao dịch, tương tác trên mạng xã hội, dịch vụ khách hàng và liên quan đến nhiều loại file, nhấp chuột, văn bản, video, dữ liệu máy và tín hiệu Bluetooth.

Điều hướng AI Pipeline

Mỗi chữ V này thay đổi đáng kể tùy thuộc vào giai đoạn của hệ thống AI. Ví dụ: dữ liệu có thể được nhập bằng petabyte, chuyển sang việc đào tạo dữ liệu dưới dạng gigabyte có dạng cấu trúc và bán cấu trúc, sau đó kết thúc dưới dạng kilobyte. Ngoài ra, khối lượng công việc thay đổi rất nhiều, bắt đầu bằng việc nhập ghi 100%, đang tiến tới chuẩn bị để có thể đạt được kết hợp đọc/ghi 50/50, sau đó chuyển sang đào tạo và kết luận ở mức đọc 100%.

Giải pháp cho ba chữ V là tạo ra một đường ống dữ liệu với các chức năng AI khác nhau ở một cấp được tối ưu hóa cho dung lượng/mở rộng không gian hiệu quả và một cấp khác được tối ưu hóa để lưu trữ hiệu suất/mở rộng quy mô. Điều này cho thấy kho lưu trữ hoặc kho phương tiện hoạt động như một kho lưu trữ tập trung cho tất cả các dữ liệu phi cấu trúc ở bất kỳ quy mô nào.

Tất cả những thay đổi này luôn yêu cầu hệ thống phải có thông lượng cao (TPT) và độ trễ cực thấp. Để điều hướng tốt, cần có công nghệ giải quyết những thách thức này và mở rộng quy mô với nhu cầu AI đang ngày càng phát triển.

Trong một báo cáo gần đây, Gartner đã nhấn mạnh tầm quan trọng của việc hiểu rõ các giai đoạn: “Sự thành công của các sáng kiến ML và AI dựa vào việc điều phối các đường ống dữ liệu một cách hiệu quả nhằm cung cấp dữ liệu chất lượng cao theo các định dạng phù hợp một cách kịp thời trong suốt các giai đoạn khác nhau của quy trình AI.”

So với ổ cứng NAND + HDD hoặc tất cả giải pháp TLC NAND, sự kết hợp các công nghệ lưu trữ của Intel mang lại tốc độ nhanh và sự linh hoạt cần thiết để đáp ứng hiệu suất phù hợp cho mọi giai đoạn của đường truyền dữ liệu AI. Công nghệ Intel® Optane™ cung cấp hiệu suất cao và độ trễ thấp để lưu trữ nhanh hoặc lưu vào bộ nhớ đệm nhanh, trong khi các SSD Intel® 3D NAND củng cố khả năng lưu trữ, mở rộng quy mô với nhu cầu lưu trữ và tốc độ truy cập ngày càng cao.

Kỹ thuật lưu trữ của Intel hoạt động trong pipeline như thế nào.

Trong giai đoạn nhập, do định dạng dữ liệu thay đổi lớn từ nhiều nguồn khác nhau nên khả năng nhập và quản lý dữ liệu là vô cùng quan trọng. Kích thước của dữ liệu được nhập có thể khác nhau và thường ở dạng file không có cấu trúc như video, hình ảnh, tài liệu hoặc bản ghi hội thoại. Giai đoạn này tập trung nhiều vào nhiệm vụ ghi tuần tự với việc giải mã định kỳ bộ đệm nhập vào bộ lưu trữ dung lượng. Nếu tốc độ nhập dữ liệu không thể theo kịp, thì nguồn dữ liệu có thể bị tạm dừng, dữ liệu có thể bị xóa hoặc bị tắc nghẽn tại DRAM có sẵn. Với công nghệ Intel Optane, bộ đệm cung cấp khả năng mở rộng quá trình nhập với hiệu suất ghi cao và độ trễ thấp.

Ở giai đoạn chuẩn bị, dữ liệu phải được chuyển đổi thông qua việc ghi nhãn, nén, giải mã, chuyển đổi và làm sạch. Dữ liệu được nhập có thể có nhiều kích thước, định dạng, mức hoàn chỉnh và độ chính xác. Dữ liệu bị thiếu hoặc không đầy đủ cần được gắn thêm thông tin (hoặc bị bỏ qua) đồng thời chuẩn hóa các yếu tố không nhất quán (số thập phân so với dấu phẩy trong tập dữ liệu được đánh số). Đây là một quá trình lặp đi lặp lại: số lượng dao động của dữ liệu được đọc và ghi ngẫu nhiên và tuần tự. Do giai đoạn chuẩn bị có thể tiêu tốn tới 80% tài nguyên AI, nên việc thiết bị lưu trữ mang lại độ trễ thấp, QoS và thông lượng cao là rất quan trọng để giảm thời gian chuẩn bị. Tốc độ chuyển đổi phụ thuộc vào tốc độ lưu trữ và lượng dữ liệu được thêm vào; dữ liệu càng đa dạng thì nhu cầu về hiệu suất lưu trữ càng tăng cao. Công nghệ Intel Optane mang lại hiệu suất đọc/ghi lớn chưa từng có để giảm thời gian chuẩn bị dữ liệu.

• Việc huấn luyện bao gồm di chuyển các tập dữ liệu được lặp lại và ngẫu nhiên. Để huấn luyện hiệu quả nhất cần phải tối ưu hóa việc sử dụng máy tính. Bước này tốn rất nhiều tài nguyên, liên quan đến việc thực hiện lặp đi lặp lại các hàm toán học trên dữ liệu đã chuẩn bị để xác định kết quả mong muốn có xác suất cao. Kết quả sau đó được đánh giá độ chính xác và nếu thấp hơn mức quy định thì sẽ sửa đổi và thử lại các hàm toán học. Các mô hình phức tạp hơn liên quan nhiều đến “các lớp” mạng nơ-ron làm tăng độ chính xác, nhưng đồng thời tăng nhu cầu lưu trữ. TPT đọc ngẫu nhiên tốc độ cao và độ trễ thấp của SSD Intel Optane giúp giữ được các tài nguyên đào tạo quan trọng. Ngoài ra, SSD Intel Optane có thể tăng tốc dữ liệu tạm thời trong suốt dữ liệu mô hình.

• Cuối cùng, giai đoạn kết luận sẽ thực thi việc triển khai mô hình đã đào tạo. Việc triển khai có thể trong trung tâm dữ liệu hoặc trên các thiết bị tiên tiến. Di chuyển dữ liệu bao gồm việc đọc mô hình được đào tạo từ lưu trữ sang kết luận, đánh giá việc ghi dữ liệu nhập thành kết luận và đọc lại kết quả được kết luận sau khi đào tạo để cải thiện độ chính xác. Khả năng phản hồi kịp thời để đánh giá độ chính xác của quyết định là rất quan trọng. Công nghệ Intel Optane cung cấp khả năng tăng tốc để di chuyển các mô hình được đào tạo này.

Sự đa dạng và việc sử dụng dữ liệu thay đổi khi nó di chuyển vào và ra khỏi kho dữ liệu và thông qua hệ thống AI làm tăng nhu cầu các giải pháp lưu trữ với tốc độ nhanh và sự linh hoạt cần thiết để đáp ứng hiệu suất phù hợp cho mọi giai đoạn. Công nghệ Intel® Optane™ cung cấp hiệu suất cao và độ trễ thấp để lưu trữ nhanh trong khi SSD Intel® 3D NAND mang lại hiệu suất và các tùy chọn dung lượng cao.

“Sự thành công của Học máy và các sáng kiến AI phụ thuộc vào việc sắp xếp các đường ống dữ liệu hiệu quả để cung cấp dữ liệu chất lượng cao ở các định dạng phù hợp với các giai đoạn khác nhau của đường ống AI”- Gartner

Các doanh nghiệp đang ngày càng triển khai nhiều kho lưu trữ hoặc các đường ống dữ liệu chung nhằm có thêm thông tin chi tiết và tăng hiệu quả. Họ xây dựng nhiều trường hợp sử dụng AI, phân tích dữ liệu, báo cáo và các ứng dụng khác trên các kho lưu trữ này. Khi các doanh nghiệp càng hiểu rõ hơn về AI, lượng dữ liệu được lưu trữ sẽ tăng lên nhanh chóng.

Tối ưu hóa tài nguyên tính toán AI

Công nghệ Intel Optane đang tối ưu hóa tài nguyên tính toán với hiệu suất hỗn hợp cao trên nhiều lượng công việc, quyền truy cập các mẫu và kích thước khối ở tất cả các giai đoạn. Bên cạnh đó SSD PCIe với công nghệ Intel 3D NAND giải phóng giá trị của dữ liệu được lưu trữ đồng thời giảm chi phí lưu trữ, không gian và hiệu quả hoạt động.

Venture Beat tổng kết lại rằng: “khoản đầu tư R&D kéo dài hàng thập kỷ của Intel vào lĩnh vực này kết hợp bộ nhớ/lưu trữ mới” đã được đền đáp, và “Intel Optane nên là một mạng lưới tăng hiệu suất cho các ứng dụng tiêu tốn bộ nhớ lớn.”

 Biên dịch: Bắc Đặng

Để cập nhật tin tức công nghệ mới nhất và các sản phẩm của công ty AIoT JSC, vui lòng truy cập link: http://aiots.vn hoặc linhkienaiot.com

0 0 Phiếu bầu
Article Rating
Subscribe
Notify of
guest
0 Comments
Phản hồi nội tuyến
Xem tất cả các bình luận