Trong bối cảnh trí tuệ nhân tạo (AI) không ngừng phát triển, các mô hình ngôn ngữ lớn (LLM) như GPT-4 và Llama đã thu hút sự chú ý đáng kể với khả năng ấn tượng trong xử lý và tạo ngôn ngữ tự nhiên. Tuy nhiên, các mô hình ngôn ngữ nhỏ (SLM) đang nổi lên như một đối tác quan trọng trong cộng đồng mô hình AI, mang đến lợi thế độc đáo cho các trường hợp sử dụng cụ thể. AMD rất vui mừng được phát hành mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M với Giải mã Suy đoán. Công việc này thể hiện cam kết của hãng đối với cách tiếp cận mở đối với AI, điều này sẽ dẫn đến tiến bộ công nghệ bao trùm, đạo đức và đổi mới hơn, giúp đảm bảo rằng lợi ích của nó được chia sẻ rộng rãi hơn và những thách thức của nó được giải quyết một cách hợp tác hơn.
AMD-135M là mô hình ngôn ngữ nhỏ đầu tiên dành cho gia đình Llama được đào tạo từ đầu trên bộ gia tốc AMD Instinct™ MI250 sử dụng 670 tỷ mã thông báo và được chia thành hai mô hình: AMD-Llama-135M và AMD-Llama-135M-code.
- Tiền đào tạo: Mô hình AMD-Llama-135M được đào tạo từ đầu với 670 tỷ mã thông báo dữ liệu chung trong sáu ngày sử dụng bốn nút MI250.
- Tinh chỉnh mã: Biến thể AMD-Llama-135M-code được tinh chỉnh với thêm 20 tỷ mã thông báo dữ liệu mã, mất bốn ngày trên cùng phần cứng.
Mã đào tạo, bộ dữ liệu và trọng số cho mô hình này là mã nguồn mở để các nhà phát triển có thể tái tạo mô hình và giúp đào tạo các SLM và LLM khác.
Các mô hình ngôn ngữ lớn thường sử dụng phương pháp tự hồi quy để suy luận. Tuy nhiên, hạn chế chính của phương pháp này là mỗi bước chuyển tiếp chỉ có thể tạo ra một mã thông báo duy nhất, dẫn đến hiệu quả truy cập bộ nhớ thấp và ảnh hưởng đến tốc độ suy luận tổng thể.
Sự xuất hiện của giải mã suy đoán đã giải quyết vấn đề này. Nguyên tắc cơ bản liên quan đến việc sử dụng một mô hình nháp nhỏ để tạo ra một bộ mã thông báo ứng cử viên, sau đó được xác minh bằng mô hình mục tiêu lớn hơn. Phương pháp này cho phép mỗi lượt chuyển tiếp tạo ra nhiều mã thông báo mà không ảnh hưởng đến hiệu suất, do đó giảm đáng kể lượng tiêu thụ truy cập bộ nhớ và cho phép cải thiện tốc độ lên hàng cấp độ.
Sử dụng AMD-Llama-135M-code làm mô hình nháp cho CodeLlama-7b, chúng tôi đã kiểm tra hiệu suất suy luận có và không có giải mã suy đoán trên bộ gia tốc MI250 dành cho trung tâm dữ liệu và bộ xử lý Ryzen™ AI (với NPU) dành cho PC AI. Đối với cấu hình cụ thể mà chúng tôi đã kiểm tra bằng cách sử dụng AMD-Llama-135M-code làm mô hình nháp, chúng tôi đã thấy tốc độ tăng trên bộ gia tốc Instinct MI250, CPU Ryzen AI [2] và trên NPU Ryzen AI [2] so với suy luận không có giải mã suy đoán. [3] SLM AMD-135M thiết lập quy trình làm việc đầu cuối, bao gồm cả đào tạo và suy luận, trên các nền tảng AMD được chọn lọc.
AMD đã mở nguồn mã đào tạo, bộ dữ liệu và trọng số cho mô hình AMD-135M, cho phép các nhà phát triển tái tạo mô hình và góp phần đào tạo các SLM và LLM khác. Động thái này thể hiện cam kết của công ty trong việc thúc đẩy sự phát triển của AI theo hướng mở và chia sẻ rộng rãi hơn lợi ích của công nghệ này.
Tuyên bố miễn trừ trách nhiệm: Thông tin được cung cấp chỉ mang tính chất thông tin chung, https://lacongnghe.com không đưa ra bất kỳ tuyên bố hoặc bảo đảm nào liên quan đến thông tin, bao gồm nhưng không giới hạn bất kỳ sự tuyên bố hoặc bảo đảm về tính thích hợp cho bất kỳ mục đích cụ thể nào của thông tin theo phạm vi cho phép tối đa của pháp luật. Mặc dù đã nỗ lực để đảm bảo rằng thông tin được cung cấp trong bài viết này là chính xác, đáng tin cậy và hoàn chỉnh vào thời điểm đăng tải, nhưng thông tin được cung cấp trong bài viết này không nên được dựa vào để đưa ra bất kỳ quyết định tài chính, đầu tư, bất động sản, giao dịch hoặc pháp lý nào. Thêm vào đó, thông tin không thể thay thế lời khuyên từ một chuyên gia được đào tạo, người mà có thể xem xét, đánh giá các sự kiện và hoàn cảnh cá nhân của bạn, và chúng tôi không chịu bất kỳ trách nhiệm nào nếu bạn sử dụng những thông tin này để đưa ra quyết định. Xin cảm ơn!