DeepSeek v3 – как Китай нагнул США

DeepSeek также выпустила DeepSeek-V3, модель Mixture-of-Experts (MoE) с 671B параметрами, из которых 37B активированы для каждого токена. Модель использует Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для эффективного вывода и экономичной обучения. DeepSeek-V3 была предварительно обучена на 14, 8 триллионах разнообразных и высококачественных токенов, за которыми следовали этапы контролируемой доработки и обучения с подкреплением, чтобы полностью использовать ее возможности. Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2, 788M часов H800 GPU.
- Жанр:Разное
- Страницы: 38
- Возраст: 12
- Формат: fb2, epub, pdf, txt
Советуем прочитать похожую литературу

Нейромагия. Как MidJourney, ChatGPT и Claude создают наше будущее
В книге вы погрузитесь в увлекательный мир современных нейросетей, уже сегодня меняющих...

Сравнительный анализ современных AI-моделей: OpenAI o3-mini и...
В книге «Сравнительный анализ современных AI-моделей: OpenAI o3-mini и DeepSeek-V3» автор...

AI и автоматизация бизнеса: Полное руководство по созданию умного...
"AI и автоматизация бизнеса: Полное руководство по созданию умного предприятия" – книга, которая...

Экосистема AI и творчества: Как объединить технологии и ремесленное...
Книга «Экосистема AI и творчества: Как объединить технологии и ремёсленное мастерство для успеха...

Монетизация 2.0
Монетизация 2.0: практическое руководство по новым технологиям и бизнес-моделям – это...

Промпты ChatGPT 4o
• Что внутри книги: • Подробная инструкция по получению и активации доступа к ChatGPT 4.0 Plus...
Отзывы (0)
Вам понравилось читать онлайн книгу «DeepSeek v3 – как Китай нагнул США»? Уделите пару минут, что бы оставить полезный отзыв другому читателю.