Эра инференса: новый шанс для производителей ИИ-чипов

Рынок искусственного интеллекта приближается к переломному моменту: фокус смещается с обучения нейросетей на их практическое применение или инференс. Для стартапов, пытающихся конкурировать с доминирующей на рынке Nvidia, наступило решающее время. В отличие от обучения, инференс представляет собой значительно более разнообразную рабочую нагрузку, что открывает перед небольшими компаниями возможности для поиска своей узкой специализации.

Разделение задач как новая стратегия

Процессы инференса становятся все более неоднородными. Например, работа крупных языковых моделей требует иных ресурсов памяти и пропускной способности, нежели простые ИИ-ассистенты. Индустрия постепенно переходит к разделению задач: наиболее тяжелые этапы обработки (префилл) передаются мощным графическим процессорам, а операции, требующие высокой пропускной способности (декодирование), выполняются специализированными чипами.

Ярким примером такого подхода служит интеграция технологий Groq, чьи LPU-чипы (процессоры для работы с языковыми моделями) способны генерировать токены с рекордной скоростью, но уступают GPU в масштабируемости. Подобные гибридные архитектуры уже активно развивают гиганты отрасли:

AWS внедряет платформу, где ускорители Trainium используются для префилла, а крупногабаритные ускорители Cerebras — для декодирования.
Intel представила проект, сочетающий собственные GPU с новыми RDU-чипами от стартапа SambaNova.

Инновации в оптических вычислениях

Производители чипов не ограничиваются стандартными подходами. Стартап Lumai представил оптический ускоритель, использующий свет вместо электронов для выполнения матричных вычислений. Это позволяет радикально снизить энергопотребление. По прогнозам, к 2029 году системы Iris Tetra достигнут производительности в один экзаОПС при энергопотреблении всего 10 кВт.

На текущем этапе архитектура Lumai поддерживает работу с моделями, насчитывающими от 8 до 70 миллиардов параметров. Разработчики уже предоставили доступ к своим чипам облачным провайдерам для тестирования в реальных условиях.

Альтернативный взгляд на архитектуру

Не все участники рынка поддерживают концепцию разделения оборудования. Компания Tenstorrent, представившая платформы Galaxy Blackhole на базе архитектуры RISC-V, выступает за более простые и универсальные решения. По словам руководства компании, бесконечное усложнение цепочек ускорителей, где каждый новый чип лишь ускоряет предыдущий, ведет к созданию систем, которые быстро теряют актуальность при появлении новых стандартов в ИИ-индустрии.

В Tenstorrent делают ставку на создание более гибкой и общей вычислительной среды, способной адаптироваться к изменениям без необходимости радикальной смены аппаратного обеспечения.