Похоже, на рынке ИИ-железа назревает ещё одна попытка пошатнуть доминирование универсальных GPU. Стартап Taalas заявил, что научился буквально «зашивать» модели искусственного интеллекта в кремний — и первые результаты выглядят громко: до 10× больше токенов в секунду и до 20× ниже себестоимость по сравнению с современными решениями.
Если упростить, речь идёт о радикальном отходе от универсальных ускорителей в сторону ASIC — специализированных чипов, созданных под конкретную модель. На фоне того, как растёт дефицит памяти и вычислительных мощностей для ИИ (я уже писал о дефиците чипов памяти для ИИ), такой подход выглядит логичным продолжением гонки за эффективностью.
Сегодня главным узким местом для LLM становится не столько «сырая» мощность, сколько задержка (latency) и показатель токенов в секунду (TPS). В агентных системах и интерактивных сервисах выигрывает тот, кто быстрее генерирует ответ. Многие компании делают ставку на HBM-память и усложнённую упаковку кристаллов. Taalas идёт другим путём — вместо наращивания универсальности компания жёстко специализирует железо под конкретную нейросеть.
Компания утверждает, что может превратить любую ИИ-модель в кастомный кремниевый чип всего за два месяца. Получившиеся «Hardcore Models» на порядок быстрее, дешевле и энергоэффективнее программных реализаций.
Ключевая идея — сопоставить структуру нейросети непосредственно с архитектурой чипа. Иначе говоря, веса и логика модели становятся частью физической схемы. Второй принцип — объединение хранения и вычислений, чтобы снизить накладные расходы на передачу данных и обойти так называемую «memory wall» — проблему разрыва между скоростью вычислений и доступом к памяти.
Первым продуктом стал чип HC1, изготовленный по 6-нм техпроцессу TSMC. Площадь кристалла достигает 815 мм² — это сопоставимо с флагманскими GPU NVIDIA. Внутри — модель уровня Meta Llama 3.1 8B с восемью миллиардами параметров, буквально интегрированная в кремний.
По заявленным данным, HC1 обеспечивает примерно 10-кратный рост TPS на пользователя по сравнению с современными high-end ускорителями и до 20-кратное снижение производственных затрат. Причём компания делает акцент на том, что не использует дорогую HBM-память, сложную упаковку или экстремальные системы охлаждения — основная «магия» происходит на уровне инженерии самого кристалла.
Где предел масштабирования?
И вот тут начинается самое интересное. Современные передовые LLM уже приближаются к триллиону параметров. В случае с Taalas каждый чип «жёстко» привязан к конкретной модели и её весам. Обновить модель — значит фактически переработать кремний.
Для масштабирования компания предлагает кластерный подход. По данным Taalas, в конфигурации из 30 чипов при работе с моделью DeepSeek R1 удалось достичь около 12 000 токенов в секунду на пользователя. Это серьёзная цифра, но одновременно и подтверждение того, что без кластеров выйти в «высшую лигу» будет сложно.
Фактически мы видим нишевую, но потенциально крайне эффективную стратегию: максимальная оптимизация под inference конкретной модели. Это не универсальная замена GPU, а инструмент для задач, где стабильность модели важнее её гибкости. На фоне разговоров о том, что происходит с рынком ускорителей NVIDIA, появление таких альтернатив выглядит закономерным.
Главный вопрос теперь не в технологии, а в бизнес-модели и готовности рынка. Готовы ли компании заказывать «чип под модель», если завтра появится более совершенная версия? Или же выигрывает тот, кто способен жёстко зафиксировать инфраструктуру под одну задачу и выжать из неё максимум?
В любом случае, подход Taalas — это один из самых радикальных экспериментов на рынке AI-железа за последние годы. Если заявленные показатели подтвердятся на практике, нас ждёт интересная перестройка сегмента inference-ускорителей.
Источник: Wccftech




