Taalas «вшивает» ИИ-модели в кремний: новый чип HC1 ускоряет LLM в 10 раз и снижает стоимость в 20 раз

Похоже, на рынке ИИ-железа назревает ещё одна попытка пошатнуть доминирование универсальных GPU. Стартап Taalas заявил, что научился буквально «зашивать» модели искусственного интеллекта в кремний — и первые результаты выглядят громко: до 10× больше токенов в секунду и до 20× ниже себестоимость по сравнению с современными решениями.

Если упростить, речь идёт о радикальном отходе от универсальных ускорителей в сторону ASIC — специализированных чипов, созданных под конкретную модель. На фоне того, как растёт дефицит памяти и вычислительных мощностей для ИИ (я уже писал о дефиците чипов памяти для ИИ), такой подход выглядит логичным продолжением гонки за эффективностью.

Сегодня главным узким местом для LLM становится не столько «сырая» мощность, сколько задержка (latency) и показатель токенов в секунду (TPS). В агентных системах и интерактивных сервисах выигрывает тот, кто быстрее генерирует ответ. Многие компании делают ставку на HBM-память и усложнённую упаковку кристаллов. Taalas идёт другим путём — вместо наращивания универсальности компания жёстко специализирует железо под конкретную нейросеть.

Компания утверждает, что может превратить любую ИИ-модель в кастомный кремниевый чип всего за два месяца. Получившиеся «Hardcore Models» на порядок быстрее, дешевле и энергоэффективнее программных реализаций.

Ключевая идея — сопоставить структуру нейросети непосредственно с архитектурой чипа. Иначе говоря, веса и логика модели становятся частью физической схемы. Второй принцип — объединение хранения и вычислений, чтобы снизить накладные расходы на передачу данных и обойти так называемую «memory wall» — проблему разрыва между скоростью вычислений и доступом к памяти.

Первым продуктом стал чип HC1, изготовленный по 6-нм техпроцессу TSMC. Площадь кристалла достигает 815 мм² — это сопоставимо с флагманскими GPU NVIDIA. Внутри — модель уровня Meta Llama 3.1 8B с восемью миллиардами параметров, буквально интегрированная в кремний.

По заявленным данным, HC1 обеспечивает примерно 10-кратный рост TPS на пользователя по сравнению с современными high-end ускорителями и до 20-кратное снижение производственных затрат. Причём компания делает акцент на том, что не использует дорогую HBM-память, сложную упаковку или экстремальные системы охлаждения — основная «магия» происходит на уровне инженерии самого кристалла.

Где предел масштабирования?

И вот тут начинается самое интересное. Современные передовые LLM уже приближаются к триллиону параметров. В случае с Taalas каждый чип «жёстко» привязан к конкретной модели и её весам. Обновить модель — значит фактически переработать кремний.

Для масштабирования компания предлагает кластерный подход. По данным Taalas, в конфигурации из 30 чипов при работе с моделью DeepSeek R1 удалось достичь около 12 000 токенов в секунду на пользователя. Это серьёзная цифра, но одновременно и подтверждение того, что без кластеров выйти в «высшую лигу» будет сложно.

Фактически мы видим нишевую, но потенциально крайне эффективную стратегию: максимальная оптимизация под inference конкретной модели. Это не универсальная замена GPU, а инструмент для задач, где стабильность модели важнее её гибкости. На фоне разговоров о том, что происходит с рынком ускорителей NVIDIA, появление таких альтернатив выглядит закономерным.

Главный вопрос теперь не в технологии, а в бизнес-модели и готовности рынка. Готовы ли компании заказывать «чип под модель», если завтра появится более совершенная версия? Или же выигрывает тот, кто способен жёстко зафиксировать инфраструктуру под одну задачу и выжать из неё максимум?

В любом случае, подход Taalas — это один из самых радикальных экспериментов на рынке AI-железа за последние годы. Если заявленные показатели подтвердятся на практике, нас ждёт интересная перестройка сегмента inference-ускорителей.

Источник: Wccftech

Post Views: 75

Taalas «вшивает» ИИ-модели в кремний: новый чип HC1 ускоряет LLM в 10 раз и снижает стоимость в 20 раз

Где предел масштабирования?

MSI представила AI-RAN с NVIDIA AI Aerial на MWC 2026: ставка на ускорение 5G и переход к 6G

Lenovo расширяет ThinkPad на MWC 2026: ThinkPad T14 Gen 7 получил память LPCAMM2 и ставку на ремонтопригодность

На AliExpress засветилась крошечная плата ESP32-C3 с OLED 0,42″ — Wi-Fi и Bluetooth в корпусе 25×20 мм

Где предел масштабирования?

Сейчас популярно

MSI представила AI-RAN с NVIDIA AI Aerial на MWC 2026: ставка на ускорение 5G и переход к 6G

Lenovo расширяет ThinkPad на MWC 2026: ThinkPad T14 Gen 7 получил память LPCAMM2 и ставку на ремонтопригодность

На AliExpress засветилась крошечная плата ESP32-C3 с OLED 0,42″ — Wi-Fi и Bluetooth в корпусе 25×20 мм