Skymizer представила PCIe AI-ускоритель HTX301 с 384 ГБ памяти для локального запуска LLM до 700B параметров

Тайваньская компания Skymizer анонсировала PCIe AI-ускоритель HTX301, рассчитанный на локальный инференс крупных языковых моделей. По заявлению компании, одна карта способна работать с LLM до 700 млрд параметров и потребляет 240 Вт.
HTX301 позиционируется как решение для On-Prem AI — сценариев, где компании хотят запускать ИИ-модели на собственной инфраструктуре, без переноса данных в облако и без крупных GPU-кластеров. Ускоритель построен на платформе HyperThought и использует LPU IP нового поколения, оптимизированный именно под LLM-нагрузки.
Что известно о Skymizer HTX301
Карта выполнена в формате PCIe Add-in-Card и внешне напоминает стандартный ускоритель для серверов и рабочих станций. При этом на одной плате размещаются шесть чипов HTX301. Несмотря на использование 28-нм техпроцесса, Skymizer заявляет высокую эффективность в задачах инференса.
- поддержка инференса моделей до 700B параметров на одной PCIe-карте;
- до 384 ГБ памяти на карте;
- использование LPDDR4 и LPDDR5 DRAM без HBM, GDDR6/GDDR7 и LPDDR5X;
- заявленное энергопотребление — 240 Вт;
- шесть HTX301-чипов на одной плате;
- платформа HyperThought с LPU IP для LLM;
- ориентация на локальный инференс и фиксированные инфраструктурные расходы.
Skymizer приводит несколько показателей производительности. Один LPU, по данным компании, достигает 30 tokens/s при 0,5 TOPS и пропускной способности 100 GB/s. В сценарии Llama2 7B prefill Octa-Core LPU показывает 240 tokens/s, а при объединении нескольких чипов показатель может доходить до 1200 tokens/s.
Ставка на память и сжатие
Ключевая особенность HTX301 — большой объём памяти при сравнительно низком энергопотреблении. До 384 ГБ LPDDR4/LPDDR5 позволяют держать крупные модели локально, но компания делает ставку не только на объём DRAM, а также на компрессию.
По данным Skymizer, компрессия весов модели превосходит llama.cpp на 9–17,8%. Для KV cache заявлена минимальная потеря perplexity — от менее чем 0,06% до 3,52%. Эти цифры важны, потому что именно память и KV cache часто становятся ограничением при работе с большими LLM.
Сравнение с NVIDIA и AMD
Заявленный TDP HTX301 составляет 240 Вт. Это меньше половины энергопотребления таких PCIe AI-ускорителей, как NVIDIA RTX PRO 6000 Blackwell и AMD Instinct MI350P, для которых в материале указано 600 Вт.
Однако сравнение пока стоит воспринимать осторожно. Skymizer раскрыла не все параметры карты: нет цены, сроков выхода, полной конфигурации памяти, детальных бенчмарков против решений NVIDIA и AMD, а также независимого подтверждения работы с 700B-моделями на одной карте.
Компания планирует показать HTX301 на Computex. Именно там станет понятнее, насколько заявленные характеристики соответствуют реальным сценариям и сможет ли карта стать альтернативой крупным GPU-серверам для компаний, которым нужен локальный ИИ.
Источник: Wccftech