Skymizer представила PCIe AI-ускоритель HTX301 с 384 ГБ памяти для локального запуска LLM до 700B параметров

1 месяц назад / 08.05.2026

Тайваньская компания Skymizer анонсировала PCIe AI-ускоритель HTX301, рассчитанный на локальный инференс крупных языковых моделей. По заявлению компании, одна карта способна работать с LLM до 700 млрд параметров и потребляет 240 Вт.

HTX301 позиционируется как решение для On-Prem AI — сценариев, где компании хотят запускать ИИ-модели на собственной инфраструктуре, без переноса данных в облако и без крупных GPU-кластеров. Ускоритель построен на платформе HyperThought и использует LPU IP нового поколения, оптимизированный именно под LLM-нагрузки.

Что известно о Skymizer HTX301

Карта выполнена в формате PCIe Add-in-Card и внешне напоминает стандартный ускоритель для серверов и рабочих станций. При этом на одной плате размещаются шесть чипов HTX301. Несмотря на использование 28-нм техпроцесса, Skymizer заявляет высокую эффективность в задачах инференса.

поддержка инференса моделей до 700B параметров на одной PCIe-карте;
до 384 ГБ памяти на карте;
использование LPDDR4 и LPDDR5 DRAM без HBM, GDDR6/GDDR7 и LPDDR5X;
заявленное энергопотребление — 240 Вт;
шесть HTX301-чипов на одной плате;
платформа HyperThought с LPU IP для LLM;
ориентация на локальный инференс и фиксированные инфраструктурные расходы.

Skymizer приводит несколько показателей производительности. Один LPU, по данным компании, достигает 30 tokens/s при 0,5 TOPS и пропускной способности 100 GB/s. В сценарии Llama2 7B prefill Octa-Core LPU показывает 240 tokens/s, а при объединении нескольких чипов показатель может доходить до 1200 tokens/s.

Ставка на память и сжатие

Ключевая особенность HTX301 — большой объём памяти при сравнительно низком энергопотреблении. До 384 ГБ LPDDR4/LPDDR5 позволяют держать крупные модели локально, но компания делает ставку не только на объём DRAM, а также на компрессию.

По данным Skymizer, компрессия весов модели превосходит llama.cpp на 9–17,8%. Для KV cache заявлена минимальная потеря perplexity — от менее чем 0,06% до 3,52%. Эти цифры важны, потому что именно память и KV cache часто становятся ограничением при работе с большими LLM.

Сравнение с NVIDIA и AMD

Заявленный TDP HTX301 составляет 240 Вт. Это меньше половины энергопотребления таких PCIe AI-ускорителей, как NVIDIA RTX PRO 6000 Blackwell и AMD Instinct MI350P, для которых в материале указано 600 Вт.

Однако сравнение пока стоит воспринимать осторожно. Skymizer раскрыла не все параметры карты: нет цены, сроков выхода, полной конфигурации памяти, детальных бенчмарков против решений NVIDIA и AMD, а также независимого подтверждения работы с 700B-моделями на одной карте.

Компания планирует показать HTX301 на Computex. Именно там станет понятнее, насколько заявленные характеристики соответствуют реальным сценариям и сможет ли карта стать альтернативой крупным GPU-серверам для компаний, которым нужен локальный ИИ.

Источник: Wccftech

Post Views: 128