짐 켈러가 이끄는 텐스토렌트(Tenstorrent)가 AI 연산 시 병목 현상을 일으키는 '컴퓨팅-메모리 분리(Disaggregation)' 문제를 해결한 차세대 서버 솔루션을 발표했습니다. 새롭게 공개된 TT-Loudbox 서버는 4개의 n300s 웜홀(Wormhole) 가속기를 메쉬(Mesh) 구조로 연결하여 최대 1,864 FP8 TFLOPS의 연산 성능을 제공하며, 각 텐식스(Tensix) 코어에 내장된 '베이비 RISC-V' 코어를 통해 데이터 이동 효율을 극대화했습니다. 이는 거대언어모델(LLM)의 추론 시 토큰 생성 속도를 비약적으로 높이면서도 전력 소비를 획기적으로 줄이는 설계 구조를 가집니다.
* 서버 모델: TT-Loudbox (n300s 4개 탑재)
* 연산 성능: 1,864 FP8 TFLOPS / 524 FP16 TFLOPS
* 메모리 스펙: 96GB GDDR6, 768MB SRAM
* 네트워크 속도: 칩 간 3.2 Tbps 이더넷 연결
데이터를 연산 유닛으로 가져오는 대신 연산 유닛 자체를 데이터 최적화 구조로 설계한 텐스토렌트의 방식은 엔비디아의 CUDA 독점에 대항하는 가장 강력한 아키텍처적 반기입니다.
* 서버 모델: TT-Loudbox (n300s 4개 탑재)
* 연산 성능: 1,864 FP8 TFLOPS / 524 FP16 TFLOPS
* 메모리 스펙: 96GB GDDR6, 768MB SRAM
* 네트워크 속도: 칩 간 3.2 Tbps 이더넷 연결
데이터를 연산 유닛으로 가져오는 대신 연산 유닛 자체를 데이터 최적화 구조로 설계한 텐스토렌트의 방식은 엔비디아의 CUDA 독점에 대항하는 가장 강력한 아키텍처적 반기입니다.
Tags
News