Allo:用软件方法论设计硬件加速器
Published:
从我写完上一篇 blog《剖析 FPGA 加速大模型推理的潜力》之后已经过了差不多半年,这半年我们看到了很多取代 Transformer 的尝试,也看到了各类 LLM 加速器层出不穷。我们在论文中所提倡的 model-specific spatial architecture 也确实有公司进行实操了,Groq 就用了他们几百张加速卡,做了一个纯 dataflow 的 in-SRAM 加速方案。虽然成本令人望而却步,但他们超高的性能也从侧面反映了最大程度减少内存访问的优势。
除了可行性的问题,我们收到的最多的就是关于开发成本的评论,FPGA / ASIC 固然好,但是开发周期非常长,所以哪怕我们论证了这种 model-specific acceleration 的可行性,如果不能方便快速地将新的模型综合成高效的硬件加速器,那也相当于没用。这个问题本质上是怎么提升程序员的生产力(productivity),这也是我 PhD 期间一直在探索的主线项目——希望重新塑造硬件的编程/设计方式,来让更多的人受益于最新的硬件。而 Allo 正是我们在加速器设计上做了很多年的工作的一个里程碑,也是我们对未来编程模型的一个展望。