Blog Posts

从一到万的屠龙魔法书（4）：[CGO’26 C4ML] 通向编译器自我进化之路：用AlphaEvolve进化LLVM/XLA

Published: January 31, 2026

很高兴这次能跟 DeepMind AlphaEvolve team 合作将 AI 里两个经典的范式 search 和 learning 推向更多领域。AlphaEvolve在去年五月发布的时候引起一阵轰动，那时更多还是关注在经典的数学算法问题上；而这次我们则是成功将其大规模应用到工程领域，让狗家的编译器开启自我进化之路。

编译器从计算机诞生的那一刻起就存在了，它将人类编写的高级语言转化为机器能够执行的低级语言，可以说是这个星球上最复杂的软件系统之一。编译器在 Google 属于非常核心的位置，也是 scaling 不可或缺的一环。因为采用 monorepo，所以所有程序都不可避免需要经过编译器优化，哪怕提升一点点效率，对整个集群的影响都是巨大的。

从一到万的屠龙魔法书（3）：[ICLR’26] HeuriGym：评测智能体解组合优化–迎接LLM的下半场

Published: January 26, 2026

做了这么久 MLSys 在最后一年才第一次中 ML 顶会，很高兴这次能联合哈佛和 NVIDIA 的朋友们一起合作做了这个工作。

去年 LLM 在不少榜单上都刷出了接近100%满分的成绩，即便是在“人类最后的考试 HLE”上现在也可以达到40%的水平，但是刷高的榜单却往往在解决实际问题上不如人意，这是姚顺雨在 2nd half 说的 utility 的问题。这里面很重要的因素在于，世界不是非黑即白非对即错，很多现实问题都是在多维度连续谱上的 tradeoff，之前大部分benchmark 都是在让 LLM 闭卷考试做有标准答案的题目，并不能真正反映LLM是否能够活学活用解决没见过的实际问题。这也是我们为什么提出了 HeuriGym：我们想定义一套 benchmark 既有闭卷考试的客观性，又有大范围的开放式探索空间，而 score-based 的问题是绝佳的评价指标。

在科学和工程领域，很多问题都是 NP-hard 的组合优化，在大规模数据上基本找不到最优解，所以现在大量的工业软件上基本上都是采用 heuristic 解决，而 heuristic 往往需要丰富的人工经验，我们想知道 LLM 在我们最关心的实际任务上，究竟能把算法设计得多好。所以我们找了系统、生物、物流、芯片设计里的9个组合优化问题，让 LLM 以 agentic 的方式去生成这些问题对应的 heuristic 看最终能达到什么水准。

从一到万的屠龙魔法书（2）：Dato：面向数据流架构的Task编程模型

Published: January 20, 2026

记得23年我们第一次推 PD 分离 + dataflow 架构，很多公司联系过我们但最后都觉得太 aggressive 而不了了之。两年多后，PD 分离已经成了工业界的事实标准；NVIDIA 花了目前最大手笔收编 Groq，随即 OpenAI 宣布跟 Cerebras 合作，则是直接印证 dataflow 就是未来趋势。

从一到万的屠龙魔法书（1）：[CGO’26] 面向Hopper和Blackwell GPU的自动化warp specialization

Published: January 15, 2026

新年新气象，趁在毕业前开一个新的专栏，集中宣传一下我们最近的一些工作。

PhD第四年 - 加速世界中的存在主义

Published: December 31, 2025

终于有时间来写年终总结，2025仿佛被按下快进键，世界在飞奔，一年时间堪比之前几十年的发展。

这一年经历了两次切身体会的震撼，第一次是年初的时候DeepSeek-R1出来，发现在中文语境下LLM已经能够模仿各种作家写作文风，也能够通过长时间的思考实现复杂的编程问题。当时已经隐隐约约感觉到自己手头上做的很多东西并没有什么意义，那一整周跟朋友讨论了很长时间的存在主义危机。而后我们发起了HeuriGym，想知道最前沿的LLM在一些实际的问题上表现如何，以及我们还有多久会失业。

第二次则是我在DeepMind实习被AlphaEvolve万物皆可进化的能力所震撼，在几小时内就突破了领域里十几年来累积的成果，也基本宣告了这个方向接下来的快速终结。这一年我很清楚地看到尽管人们鼓吹的AGI还没到来，但是以现有LLM的能力已经能够解决非常多现实中我们所关心的问题，给社会带来巨大变革。

『不要用人类巧思去对抗机械暴算』这是bitter lesson告诉我们的。当LLM战胜了所有的人类巧思，人类究竟还剩下些什么呢？

在agentic时代，环境赋予的context对agent来说至关重要，其实人也一样。人与人agent与agent之间的独特性，正是在一次次与环境的交互之中产生了差异。这一年尽管每天都在连轴转，但还是没有忘记去探索世界，去真实地感受生活。在科州冲了粉雪小树林也体验了体感零下30度的狂风，在日内瓦站上了从未设想过的讲台宣传自己的工作，在伦敦逛遍了museum也吃上了米三，在纽约有生之年听到了八爷的巡演，在Baker和Tahoe找到了属于自己的精神自留地，这些无法被数字化的经历与感受创造了2025年最独特的context。

PhD第三年 - 漂泊与归途

Published: December 31, 2024

2024，我在美国读博的第三个年头结束了。

今年的主题是漂泊，坐了31趟飞机，走过了30座城市，开车开了快两万公里路，大部分时间都在路上。发生了太多太多事情，以至于这篇总结拖了几个月才开始写。去年还一篇paper没有，今年存稿的5篇就全中完了，顺便拿了些奖，给了不少talk，拿了master学位，也拿到了NVIDIA的全职offer，似乎差不多可以毕业了。

但光鲜亮丽并不能概括这一年。25岁，也是我极端动荡的一年，生活上经历了各式各样的痛苦和磨难，焦虑与无助在这一年如影随形。quarter-life crisis，在奔三的年纪变得更加具象化。尽管这一年过得很艰辛，归途是什么还没有寻找到答案，但在一遍遍跟自己的对话中，在如同家人般的朋友们的陪伴下，还是收获了些成长，和继续前行的勇气✨

Allo：用软件方法论设计硬件加速器

Published: May 27, 2024

论文链接：https://arxiv.org/abs/2404.04815
代码链接：https://github.com/cornell-zhang/allo

从我写完上一篇 blog《剖析 FPGA 加速大模型推理的潜力》之后已经过了差不多半年，这半年我们看到了很多取代 Transformer 的尝试，也看到了各类 LLM 加速器层出不穷。我们在论文中所提倡的 model-specific spatial architecture 也确实有公司进行实操了，Groq 就用了他们几百张加速卡，做了一个纯 dataflow 的 in-SRAM 加速方案。虽然成本令人望而却步，但他们超高的性能也从侧面反映了最大程度减少内存访问的优势。

除了可行性的问题，我们收到的最多的就是关于开发成本的评论，FPGA / ASIC 固然好，但是开发周期非常长，所以哪怕我们论证了这种 model-specific acceleration 的可行性，如果不能方便快速地将新的模型综合成高效的硬件加速器，那也相当于没用。这个问题本质上是怎么提升程序员的生产力（productivity），这也是我 PhD 期间一直在探索的主线项目——希望重新塑造硬件的编程/设计方式，来让更多的人受益于最新的硬件。而 Allo 正是我们在加速器设计上做了很多年的工作的一个里程碑，也是我们对未来编程模型的一个展望。

ASPLOS’24 Attendence Summary

Published: April 28, 2024

This year ASPLOS took place in San Diego, California. I am fortunate to have a paper got accepted, which provided me the opportunity to attend and present my work at the conference. This blog post primarily offers a summary of the conference papers, focusing on topics related to my research, including machine learning systems, compilers, accelerators, and hardware synthesis, which appears to have ~50% of the total number of papers presented.

剖析 FPGA 加速大模型推理的潜力

Published: December 28, 2023

TLDR: 用 FPGA 加速 LLM 推理在特定场景下能够达到比 NVIDIA A100 GPU 更高的性能和更低的能耗，但并非所有场景都适合用 FPGA。
论文链接：https://arxiv.org/abs/2312.15159
代码链接：https://github.com/cornell-zhang/allo/tree/main/examples
原文链接：https://chhzh123.github.io/blogs/2023-12-28-fpga-llm/

Hongzheng Chen, Jiahao Zhang, Yixiao Du, Shaojie Xiang, Zichao Yue, Niansong Zhang, Yaohui Cai, and Zhiru Zhang. 2024. Understanding the Potential of FPGA-based Spatial Acceleration for Large Language Model Inference. ACM Trans. Reconfigurable Technol. Syst. 18, 1, Article 5 (March 2025), 29 pages.

这一年生成式大语言模型（large language models，LLMs）的爆火直接促进了 NVIDIA 卖卡的进程，股价直接翻了几番，现在高价求卡都还一卡难求。NVIDIA 的 GPU 虽好，它高额的成本和产生的电费让很多人望而却步。为了实现更加高效的 LLM 部署，最近几个月来互联网厂商一方面继续买 N 卡，另外一方面也在寻求替代品。所有人都知道需要寻找一种更加高效且低功耗的加速器，但究竟什么硬件才能实现这个目的。一些厂商直接开始了造芯进程（Google 的 TPU，Amazon 的 Inferentia，和 Microsoft 刚出的 Maia 等等），但是造芯的周期太长，一旦流片也很难跟上瞬息万变的模型发展（Maia 尴尬的内存带宽就是个例子）。而在通用处理器 CPU/GPU 和专用加速器 ASIC 中间其实还有一种硬件，既能做到一定的可编程性，又能达到比通用处理器更高的性能，这就是可编程门阵列 FPGA（Field-Programmable Gate Array）。目前最大的 FPGA 厂商是 Xilinx（已经被 AMD 收购），其芯片也陆续被集成进现在高端的 SoC 里面。我们最近的工作正是要探讨利用可重构硬件 FPGA 到底能不能在 LLM 这波浪潮下占据有利地位，以及 FPGA 在大语言模型推理上究竟能够释放多大的潜力。

PhD第二年 - 自由而热烈

Published: September 11, 2023

在Austin开会做完presentation，线下跟人聊还是没能完全改口说自己是second-year PhD的说法。进入第三年就有种旅程已经过半，很快要毕业的感觉。PhD第二年过得很快却又经历了太多事，在西海岸呆了半年，又回来东海岸过了很intense的一个学期以及疯狂的暑假。大概是走火入魔了，PhD读到现在反倒很快乐。一方面是科研稍有起色，能够持续做自己喜欢的research本身就是件快乐的事；另外一方面则是有很多很棒能够一起喝酒打牌玩耍的朋友，在村里在纽约在波士顿都能吃上热腾腾的饭菜，去到哪都感觉跟回家一样，所以一直都很幸福。

NSDI’23 Attendence Summary

Published: April 17, 2023

NSDI’23, a conference focused on networked systems design and implementation, was held in late April in Boston, MA. Thanks to my paper on a GNN system that I worked on during my undergraduate internship at ByteDance, I was fortunate enough to receive the USENIX travel grant to attend the conference. While I did not have the opportunity to review all of the papers beforehand, I will provide summaries of the sessions that I attended in this post.

ASPLOS’23 Virtual Attendence Summary

Published: March 31, 2023

This year ASPLOS was held in Vancouver, Canada. Several of my friends attended the conference in-person and gave excellent talks. As many papers are very interesting, I attended the conference virtually. This blog post primarily provides a summary of papers presented at the conference that are related to machine learning systems, which constituted around 50% of the total number of papers presented.

Tips for CS PhD Application

Published: February 01, 2023

今年非常幸运能够帮系里审核PhD申请材料，从两年前懵懵懂懂申请到现在进committee，完整体验了整个流程，因此本文会记录下一些审材料时reviewer看中的点以供参考。（本文属于挖坑贴，会陆续补充一些细节）

Challenge of Data Layout in High-Level Synthesis

Published: October 02, 2022

This blog will briefly talk about a recent “bug” I found in High-Level Synthesis (HLS), which emphasizes the challenge of writing efficient code using HLS.

PhD第一年 - 启程新世界

Published: September 01, 2022

一年前从深圳蛇口过关穿过空无一人的走廊，坐轮渡去香港再飞纽约，想着此去经年，大概接下来五六年都要在陌生的国度再也回不去，面对着不确定的未来，心中满是焦虑与不安；一年后坐在从东海岸飞往西海岸的飞机上，虽然同样要开启截然不同的新生活，但似乎不再那么迷茫，远远总能看到指引的灯光知道如何前行。

CCC2021

Published: June 10, 2021

临近毕业没有事情干，就和同学参加了CCF体系结构专委举办的第一届定制算法挑战赛(Customized Computing Challenge, CCC’2021)。比赛形式是用Xilinx Vitis HLS（工具链组委会已经部署在云端）实现并优化一些算法的硬件电路，只需通过cosim模拟得到硬件的frequency和latency得到最终的性能指标，而无需实际上板，因此整个开发流程便捷了很多，大幅度降低了编程部署门槛。

初赛分为3个级别的题目，初级题包括经典的Sobel算子和FFT，中级题为排序、SVM、加密算法ECDSA，高级题为图算法（图直径、图染色、最小生成树）。其中，初级题2题必做，中级题3选2，高级题3选1，最后对三个级别的题目乘以难度系数后加权求和排名。

之前做研究的时候只是简单运用了HLS进行一些优化，一直没有深度应用过，这次比赛总算自己摸索出了HLS常用的优化方法以及面临的问题，虽然只差一点进入决赛（事实证明参加的队伍都非常强），但在这个过程中收获的技巧倒是大有裨益，因此本文还是对初赛的题目进行回顾，并给出我们的优化方法。

（本文持续更新中）

HLS Examples

Published: June 05, 2021

本文记录HLS的一些优化实例，摘自PP4FPGA一书。

2021 Fall CS PhD 申请回顾

Published: May 22, 2021

本文记录我2020年申请美国2021 Fall CS PhD的完整历程，希望能贡献一个样本点，也能为后来者提供一些指引吧。（本文部分内容摘自《中大计院飞跃手册》，之后再想到什么会不定期补充）

C++动态库生成与调用

Published: April 11, 2021

本文记录在Linux环境下C++动态库生成和调用的方法。

Pynq & Zynq SoC Tutorial

Published: January 19, 2021

由于毕业论文打算进行FPGA加速器的设计，希望能够打通计算机系统栈从上到下的各个层次，因此本文将记录Ultra96-V2这款SoC的使用。

VizTracer

Published: January 18, 2021

VizTracer是个非常简便快捷的Python profiler，无需修改源代码即可对每个函数进行测时，并将结果以火焰图的形式展示。可以支持大型项目（如深度学习训练），同时也支持多线程和多进程的性能剖析。

Matplotlib Snippets

Published: January 08, 2021

本文记录Matplotlib几种论文中常见类型图表的作图方式。

DGL分布式训练

Published: December 01, 2020

由于目前图神经网络框架DGL的分布式模块仍在建设中，文档非常不齐全，故本文主要记录分布式训练GNN的整个流程。

HLS for Deep Learning Applications

Published: October 15, 2020

本文记录几个面向深度神经网络(DNN)的高层次综合系统，包括DNNBuilder [ICCAD’18]和FlexCNN [FPGA’20]。

Binary Neural Network (BNN)

Published: May 01, 2020

本文简要记录二值神经网络(BNN)的基本原理及计算方式。

HeteroCL安装

Published: April 26, 2020

本文记录HeteroCL在Python3及LLVM9.0环境下的安装过程。

Property buffers for concurrent graph jobs

Published: April 23, 2020

刚好投完SC，还是记录下这次想法的由来，也算是占坑了。简而言之，我们设计了一个并发图系统Krill，以支持在同一shared graph上面跑多个图算法/任务(job)。一开始只做了kernel fusion的runtime，而这一次则进一步从compiler层面实现了property fusion，从而最大程度提升访存局部性，大幅提升了并发图处理的性能。

Intel ICPC Compiler

Published: April 13, 2020

Intel ICPC是Intel自家的编译器，对自家的CPU架构（特别是服务器端CPU）有着特殊的优化，而且内置TBB和Cilk Plus等线程库，属于高性能计算必备。

注：2020年底已经改名为Intel oneAPI DPC++/C++ Compiler，可通过Linux的apt直接安装，安装指令参见这个页面（安装更为快捷方便），调用变为dpcpp，其他使用基本没有变化。

Bash指令速查

Published: April 07, 2020

本文总结Linux bash的常见用法，作为Cheat sheet使用。

PageRank Delta

Published: April 06, 2020

本文记录PageRank Delta的推导过程及在图系统中的实现。

TVM - Relay IR Pass

Published: April 02, 2020

本文介绍Relay IR Pass的构造。

VS Code远端服务器(WSL/SSH)配置

Published: March 31, 2020

本文记录VS Code远端服务器(WSL/SSH)的配置方法。

TVM Overview

Published: March 26, 2020

时隔一年再回来看TVM，诸多感受。

TVM - 代码生成流程

Published: March 26, 2020

本文主要介绍TVM的代码生成流程，即调用relay.build或tvm.build之后发生了什么，将深入到TVM的源代码进行剖析。（这里采用的依然是TVM v0.6）

TVM - Relay IR计算图可视化

Published: March 25, 2020

本文主要介绍如何将Relay IR的计算图(computational graph)/数据流图(dataflow graph)进行可视化输出。

静态程序分析 (SPA)

Published: March 24, 2020

南京大学的李樾和谭添老师在2020年春季开设了《软件分析》课程，讲授静态程序分析(static program analysis, SPA)的相关内容。由于一直很想系统学习编译器优化及编程语言的知识，但无奈一直没有找到好的资料，国内开设相关课程的学校和老师可以说几乎没有。刚好看到谭添老师在知乎上的宣传，又恰逢疫情期间，就跟着B站的录播视频一起学了。

本文算是课程的学习笔记吧，会随着课程进度不断更新，完整的课程课件需要等两位老师放出来（已经放出来了，参见课程网站）。由于一年前我已经跟着UFMG的DCC 888学过一段静态程序分析，所以其中一些细节可能我理解了就不会再附在这。从短短几节课的感受来说，南大的课程更加适合新手入门，以Java为基础，以Soot作为静态分析工具，老师会事无巨细地讲解分析算法步骤。而UFMG的课程以C/C++为基础，以LLVM作为分析器，看上去他们的课时更加充裕，从理论到工具的使用也都有详细的讲解。

TVM - GCN

Published: March 21, 2020

本文将介绍如何用TVM Relay (v0.6)定义图卷积神经网络(GCN)，参考自官方教程Building a Graph Convolutional Network，但增添了更多的性能测试比较。

TVM - GEMM优化

Published: March 20, 2020

本文记录如何使用TVM v0.6在CPU上优化GEMM，节选自TVM官方教程。类似地，可参考Vivado HLS优化GEMM的方法。其中涉及到局部性(locality)的问题会详细进行分析。

TVM - Tensor Expression

Published: March 19, 2020

本文以向量加法为例，记录TVM最最基本的Tensor Expression的使用，以及简单的编译运行流程。

再谈DSL

Published: March 19, 2020

看看这几年领域特定编程语言(Domain Specific Language, DSL)的发展，会发现算法和调度的解耦越来越明显，同时编译和综合的边界越来越模糊。

TVM - 安装

Published: March 17, 2020

本文记录TVM的安装方式，主要验证官方教程中从源码安装是否对WSL可行，同时在VS Code上配置相应的开发环境。

Vivado HLS in a Nutshell

Published: March 11, 2020

本文将详细介绍Vivado HLS的配置、入门及优化方法，包括各类pragma及库函数，同时给出大量参考资料供查阅。

图表示学习（4）- 图神经网络加速器

Published: March 10, 2020

这是图表示学习(representation learning)的第四部分——图神经网络加速器，主要涉及HyGCN [HPCA’20]和GraphACT [FPGA’20]两篇文章。

目前（截止至2020年3月10日），图神经网络加速器的文章共3篇，除了上述两篇还有DAC’20一篇尚未放出全文。

软件2.0时代与TVM

Published: March 05, 2020

最近重读了一些文章，感觉对深度学习又有了一些更加深层次的理解。

图表示学习（3）- 图神经网络系统

Published: March 04, 2020

这是图表示学习(representation learning)的第三部分——图神经网络系统，主要涉及2019-2020年顶会上面的工作。（更新于2020年12月）

图表示学习（0）- 图的基本理论

Published: February 24, 2020

这是图表示学习(representation learning)的基础部分，主要介绍图(graph)/网络(network)的基本定义与理论。

图表示学习（2）- 图神经网络

Published: February 10, 2020

这是图表示学习(representation learning)的第二部分——图神经网络(graph neural network, gnn)，主要涉及GCN [ICLR’17]、GraphSAGE [NeurIPS’17]、GAT [ICLR’18]和C&S [Arxiv:2010.13993]三篇论文。

图表示学习（1）- 图嵌入

Published: February 06, 2020

由于今年要着手一些图结合AI的工作，因此在此对一些经典文献做一些总结。

这是图表示学习(representation learning)的第一部分——图嵌入(graph embedding)，主要涉及DeepWalk [KDD’14]、LINE [WWW’15]、node2vec [KDD’16]、KnightKing [SOSP’19]、GraphZoom [ICLR’20]五篇论文。

程序综合与编译

Published: February 01, 2020

程序综合(synthesis)和程序编译(compilation)常常会被混淆。我们大多数人熟知的是编译，比如将C++代码编译为x86汇编；而在FPGA中我们更多会采用综合一词，比如高层次综合、逻辑综合、物理综合等等。两者工作似乎都是将一种语言翻译为另一种语言，但事实上仔细分析一下还是有很多区别。

CCF-ADL-105《面向大数据的系统软件与系统结构》

Published: September 15, 2019

2019年9月7日至9日，中国计算机学会(CCF)于北京中科院计算所开展了第105次学科前沿讲习班(ADL)，主题为《面向大数据的系统软件与系统结构》。这次讲习班请到了国内做系统做得最为出色的那些学者过来做报告，我也有幸到现场去学习，本文为简要的会议记录。

请到的几位老师以及他们的报告题目如下：

讲演者	单位	题目
周礼栋	微软亚洲研究院	《大数据系统的演化：理论、实践和展望》
谭焜	华为中央研究院	《从虚拟化到“在网计算”：智能网卡和在数据中心网络中的应用》
陈海波	上海交通大学	《面向新存储介质的文件系统设计、实现与形式化验证》
陈云霁	中科院计算所/寒武纪	《智能计算系统课程》
郭振宇	阿里巴巴/蚂蚁金服	《大数据系统实践：从MapReduce到融合计算》
舒继武	清华大学	《大数据场景下的持久性内存存储系统构建探讨》
包云岗	中科院计算所	《面向下一代计算的开源芯片与敏捷开发实践》

机器学习与组合优化

Published: July 31, 2019

组合优化(Combinatorial Optimization, CO)从有限的可行解集中搜索出最优的解，是传统运筹学(Operations Research, OR)中一个重要的分支。而机器学习(Machine Learning, ML)同样也是优化问题，故跟运筹学有着紧密的联系。

Pin动态指令分析工具

Published: July 23, 2019

Pin是Intel公司开发的程序分析工具，类似于Valgrind。

但是！看上去Pin的可定制化程度高得多，可以自己编写Tools作为分析工具，可以想象为Pin是一个更加底层的LLVM[CGO, 2004]。所以体系结构领域常用Pin来写cache或prefetcher的模拟器。

LegUp使用及源码分析

Published: July 14, 2019

本文主要记录由加拿大多伦多大学开发的开源高层次综合工具LegUp HLS的编译、使用方法及源码分析。

配色与字体索引

Published: June 27, 2019

因为在论文、报告中常常要自己画图，故本文记录常用的一些论文配色方案及字体名称。

Git操作指南

Published: June 27, 2019

虽然Github Desktop用得很爽，但是偶尔也会有一些特殊的需求（比如回滚或是在Linux环境下操作），故还是在此记录一下。

分布式深度学习-基本概念

Published: May 11, 2019

这篇文章在三年前就已经写过，但三年后深度学习的世界发生了翻天覆地的变化，越来越多大模型的出现使得分布式训练成为不可或缺的一部分。正好我现在也要进行相关的工作，因此还是重新整理更新一下内容，力求覆盖到领域的最新进展。本文将主要介绍三种基本的并行模式：数据并行、模型并行和流水线并行。

Continuous Passing Style (CPS)

Published: April 29, 2019

CPS是函数式编程中一个非常常用的概念，将其用在并行程序/硬件设计中可能会起到意想不到的效果。

关系型/非关系型数据库

Published: April 21, 2019

本文主要介绍两种不同类型的数据库。

性能分析器

Published: April 02, 2019

上一篇文章讲述了内存、CPU实时监视器的使用，而本文则着重于更高层的性能分析器(profiler)。

C++模板元编程

Published: April 01, 2019

最近才稍微了解现代C++中非常重要的技术，即模板元编程，本文作为记录。

C++面向对象编程

Published: March 31, 2019

本文会记录以前学习面向对象编程(object-oriented programming, OOP)忽略的一些点。

C++泛型编程

Published: March 31, 2019

这次做图系统进行系统层级代码的编写，才发现C++中的诸多问题，以前并未思考过，现在查阅了大量资料才大致了解应该怎么做，仅以本文作为记录。

C/C++计时

Published: March 31, 2019

本文记录如何使用C/C++进行计时操作。

网络编程——套接字

Published: March 20, 2019

本文主要记录Linux环境下的网络编程，即用套接字(socket)实现TCP/UDP。

gdb调试指南

Published: March 16, 2019

本文主要记录如何在Linux环境下用gdb对C/C++程序进行调试。

C与汇编混编

Published: March 16, 2019

本文主要讲讲如何在C语言中嵌入汇编语言。

RPC通信协议

Published: March 14, 2019

TVM-VTA里采用了RPC进行FPGA的通信，当时不是很理解。今天在在OS书上又重新看到了RPC这个概念，所以查了一下资料，特此记录。

C/C++多线程

Published: March 14, 2019

本文主要介绍C/C++中多线程编程的方法。

C语言常用操作

Published: March 14, 2019

由于本学期计算机网络和OS课都要大量使用到C语言编程，而当时入学时对C的了解并没有这么深刻，所以这个学期相当于重新学习，在此记录。

OS初始化

Published: March 11, 2019

前面两篇文章已经分别讲了OS的实验环境配置及x86汇编的指令，本文则着重于讲解操作系统的初始化。

x86架构与汇编语言

Published: March 07, 2019

本文简要说明x86架构及x86汇编语言的使用。

操作系统环境配置

Published: March 05, 2019

这学期开设了操作系统课程，需要我们从裸机开始写OS，这篇文章将记录完整的配置过程。

AVX指令集

Published: March 03, 2019

这里简要介绍AVX指令集的一些基本指令，可以通过调用C++的库函数实现SIMD。

原子操作

Published: February 27, 2019

并行编程中为避免线程之间的访问冲突，往往需要添加锁来进行同步。

Skylake架构简析

Published: February 25, 2019

因为实验室服务器的CPU是Intel Xeon Gold系列，所以这里简要介绍一下Intel的Skylake-SP架构。

Makefile编写规则

Published: February 24, 2019

Makefile在Linux环境下非常有用，它规定了整个工程的编译规则，即哪些文件先编译、哪些文件后编译、相互之间依赖关系是什么，是编写大型工程必不可少的工具。而了解了Makefile的规则，你会发现其实它能做的不仅仅是C/C++的编译，它更是提供了一个强大的批处理工具。下面的叙述以GNU的make为主。

LLVM

Published: February 22, 2019

Low-Level Virtual Machine (LLVM)是一个编译器设施，包含一系列可重用的库和良定义的接口。它的核心采用C++进行编写，支持多种前端编程语言及多种后端硬件，第一版由UIUC于2003年发布，开源，目前由苹果维护。

LLVM对应的C/C++编译器即为clang，通常编译时间要比gcc和icc少很多。

CPU/内存监视器

Published: February 19, 2019

因为最近要做实验实时监测CPU还有内存的性能，找了非常久才找到符合我要求的工具，特此记录。

Prolog入门

Published: February 16, 2019

本文内容整理自剑桥大学2011-12年David Evans开设的Prolog课程讲义。

Prolog(Programming in Logic)就是暴力美学的代表，一阶逻辑暴搜解决所有问题。

静态程序分析

Published: February 15, 2019

本课程采用巴西米纳斯联邦大学(Universidade Federal de Minas Gerais, UFMG)的Static Program Analysis - DCC888讲义。至于为什么选择这么一所名不见经传的大学的课程，一部分原因纯属偶然搜到，其他原因则有

非常清晰易懂，幻灯片上图文并茂，力求将概念解释清楚
没有繁琐的全套编译器的介绍，而着重讲解中间优化器的部分
基本的优化技术都有涉及，广度是足够的
以llvm作为实验基石，同时也附带抽象代数、函数式编程等内容，是一门理论与实践相结合又十分前沿的课程
附带讲讲编译器的历史，同时都附有参考文献

CS-Related Books & Courses (Updating)

Published: February 15, 2019

This is a summary article, collecting CS-related books and courses that I have/want to read/study.

黄金时代！

Published: February 13, 2019

本文内容节选自2017年图灵奖得主John Hennesy (Stanford)和David Patterson (UCB)在体系结构顶会ISCA’18的lecture

A New Golden Age for Computer Architecture:
Domain-Specific Hardware/Software Co-Design,
Enhanced Security, Open Instruction Sets, and Agile Chip Development

高层次综合

Published: February 12, 2019

高层次综合(High-Level Synthesis, HLS)目标是将高级编程语言(High-Level Languages, HLL)编写的程序转化为硬件描述语言(Hardware Description Language, HDL)的程序。

领域特定语言

Published: February 12, 2019

下面的内容主要基于Kunle Olukotun在Stanford开设的课程CS 442: High Productivity and Performance with Domain Specific Languages in Scala, 2011, Online。但这门课是研究性质的，即主要以Stanford Pervasive Parallelism Lab (PPL)组开发的Delite作为基石讲解。因而在这里我只会将部分通用的重要的章节抽取出来。

缘生Halide

Published: February 09, 2019

这篇文章主要谈谈由Halide这门图像处理领域专用语言(Domain Specific Language, DSL)中衍生出来的故事。关于DSL的内容则请见领域特定语言。

高级编程语言vs硬件描述语言

Published: February 08, 2019

很多老师都将硬件描述语言当成一门编程语言来教，我本人也一直认为硬件描述语言与传统的编程语言类似，只不过添加了时序特征。但其实这都是非常不正确的，硬件描述语言并不同于传统的编程语言，它更多是所见即所得–用于描述硬件功能，而不是告知程序如何运行…

FPGA结构、编译与应用

Published: February 08, 2019

What is FPGA? Why FPGA?

可编程门阵列(Field-Programmable Gate Array, FPGA)是一种并行的非冯架构硬件，其最大的亮点就在于可编程/可重构(reconfigurable)。

由于FPGA的每个逻辑单元在重编程/烧写时已经确定，故它不需要指令，也不需共享内存。它的逻辑块、交互连接(interconnects)、IO接口都是可编程的。

FPGA的优势在于

比CPU快
比GPU省功耗
比ASIC便宜流片周期短

Tensor Virtual Machine (TVM)

Published: February 08, 2019

TVM与LLVM对比

TVM (Tensor Virtual Machine, 2018)：针对不同框架（前端），面向不同硬件（后端）
LLVM (Low-Level Virtual Machine, 2003)：针对不同语言（前端），面向不同硬件（后端），最核心部分为LLVM IR，提供模块化可重用的编译器和工具链技术，重点在于优化器
- Tapir 往LLVM添加了并行元素

Tools Setup!

Published: January 31, 2019

工具是重要的！这点其实很多老师都不会讲述，在我院开设的大量本科基础课上，老师也不会专门讲述现代化工具的使用。然而好用的用得顺手的工具可以使工作效率大大提升，不好用的工具虽然也可以用，但是会增加很多不必要的时间。

最简单的例子是很多非计院的同学学了一整个学期代码（C++/Java），都还在非常古老的IDE上写程序（e.g. Dev）。这当然可以写，但如果有更强大的工具可以让你事半功倍，何乐而不为呢？

这篇文章列举/总结我目前所使用的一些工具作为参考，这些工具基本都使用了非常长的时间，亲测比较好用。

（基于这点motivation，所以我在2019-2020年度开了门ToolsSeminar的研讨课，详细内容可见这里。）

深度学习框架与图分析框架的异同

Published: January 31, 2019

什么是框架(Framework)？

对某个特定领域的各种算法进行抽象
抽取其中大量重复利用的单元成为算子
在现有编程语言（Python/C++）基础上提供API接口
注意尚未达到编程语言的级别，如果连语法(syntax)也一并规定，那就变成领域特定语言(Domain Specific Language, DSL)

简而言之，框架是大量可重用的基础设施/库的集合，而语言需添加语法元素

Why blog?

Published: January 30, 2019

标题的答案很简单，一个学CS的没有搭过自己的博客怎么行呢（

事实上一年前就有这个想法，跟同学折腾了很久，又买域名又买服务器，用Wordpress搭建了一个博客，但不久就不了了之。原因是操作太为繁琐，以致于根本体会不到写文的快感。

其实我想要的博客功能很简单，就是写写文，而不要那么多花俏的东西（Wordpress很大程度上功能太多，想要搭建什么都可以，但直接后果是写博客反而不方便）。

我心目中一个好的博客应该是一个简洁而不简陋，记录和阅读的良好场所。

Hongzheng Chen Blog

What is FPGA? Why FPGA?

TVM与LLVM对比

什么是框架(Framework)？