模型压缩95%,MIT韩松等人提出新型Lite Transformer
Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限。在不久之前的 ICLR 2020 论文中,MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。虽然推出还不到 3 年,Transformer 已成为自然语言处理领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能,这对于受到算力和电池严格限制的移动端来说有些力不从心。该论文已被人工智能顶会 ICLR 2020 收录。该研究是由 MIT 电气工程和计算机科学系助理教授韩松领导的。Lite Transformer 比 transformer base 模型的计算量减少了 60%,而 BLEU 分数却只降低了 0.3。结合剪枝和量化技术,研究者进一步将 Lite Transformer 模型的大小压缩到原来的 5%。在机器翻译任务中,针对 WMT 数据集,基线模型基于 Vaswani 等人提出的模型。