从词袋到 Transformer:自然语言处理实践的十年
自2010年创立以来,著名的数据科学竞赛平台Kaggle一直是机器学习趋势演变的绝佳观察平台。在这里已经产生了几代的重大突破,吸引了成千上万的从业者以及数百万的论坛讨论。在平台上发布的各种类型的挑战中,自然语言处理如今受到了越来越多的关注。确实,近几个月以来,该领域正在见证数项令人兴奋的重大创新。最近的一个创新便是预训练语言模型transformer的问世。近日,Zelros AI公司的团队研究人员通过Kaggle平台视角,在Medium上撰文简要概述了NLP技术的发展简史。在2016年之前,解决(并赢得)Kaggle NLP挑战的标准方法是使用词袋来创建特征,以供机器学习分类器使用,例如典型的Naive Bayes。以及诸如注意力机制的改进)成为解决Kaggle上NLP任务的标准方法。这样可以进行快速实验,并可以最先进地使用NLP技术。跟踪如何在未来的Kaggle NLP比赛中使用它们将很有趣。