minerzhu

2020-06-15

复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具

fastHan 是基于 fastNLP 与 PyTorch 实现的中文自然语言处理工具,像 spacy 一样调用方便,其内核为基于 BERT 的联合模型。其内核为基于 BERT 的联合模型,其在 13 个语料库中进行训练,可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务。fastHan 共有 base 与 large 两个版本,分别利用 BERT 的前四层与前八层。base 版本在总参数量 150MB 的情况下各项任务均有不错表现,large 版本则接近甚至超越 SOTA 模型。执行指令 pip install fastHan 即可安装。模型的 POS、Parsing 任务均使用 CTB 标签集。CWS 的成绩是 10 项任务的平均成绩。Parsing 中的两个成绩分别代表 F_{ldep} 和 F_{udep}。[5] Jie Z, Lu W. Dependency-Guided LSTM-CRF for Named Entity Recognition[C]. international joint conference on natural language processing, 2019: 3860-3870.