DNSdns

2020-03-02

10大类、142条数据源,中文NLP数据集线上搜索开放

有了这个开源项目,再也不用担心找不到好用的中文 NLP 数据集,142 条数据集,总有适合你的那一款。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。该项目收集了一百多条中文 NLP 数据信息,并以搜索的形式展示结果。目前似乎 142 个数据集已经很全了,但对于更多 NLP 子领域任务,还需要大家共同维护。