https://i.ancii.com/83327712/
83327712
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)
今天,我们将看看我们用数字表示文本数据的最基本方法之一:One-hot编码。我们将创建一个维度与词汇表大小相等的矢量,如果文本数据具有vocab单词的特征,我们将在那个维度中放置一个1。每当我们再次遇到这个词时,我们会增加计数。我们如果没有找到这个词则为0
0 关注 0 粉丝 0 动态
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号