明立

2019-12-14

你会使用Python『秒开』100GB+数据吗?

如果你50GB甚至500GB的数据集,打开他们都很困难了,更别说分析了。在处理这样的数据集时,我们通常采用3种方法。第一种对数据进抽样:这里的缺点是显而易见的,样本数据能否代表整个数据。第二种使用分布式计算:虽然在某些情况下这是一种有效的方法,但是它带来了管理和维护集群的巨大开销。想象一下,必须为一个刚好超出RAM范围的数据集设置一个集群,比如在30-50GB范围内。第三种租用一个强大的云服务:例如,AWS提供了具有TB内存的实例。处理将数据放到云上所带来的遵从性问题,以及处理在远程机器上工作所带来的所有不便。更不用说成本了,尽管开始时成本很低,但随着时间的推移,成本往往会越来越高。出行距离列中存在的极端离群值是调查出租车出行时间和平均速度的原因。