算法魔功

2020-03-07

如何用 Python 在笔记本上分析 100GB 数据?

许多组织都想尽可能多地收集和利用数据,从而改进业务、增加收入和提升影响力。因此,数据科学家们要面对 50GB,甚至 500GB 数据集的场景变得越来越普遍。目前,这些数据集处理起来有点麻烦。就大小而言,它们可以放进你笔记本电脑的硬盘里,但却无法装入内存。所以,仅仅打开和查看它们就很困难,更何况进一步探索和分析。第 1 种是对数据进行子抽样,但它有一个明显缺点:可能因忽略部分数据而错失关键信息,甚至误解数据表达的含义。为实现这些功能,Vaex 采用内存映射、高效的核外算法和延迟计算等概念。从上图可以看到,95% 的出租车行程不到 30 分钟就可以到达目的地,但有些行程可能花费超过 4-5 个小时。不管怎样,我们豁达点只考虑少于 3 小