文章_wwwjun_极客社区_安科网

wwwjun

https://i.ancii.com/wwwjun/

文章

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 0喜欢 / 15评论 2020-11-02

机器学习中的标签泄漏介绍及其如何影响模型性能

您是否对优秀或接近优秀的模型表现不知所措?你的快乐被出卖了吗?简而言之，当您要预测的信息直接或间接出现在训练数据集中时，就会发生标签泄漏或目标泄漏。它会导致模型夸大其泛化误差，并极大地提高了模型的性能，但模型对于任何实际应用都毫无用处。数据泄漏的主要指标是

wwwjun 0喜欢 / 0评论 2020-09-25

重磅 | Delta Lake正式加入Linux基金会，重塑数据湖存储标准

暴走大数据点击右侧关注，暴走大数据！2019年10月16日，在荷兰阿姆斯特丹举行的 Spark+AI 欧洲峰会上，DataBricks 和 Linux 基金会联合宣布，开源项目 Delta Lake 正式成为 Linux 基金会的托管项目。ACID 事务：

wwwjun 0喜欢 / 0评论 2019-10-20

数据湖(Data Lake)-剑指下一代数据仓库

这样的数据仓库，已经具有了数据湖的部分功能。

wwwjun 0喜欢 / 0评论 2019-09-03

做机器学习项目数据不够？这里有5个不错的解决办法

许多开展人工智能项目的公司都具有出色的业务理念，但是当企业AI团队发现自己没有足够多的数据时，就会慢慢变得十分沮丧......不过，这个问题的解决方案还是有的。本文将简要介绍其中一些经笔者实践证明确实有效的办法。数据稀缺的问题非常重要，因为数据是任何AI项

wwwjun 0喜欢 / 0评论 2019-07-03

Spark Streaming消费Kafka数据的两种方案

下午的时候翻微信看到大家在讨论Spark消费Kafka的方式，官网中就有答案，只不过是英文的，当然很多博客也都做了介绍，正好我的收藏夹中有一篇文章供大家参考。文章写的通俗易懂，搭配代码，供大家参考。本文的作者是来自TalkingData的数据工程师张伟。S

wwwjun 0喜欢 / 0评论 2019-05-14

大数据成神之路-Java高级特性增强(CopyOnWriteArraySet)

预计更新500+篇文章，已经更新40+篇~本系列的大纲会根据实际情况进行调整,欢迎大家关注~它是线程安全的无序的集合，可以将它理解成线程安全的HashSet。它最适合于具有以下特征的应用程序：Set 大小通常保持很小，只读操作远多于可变操作，需要在遍历期间

wwwjun 0喜欢 / 0评论 2019-04-30

数据清洗&预处理入门完整指南

数据预处理是建立机器学习模型的第一步，对最终结果有决定性的作用：如果你的数据集没有完成数据清洗和预处理，那么你的模型很可能也不会有效——就是这么简单。人们通常认为，数据预处理是一个非常枯燥的部分。但它就是「做好准备」和「完全没有准备」之间的差别，也是表现专

wwwjun 0喜欢 / 0评论 2019-02-22

机器学习项目中的数据预处理与数据整理之比较

在常见的机器学习/深度学习项目里，数据准备占去整个分析管道的60%到80%。市场上有各种用于数据清洗和特征工程的编程语言、框架和工具。它们之间的功能有重叠，也各有权衡。可视化分析工具与开源数据科学组件之间，如R、Python、KNIME、RapidMine

wwwjun 0喜欢 / 0评论 2017-04-29

加载中...

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号