文章_JayXio_极客社区

JayXio 0喜欢 / 0评论 2020-05-15

Cloudera Impala架构设计要点

对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。Impal

JayXio 0喜欢 / 0评论 2015-06-30

在解决JPA中如何防止修改实体的属性后不自动更新数据库问题时遇到的其它问题???

最近在做一个项目，期间遇到一些棘手的问题，这里贴上关键部分代码如下。在执行修改的时候根据ID获取指定用户，拿到的实体的状态会不一样呢？希望高手们帮忙解惑下！！！TUser entity = this.getUserById; // 1、返回的实体是游离

JayXio 0喜欢 / 0评论 2016-09-09

清华大学孙茂松：大数据与富知识双轮驱动成NLP未来发展的关键

本文约3500字，建议阅读7分钟。孙茂松副院长为你介绍大数据与富知识双轮驱动成NLP未来发展的关键。10月8日，北京智源人工智能研究院在清华大学FIT楼举行了“‘自然语言处理’重大研究方向暨‘北京智源-京东跨媒体对话智能联合实验室’”发布会。

JayXio 0喜欢 / 0评论 2019-10-14

SOA中springmvc中restful服务的数据权限加密方式分享

Map<String, String> reqGetParamMap = null; // 客户端传递的参数信息

JayXio 0喜欢 / 0评论 2017-11-03

一文教你如何处理不平衡数据集（附代码）

本文作者用python代码示例解释了3种处理不平衡数据集的可选方法，包括数据层面上的2种重采样数据集方法和算法层面上的1个集成分类器方法。除了生成尽可能多的数据见解和信息，它还用于查找数据集中可能存在的任何问题。在分析用于分类的数据集时，类别不平衡是常见问

JayXio 0喜欢 / 0评论 2019-05-28

我分析了上万个微信红包数据，得到了这些发现（附数据集）

引子笔者在2015年7月创建了一个以分享滴滴打车红包为主的微信群聊，创建的本意是为了方便大家在分享红包时不打扰别人，在乘车需要红包时能方便地领到红包。随着群人数和分享红包种类的增加，该群已成为一个各类 O2O 服务APP优惠券红包的集散地。数量维度本群主要

JayXio 0喜欢 / 0评论 2019-02-19

报告｜野蛮数据时代，企业和从业者如何应对变革焦虑？

大数据和人工智能正成为了这个时代的主题曲，与此同时，焦虑感也开始在行业中蔓延，从初创公司、行业巨头到从业者，都急切地想要跟上这股越来越热的浪潮。2017年7月，清华数据科学研究院联合《大数据文摘》发布了首份《顶级数据团队建设全景报告》。在之前的课题基础上，

JayXio 0喜欢 / 0评论 2018-09-27

李开复：年轻人现在就该开始找AI替代不了的工作

为了确保职业生涯不会因替代而中断，我们需要了解在可见的未来里，AI做不到什么。[ 导读 ]9 月 2 日，创新工场董事长兼 CEO、人工智能科学家李开复博士在北京举行新书《AI·未来》的发布会。在发布会上，李开复博士金句频出，让人有些应接不暇，我们在会后与

JayXio 0喜欢 / 0评论 2018-09-08

独家｜一文解读合成数据在机器学习技术下的表现

本文约3200字，建议阅读12分钟。本文将通过介绍两个分布模型，并运用它们到合成数据过程中，来分析合成数据在不同机器学习技术下的表现。相比于数量有限的“有机”数据，我将分析、测评合成数据是否能实现改进。根据某些分布或分布集合绘制值个体为本模型的建模在这项研

JayXio 0喜欢 / 0评论 2018-08-21

独家｜爱奇艺如何用大数据助力娱乐工业革命？

本文约4278字，建议阅读8分钟。本文为你讲述爱奇艺快速发展的背后，数据如何发挥作用、发挥什么原因的作用。《报告》囊括专家访谈、问卷、网络数据分析，力求为行业内数据团队的组建和高校数据人才的培养提供指导性意见。前往文末参与填写问卷，将获得《报告》完整版~根

JayXio 0喜欢 / 0评论 2018-08-09

开放数据平台、助力国家实验室：耕耘在数据科学领域的清华力量

随着发展大数据、人工智能上升为国家战略，数据科学这一领域的计算技术不断突破，科研成果不断涌现。在这一时代浪潮之中，清华大学作为顶尖学府也在默默耕耘和奉献，为行业培育了众多杰出人才，并推动了跨学科的教学与科研交叉融合，打造了“政产学研用”平台，孵化了众多大数

JayXio 0喜欢 / 0评论 2018-06-25

重磅｜数据挖掘之父韩家炜：文本语料库的数据挖掘（PPT下载）

近期，美国伊利诺伊大学厄巴纳香槟分校计算机科学Abel Bliss教授韩家炜在清华大学FIT楼多功能厅进行了关于文本语料库数据挖掘的主题分享。曾担任KDD、SDM和ICDM等国际知名会议的程序委员会主席，创办了ACM TKDD学报并任主编。在数据挖掘、数据

JayXio 0喜欢 / 0评论 2018-01-11

独家｜一文读懂大数据处理框架

说起大数据处理，一切都起源于Google公司的经典论文：《MapReduce:Simplied Data Processing on Large Clusters》。在当时，由于网页数量急剧增加，Google公司内部平时要编写很多的程序来处理大量的原始数据

JayXio 0喜欢 / 0评论 2017-06-25

数据蒋堂｜报表的数据计算层，从四个方面分析独立计算层的优势

本文从四个方面分析独立计算层的优势。［导读］我们在上一期报表应用的三层结构一文中解释了报表应用结构中数据计算层的必要性，以及可以使用报表工具自定义数据源接口来实现计算层。本期我们就来讨论一下使用报表工具的自定义数据源是否可以方便地实现数据计算层以及独立计算

JayXio 0喜欢 / 0评论 2017-06-09

清华大学获批承建大数据系统软件国家工程实验室

近日，国家发展改革委员会正式批复同意由清华大学作为承担单位牵头，北京理工大学作为参与单位，联合国防科学技术大学、中山大学、百度、腾讯等相关单位共同建设大数据系统软件国家工程实验室。这是承担我国大数据系统软件技术研发与工程化的唯一国家级创新平台。

JayXio 0喜欢 / 0评论 2017-02-15

清数-iCPI正式发布—互联网在线数据的居民消费价格研究指数

2016年11月4日上午10点，由清华大学社会科学学院经济学研究所与清华大学数据科学研究院共同主办的“清数-iCPI新闻发布会”在清华大学主楼召开。清数-iCPI是一支基于对互联网在线价格等数据进行研究形成的新型居民消费价格研究指数。与会领导上台共同启动清

JayXio 0喜欢 / 0评论 2016-11-05

Ext2文件系统深度剖析｜读数据流程分析

读数据流程关于如何从用户态到Ext2文件系统公共部分的流程本文不再详细介绍，这一部分与写流程基本一致，具体可以参考文末的相关文章介绍。如图是从用户态到Ext2文件系统的函数调用图，从图上可以看到对于Ext2文件系统在读数据流程中调用了大量VFS的函数，这主

JayXio 0喜欢 / 0评论 2019-01-01

SQL数据分页查询的方法

最近学习了一下SQL的分页查询，总结了以下几种方法。现在假设我们要做的是每页5条数据，而现在我们要取第三页的数据。此方法是先取出前10条数据的SID，然后取出SID的最大值，再从数据里面取出大于前10条SID的最大值的前5条数据。此方法的特点就是使用

JayXio 0喜欢 / 0评论 2019-04-09

SQLServer 数据库的数据汇总完全解析(WITH ROLLUP)

汇总小计： 17问：该如何实现？乍一看，好像很容易，用group by好像能实现？别急，SQL Server早就帮我们做好了，下面，跟我来。在生成包含小计和合计的报表时，ROLLUP 运算符很有用。多维数据集是事实数据的扩展，事实数据即记录个别事件的数

JayXio 0喜欢 / 0评论 2019-04-03

加载中...

安科网

JayXio