我们常说的大数据技术,大致主要起源于 Google 在 2004 年前后发表的三篇论文,其实数据处理早就存在,每个公司或者个人都有自己的大数据处理系统,并没有形成编程框架和理念,而这三篇论文也就是我们熟知的大数据三驾马... 数据可视化与机器学习。数据分析主要使用 Hive、Spark SQL 等 SQL 引擎完成;数据挖掘与机器学习则有专门的机器学习框架 Spark 、TensorFlow、Mahout 、PyTorch、Alink 等,内置了主要的机器学习和数据挖掘算法。 大...
# 工业大数据分析及应用## 1 工业大数据概述* 1.1 大数据的产生* 1.2 大数据的概念和特点* 1.3 大数据的影响* 1.4 大数据的引用* 1.5大数据的关键技术* 1.6 工业大数据的概念与特征* 1.7 工业大数据与流程工业智能制造### 1.1 工业大数据的产生> 大数据的产生原因* 新的数据来源/新的数据采集方法* **全时空**数据的可采集性* 智能算法的使能* 非结构的数据形态* 数据获取成本、存储成本和处理成本的下降#...
## 背景介绍最近几年国内大数据apache开源社区计算框架最火的莫过于Flink,得益于阿里在后面的推动以及各大互联网大厂的参与,flink业已成为流式计算事实上的标准。一句话来介绍 Flink 就是 “Stateful Computations Over Streams”,基于数据流的有状态计算。flink的四个基石:Checkpoint、State、Time、Window。- Checkpoint 机制,Flink 基于 Chandy-Lamport 算法实现了分布式一致性的快照,从而提供了 exactly-once 的语义。...
大数据也逐渐进入我们的生活,大模型也无处不在地帮助我们生活和工作。 # 大数据、大模型的应用总结 大数据技术在医疗领域的应用:可以帮助指导医疗团队进行更精确的诊断和治疗。基于大数据的建模和预测,可以... 大模型的技术心得 在今年我从事的工作中,人脸识别项目占了很大的比重,最先进的面部识别算法是使用数百万张图像进行训练的。通过互联网作为资源,面部图像是相对容易获得的,但是这些图像中的语义分布通常非常不平...
大数据是社会数字化的产物,随着业务成熟度的逐渐向上发展,面对的需求逐渐多样化和个性化,对于创新的要求也越来越高,因此可以说智能数据是大数据发展的高级阶段,是大数据在应用创新落地方向的核心要求。## []()01... 大数据系统建设就属于基础建设要求。依据我们对于市场的认识以及资源(资金、能力等)的准备情况,建设基础设施(以构造公路作为主要的工作为例),首先至少必须明确以下几点:● 造路的主要目的是什么?● 连接哪里...
HyperLogLog(HLL) 算法是一种估算海量数据基数的方法,被广泛用于各个数据库产品中。与精确的基数统计算法相比,HLL 具备**可合并性 (mergeability)** ,因而可以方便地对海量数据进行并行计算,被广泛地用于大数据多维分析场景中。例如分别统计一款 APP 每个小时的 UV 以及全天的 UV,这类问题就非常适合使用 HLL 算法。本文将会由浅入深,从基本概念讲起,引导读者从直观上理解 HLL 算法背后蕴含的基本思想。# 基数统计基数 (...
数据量也呈爆炸式增长,传统的大数据架构在资源利用、高效运维、可观测性等方面存在诸多不足,已经越来越无法适应当下的发展需求。云原生大数据方案,逐渐成为众多企业解决传统大数据平台痛点的不二之选。2023年8月... 个人介绍:硕士毕业于哈工大计算机专业,10 年大数据和云原生领域从业经验。2017 年加入字节跳动,构建了字节跳动千万级核心的集群资源管理和调度系统,支撑了全公司的数据平台、搜索、广告、推荐算法等中台,以及抖音、...
大数据技术已经成为当今社会不可或缺的重要支撑。作为一名从事大数据技术研究的工程师,我深感荣幸能够参与到这个充满挑战和机遇的领域。本文将对我过去一年的工作进行总结,并展望未来的发展趋势。***大数据可视... 完成大数据平台的架构设计,实现了对各类数据源的实时采集、存储、处理、分析和安全保护等功能。开发了一套高效的数据处理算法,提高了数据处理的速度和准确性。成功应用了机器学习算法,实现了对用户行为的分析和预...
随着行业的快速发展和业务的高速迭代,数据量也呈爆炸式增长,传统的大数据架构在资源利用、高效运维、可观测性等方面存在诸多不足,已经越来越无法适应当下的发展需求。云原生大数据方案,逐渐成为众多企业解决传统大... 个人介绍:硕士毕业于哈工大计算机专业,10 年大数据和云原生领域从业经验。2017 年加入字节跳动,构建了字节跳动千万级核心的集群资源管理和调度系统,支撑了全公司的数据平台、搜索、广告、推荐算法等中台,以及抖音、...
大数据是企业数字化转型中,支撑企业经营和业绩增长的主要手段之一。而实时化、云原生化已经成为大数据技术发展的必然趋势。4月18日,火山引擎春季 FORCE 原动力大会在上海举办。在会上,火山引擎发布了云原生大数据... 模型训练和推荐算法实时化等业务,更是完成了公司内 JStorm 作业的 100% 迁移。到 2019 年,字节内部 Flink 的应用迅速扩大,几乎覆盖包括抖音、头条、西瓜在内的各个产品。与此同时,团队开始积极参与到社区的共建中,...
最后因决策需要从0到1搭建了集团的决策大数据平台。在2022年前,我经历的还都是一些信息化开发和信息化实施的事情。直到2022年换了新的工作环境,有机会接触到了数字化。2022年数字化的改造,让我对大数据这个行业有新的认知和一些技术之外的心得体会。# 一、大数据的市场分析大数据其实分两个方向,一个是借助大数据来实现商业智能的BI决策分析,一方面是通过大数据和AI算法来进行大数据推送和建立用户画像。今天我们重点来讲大...
大数据是企业数字化转型中,支撑企业经营和业绩增长的主要手段之一。而实时化、云原生化已经成为大数据技术发展的必然趋势。4月18日,火山引擎春季 FORCE 原动力大会在上海举办。在会上,火山引擎发布了云原生大... 模型训练和推荐算法实时化等业务,更是完成了公司内 JStorm 作业的 100% 迁移。到 2019 年,字节内部 Flink 的应用迅速扩大,几乎覆盖包括抖音、头条、西瓜在内的各个产品。与此同时,团队开始积极参与到社区的共建中,...
如果说推荐算法、大数据技术是支撑字节跳动业务发展的技术能力,那么其迭代创新的核心技术理念又是什么? 10月27上午,在「稀土开发者大会」上,火山引擎总经理谭待以《数据驱动x敏捷开发,业务高速增长的双引擎》为主题,深度解密了字节跳动业务快速发展的两大技术理念——数据驱动、敏捷开发,分享如何构建数据驱动的飞轮,以及如何通过全栈云原生架构,支撑大规模应用实现敏捷开发。 以下为谭待的演讲实录: 大家好,我是谭待,是字节跳动...