You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

机器学习数据

面向机器学习应用开发者,提供 WebIDE 和自定义训练等丰富建模工具、多框架高性能模型推理服务的企业级机器学习平台

社区干货

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

> 深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删和回填特征。本文将介绍字节跳动如何通过 Iceberg 数据湖支持 EB 级机器学习样本存储,实现高性能特征读取和高效特征调研、特征工程加速模型迭代。**相关产品**:https://www.volcengine.com/product/flink # 机...

浅谈AI机器学习及实践总结 | 社区征文

# 机器学习基础## 什么是机器学习机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为Y,而一批特征和标签的集合,就是机器学习数据集。机器学习学习过程就是在已知的数据...

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删和回填特征。本文将介绍字节跳动如何通过 Iceberg 数据湖支持 EB 级机器学习样本存储,实现高性能特征读取和高效特征调研、特征工程加速模型迭代。作者|字节跳动基础架构研发工程师-谢凯 **01...

我的技术年终总结——机器学习 |社区征文

## 一、机器学习是什么?- 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 - 直观上理解,机器学习(Machine Learning,ML)是研究计算机模拟人类的学习活动,获取知识和技能的理论和方法,改善系统性能的学科。因为计算机系统中“经验‘通常以数据的形式存在,所以机器要利用经验,就必...

特惠活动

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

2核4G计算型c1ie云服务器

Intel CPU 性能独享,不限流量,密集计算、官网建站、数据分析等、企业级应用推荐
541.11/2705.57/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

机器学习数据-优选内容

使用机器学习及 vePFS Fileset 实现部门数据及权限的精细化管理
本文介绍如何通过机器学习平台及 vePFS 的 Fileset 功能,实现不同团队的数据及权限的精细化管理。 适用场景如果您的企业对数据安全有较高的要求,您可以通过机器学习平台和文件系统 vePFS,授予开发机特定的 vePFS 数据,实现不同团队的数据及权限的精细化管理,避免数据泄露或者误删除的场景。推荐授权场景如下所示: 团队 数据集权限 运维团队 公共数据集 /public :读写权限 vePFS 完整管理权限(即 / 目录读写权限) 说明 运维团队...
字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化
> 深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删和回填特征。本文将介绍字节跳动如何通过 Iceberg 数据湖支持 EB 级机器学习样本存储,实现高性能特征读取和高效特征调研、特征工程加速模型迭代。**相关产品**:https://www.volcengine.com/product/flink # 机...
浅谈AI机器学习及实践总结 | 社区征文
# 机器学习基础## 什么是机器学习机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为Y,而一批特征和标签的集合,就是机器学习数据集。机器学习学习过程就是在已知的数据...
机器学习
1. 概述 机器学习,是指可视化建模支持机器学习算子,对数据进行加工处理,以便用户基于数据进行模型训练、深度分析、预测分析等。本文将为您介绍机器学习算子的功能。 2. 功能介绍 2.1 预测将机器学习算子训练生成的模型应用于预测数据数据上,一般链接在机器学习算子后面。字段设置特征列映射:设置模型中的特征列和数据中的特征列的映射关系。标签列:标签列,分类训练的依据。参数设置预测的列名:预测的列的名字。 2.2 one-hot 模...

机器学习数据-相关内容

字节跳动 EB 级 Iceberg 数据湖的机器学习应用与优化

深度学习的模型规模越来越庞大,其训练数据量级也成倍增长,这对海量训练数据的存储方案也提出了更高的要求:怎样更高性能地读取训练样本、不使数据读取成为模型训练的瓶颈,怎样更高效地支持特征工程、更便捷地增删和回填特征。本文将介绍字节跳动如何通过 Iceberg 数据湖支持 EB 级机器学习样本存储,实现高性能特征读取和高效特征调研、特征工程加速模型迭代。作者|字节跳动基础架构研发工程师-谢凯 **01...

我的技术年终总结——机器学习 |社区征文

## 一、机器学习是什么?- 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 - 直观上理解,机器学习(Machine Learning,ML)是研究计算机模拟人类的学习活动,获取知识和技能的理论和方法,改善系统性能的学科。因为计算机系统中“经验‘通常以数据的形式存在,所以机器要利用经验,就必...

项目经验分享:机器学习在智能风控中的应用|社区征文

基于数据发掘算法,融合了机器学习的特征,基本解决了这些问题。为了读者能更好地理解项目以及还有些刚触及AI领域的伙伴能够了解背景,我就简单解释一些机器学习的基础概念,大致就是使得计算机拥有自我学习能力,可以从提供的数据中发现一些规律和固定的模式,计算机拥有这些基础的数据规律后,就运用这些数据规律做出决策或者预测。看到这里就知晓了,机器学习就是让计算机通过学习数据中的规律,然后对未知的数据进行预测或决策,这就...

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

2核4G计算型c1ie云服务器

Intel CPU 性能独享,不限流量,密集计算、官网建站、数据分析等、企业级应用推荐
541.11/2705.57/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

字节跳动在联邦学习领域的探索及实践

数据是人工智能时代的石油,但是由于监管法规和商业机密等因素限制,"数据孤岛"现象越来越明显。联邦学习(Federated Learning)是一种新的机器学习范式,它让多个参与者可以在不泄露明文数据的前提下,用多方的数据共同训练模型,实现数据可用不可见。 字节跳动联邦学习系统架构师解浚源近期在火山引擎智能增长技术专场,以《联邦学习原理与实践》为主题,分享了联邦学习在广告投放和金融等场景中的应用模式、算法研究、软件系统及实践经...

AI 和机器学习:探索智能科技的未来 | 社区征文

# AI和机器学习的定义人工智能(Artificial Intelligence)是使计算机和机器模拟人类智能的科学与工程实践。它旨在构建智能代理——系统能够正确理解外部环境,并在那里采取行动,以最大程度地完成目标。AI技术的目标之一是通过创建具有人类智能特征的系统来解决复杂问题。而机器学习(Machine Learning)是AI的一个分支。它通过分析数据来教会计算机学习而不通过明确编程。通过例如聚类、分类和回归等算法从示例数据中学习模式和规则...

字节跳动基于 Hudi 的机器学习应用场景

> 本文为 Apache Hudi 技术社区分享会第十期嘉宾分享文章,主要介绍火山引擎 LAS 团队自研的多场景样本离线存储技术,用于处理机器学习系统的离线数据流。同时,还会为大家揭秘流批一体样本生成的过程,分享对 Hudi 内核所做出的优化和改造,探索其在数据处理领域的实际应用和效果。**文末更有专属彩蛋,新人优惠购福利,等着你来解锁!** 本篇文章提纲如下:- 业务场景- 离线样本存储与迭代- 流批一体的样本生成- 功能与优...

技术人的 2023 总结:人工智能-基于机器学习的环境污染影响评估学习|社区征文

本文将探讨基于机器学习的环境污染影响评估方法,并提供相应的代码实例。环境污染包括空气、水、土壤等多个方面,因此准确评估其影响需要全面考虑多种因素。传统的监测方法通常依赖于定点采样,显然无法全面覆盖大范围的环境。而基于机器学习的方法能够利用大量的数据,从而更全面、精确地评估环境污染的影响。![picture.image](https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/5b74b6771a8b4b73936efb5b5dee64d4...

上传数据至 TOS

对象存储 TOS(Tinder Object Storage)是火山引擎提供的分布式云存储服务。对于机器学习项目而言,用户可以将用于训练 / 推理的海量数据上传至 TOS。本文主要介绍如何使用 CLI 和 Python SDK 进行 TOS 的数据管理。 TOS 数据一般有 4 种上传方式: (推荐)通过 Rclone 等命令行工具完成大规模数据的上传,具体参考使用 Rclone 访问 TOS。 TOS 控制台的 Web 页面进行小批量数据的上传、下载、备份策略等基本维护。 基于TOS的openAPI和S...

在线学习FTRL介绍及基于Flink实现在线学习流程|社区征文

# 背景目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般而言有两种解决方...

特惠活动

2核4G共享型云服务器

Intel CPU 性能可靠,不限流量,学习测试、小型网站、小程序开发推荐,性价比首选
86.00/1908.00/年
立即购买

2核4G计算型c1ie云服务器

Intel CPU 性能独享,不限流量,密集计算、官网建站、数据分析等、企业级应用推荐
541.11/2705.57/年
立即购买

域名注册服务

cn/top/com等热门域名,首年低至1元,邮箱建站必选
1.00/首年起32.00/首年起
立即购买

产品体验

体验中心

云服务器特惠

云服务器
云服务器ECS新人特惠
立即抢购

白皮书

一图详解大模型
浓缩大模型架构,厘清生产和应用链路关系
立即获取

最新活动

爆款1核2G共享型服务器

首年60元,每月仅需5元,限量秒杀
立即抢购

火山引擎增长体验专区

丰富能力激励企业快速增长
查看详情

数据智能VeDI

易用的高性能大数据产品家族
了解详情

一键开启云上增长新空间

立即咨询