因此数据平台也面临着从Hadoop到云原生的探索。我们做了一些尝试:首先是存储,使用OSS等对象存储替代了HDFS。其次就是计算,也是本篇文章将要介绍的,将Spark计算任务从Yarn迁移至K8S上运行。# 最初的尝试spark-thrift-server考虑到我们服务的客户数据量都不是很大,并且在数据相关的场景中都是基于SQL来实现。上半年我们在离线业务中首先选择了spark-thrift-server。spark-thrift-server的本质其实就是一个Spark Application,和...
边缘存储主要面向适配边缘计算的典型业务场景,如边缘渲染。[火山引擎边缘渲染](https://www.volcengine.com/product/veRender)依托底层海量算力资源,可助力用户实现百万渲染帧队列轻松编排、渲染任务就近调度、多任务多节点并行渲染,极大提升渲染效率。## 边缘场景存储挑战这里简单介绍一下在边缘渲染中遇到的存储问题:需要对象存储与文件系统的元数据统一,实现数据通过对象存储接口上传以后,可以通过 POSIX 接口直接进行操作...
边缘存储主要面向适配边缘计算的典型业务场景,如边缘渲染。火山引擎边缘渲染依托底层海量算力资源,可助力用户实现百万渲染帧队列轻松编排、渲染任务就近调度、多任务多节点并行渲染,极大提升渲染效率。 边缘场景存储挑战 这里简单介绍一下在边缘渲染中遇到的存储问题:* 需要对象存储与文件系统的元数据统一,实现数据通过对象存储接口上传以后,可以通过 POSIX 接口直接进行操作;* 满足高吞吐...
我们明确了边缘渲染中对于存储的几个核心诉求:* **运维不能太复杂**:存储的研发人员能够通过运维文档上手操作;后期扩容以及处理线上故障的运维工作需要足够简单。* **数据可靠性**:因为是直接给用户提供存储服务,因此对于写入成功的数据不允许丢失,或者出现跟写入的数据不一致的情况。* **使用一套元数据,同时支持对象存储和文件存储**:这样业务方在使用的时候,不需要多次上传和下载文件,降低业务方的使用复杂度。* **针...
对象元信息是对象的属性描述,包括 HTTP 标准属性(HTTP Header)和用户自定义元数据(User Meta)两种。 设置自定义元数据注意 要设置对象元数据,您必须具备 tos:PutObject 权限,具体操作请参见权限配置指南。 设置用户... 捕获服务端异常,可从返回信息中获取详细错误信息 print('fail with server error, code: {}'.format(e.code)) request id 可定位具体问题,强烈建议日志中保存 print('error with request id: {}'.format...
您可以通过 setmeta 命令设置对象元数据。 命令格式Linux/macOS设置单个对象元数据 Bash ./tosutil setmeta tos://bucket/key [-versionId=xxx] [-meta=aaa:bbbccc:ddd] [-contentType=xxx] [-contentDisposition=xxx] [-contentEncoding=xxx] [-contentLanguage=xxx] [-cacheControl=xxx] [-expires=xxx] [-fr] [-o=xxx] [-e=xxx] [-re=xxx] [-i=xxx] [-k=xxx] [-t=xxx] [-conf=xxx] 批量设置对象元数据 Bash ./tosutil setmeta...
存储桶是存储对象的容器,该操作可以判断桶是否存在,以及获取桶的元数据。 示例代码如下代码展示如何获取桶的元数据。 objectivec // 从STS服务获取的临时访问密钥和安全令牌(AccessKey、SecretKey、SecurityToken)TOSCredential *credential = [[TOSCredential alloc] initWithAccessKey:@"accesskey" secretKey:@"secretkey" securityToken:@"securityToken"];TOSEndpoint *tosEndpoint = [[TOSEndpoint alloc] initWithURLStri...
推断数据结构,从而自动化元数据定义,极大缩减数据从产生到应用的整体链路。 通过元数据发现,数据湖体系可以真正实现 Schema on Read , 在存储数据之后再统一定义数据结构,使用较少的初始工作,提供更大的灵活性和更快的洞察速度。 被元数据发现所定义的元数据,也可以直接在 LAS 中进行查询,形成生态闭环。 2. 前置条件 2.1 目前支持数据源:对象存储 TOS 2.2 目前支持的数据格式为 CSV、Parquet 2.3 用户具有 TOS 桶的访问权限 2.4...
火山引擎对象存储是火山引擎提供的海量、安全、低成本、易用、高可靠、高可用的分布式云存储服务。通过网络,您可以在任何应用、任何时间、任何地点管理和访问火山引擎对象存储上的数据
对象元信息是对象的属性描述,包括 HTTP 标准属性(HTTP Header)和用户自定义元数据(User Meta)两种。 注意事项为了避免在浏览器环境中暴露您的火山引擎账号密钥信息(即 AccessKey ID 和 AccessKey Secret),强烈建议您使用临时访问凭证的方式执行 TOS 相关操作,详细说明,请参见使用 STS 临时 AK/SK+Token 访问火山引擎 TOS。 Endpoint 为 TOS 对外服务的访问域名。TOS 支持的 Endpoint 信息,请参见访问域名 Endpoint。 只有对象拥有...
本节主要介绍使用容器服务(VKE)时如何选择存储(对象存储、文件存储、弹性快存储)类型以及选择时的注意事项。 存储说明不同的业务类型,需要选择不同的存储类型以匹配业务需要,以下内容将对火山引擎提供的存储类型的... 存储规模超过 EB。传统用户自建对象存储系统,存在扩展性支持的节点规模有限,难以满足 100 PB 级的扩展性要求; 桶和对象的元数据管理存在瓶颈,单桶并发写入性能较低,单桶对象数量有限等问题。TOS 对象存储服务单桶提...
桶(Bucket)是 TOS 的全局唯一的命名空间,相当于数据的容器,用来储存对象(Object)数据。本文介绍如何通过 TOS Java SDK 的 headBucket 接口获取桶的元数据,包括桶所属地域(Region)和桶的存储类型(StorageClass),以及判断桶是否存在。 注意事项获取桶元数据之前,您必须具有 tos:HeadBucket 权限。具体操作,请参见权限配置概述。 若桶不存在则该接口会返回 404,也常用于判断桶是否存在。 示例代码以下代码展示如何获取桶元数据及判...
对象元信息是对象的属性描述,包括 HTTP 标准属性(HTTP Header)和用户自定义元数据(User Meta)两种。 注意事项只有对象拥有者,具备设置对象元数据权限。 设置用户自定义元数据时,英文字母自定义元数据 Key 只支持小... // 存储桶中的对象名const objectKey = 'example_dir/example.txt';async function main() { try { const { requestId } = await client.setObjectMeta({ bucket: bucketName, key: objectKey, ...