导致可以出让给离线作业使用的内存量较少,无法实现有效的超卖。针对上述问题,字节跳动将其在大规模在离线混部过程中积累的精细化的内存管理经验,总结成了一套用户态的 Kubernetes 内存管理方案 Memory Advisor,... Eviction Manager 的插件。本功能中涉及以下插件- System Memory Pressure 插件:基于整机级别内存压力的驱逐策略。- NUMA Memory Pressure 插件:基于 NUMA Node 级别内存压力的驱逐策略。- RSS Overuse 插件:基...
导致可以出让给离线作业使用的内存量较少,无法实现有效的超卖。针对上述问题,字节跳动将其在大规模在离线混部过程中积累的**精细化**的内存管理经验,总结成了一套**用户态**的 Kubernetes 内存管理方案 Memory A... Eviction Manager: 带外对 kubelet 原生驱逐策略进行扩展的框架。在本功能中负责周期性地调用各驱逐插件的接口,获取驱逐策略计算的结果并执行驱逐动作。 - Memory Eviction Plugins: Eviction Mana...
再加上有些业务开发者对 JSON 库的不恰当选型与使用,最终导致服务性能急剧劣化。在字节跳动,我们也遇到了上述问题。根据此前统计的公司 CPU 占比 TOP 50 服务的性能分析数据,JSON 编解码开销总体接近 10%,单个业... 根据主流 JSON 库 API,我们将它们的使用方式分为三种:- **泛型(generic)编解码**:JSON 没有对应的 schema,只能依据自描述语义将读取到的 value 解释为对应语言的运行时对象,例如:JSON object 转化为 Go map[st...
导致可以出让给离线作业使用的内存量较少,无法实现有效的超卖。针对上述问题,字节跳动将其在大规模在离线混部过程中积累的 **精细化** 的内存管理经验,总结成了一套 **用户态** 的 Kubernetes 内存管理方案 M... Eviction Manager 的插件。本功能中涉及以下插件:- System Memory Pressure 插件:基于整机级别内存压力的驱逐策略。- NUMA Memory Pressure 插件:基于 NUMA Node 级别内存压力的驱逐策略。- RSS Overuse 插件:基...
**存储服务**:包括自研 KV(类 Redis 存储服务)、Druid、ES,兼顾了以上两种有状态的特点,既要依赖本地存储,同时服务间有实例依赖关系也就是唯一 ID 需求。在云原生化之前,服务多是通过物理机部署的。物理机时... 它们的错误率也不是完全相等的。这里就可以来做第二层路由逻辑,根据一个 Statefulset Extension 内 Pod 的错误率,进一步增强服务路由/熔断逻辑。基于这种复杂的定制的逻辑,我们并没有依赖 K8s Service 来对请求进行...
2024-02-27 支持通过 Annotation 为工作负载设置 Pod 优雅退出时间 支持通过 Annotation(vke.volcengine.com/eviction-grace-period-seconds)为工作负载设置优雅退出时间,以便于在删除 Pod 之前,预留部分时间支持... 2024-01-16 预加载镜像缓存 华南 1 (广州) 2024-01-16 华东 2 (上海) 2024-01-12 批量计算套件支持扩展类型任务 MPI Job、PyTorch Job 【邀测】批量计算套件集成队列管理任务类型,除了支持 Kubernetes 原生 Job 之...
避免手动操作导致的错误。* **易于运维**:KCC 应提供简单易用的接口和工具,使运维人员能够方便地管理和监控配置的状态和变更。* **易于扩展**:KCC 不仅应用于 Katalyst 自身,还能以 SDK 的形式支持 out-of-tree 的 agent,如各种 device plugin 等,以满足更广泛的配置需求。 ****基本架构****KCC 方案中 Agent 的动态配置都是基于 CRD,而不是 ConfigMap,这能提高动态配置的可靠性和易用性。其...
避免手动操作导致的错误。* **易于运维**:KCC 应提供简单易用的接口和工具,使运维人员能够方便地管理和监控配置的状态和变更。* **易于扩展**:KCC 不仅应用于 Katalyst 自身,还能以 SDK 的形式支持 out-of-tree 的 agent,如各种 device plugin 等,以满足更广泛的配置需求。 ****基本架构****KCC 方案中 Agent 的动态配置都是基于 CRD,而不是 ConfigMap,这能提高动态配置的可靠性和易用性。其...
可能导致集群和业务不稳定。因此操作前,请务必阅读本小节的内容,并谨慎操作! 建议使用控制台,配置节点的常见 kubelet 参数,详情请参见 配置节点池 kubelet 参数。 修改节点 kubelet 参数,需要注意: 可能会导致集群... 参数名称 参数含义 eviction-hard 硬驱逐门限。 kube-reserved Kubernetes 节点预留资源配置。 max-pods 单节点最大 Pod 数量。 system-reserved 系统预留资源配置。 node-labels 节点初始化时的标签。 topology...
包括自研 KV(类 Redis 存储服务)、Druid、ES,兼顾了以上两种有状态的特点,既要依赖本地存储,同时服务间有实例依赖关系也就是唯一 ID 需求。在云原生化之前,服务多是通过物理机部署的。物理机时代的架构复杂、... 它们的错误率也不是完全相等的。这里就可以来做第二层路由逻辑,根据一个 Statefulset Extension 内 Pod 的错误率,进一步 **增强服务路由/熔断逻辑** 。基于这种复杂的定制的逻辑,我们并没有依赖 K8s Service 来对...
任务个数 个 BE 当前最大的 Plan 任务个数 个 Http 请求 BE 平均 HTTP RPS 次/s BE 最大 HTTP RPS 次/s StreamLoad BE StreamLoad 的导入字节速率 B/s BE StreamLoad 导入行速率 次/s 文件句柄 BE 进程最大已用文件... Cache Eviction 次数 次 StarRocks CN Fslib Cache 命中频率 次/s StarRocks CN Fslib Cache Miss 频率 次/s StarRocks CN Fslib Cache Miss 次数 次 StarRocks CN Fslib Cache 命中率 % StarRocks CN Fslib 存活 ...
ERROR_EOF -1414092869 用户中止上传 客户端状态错误码映射表错误码 说明 504 // Server does not support the command we issued. // FTP response codes 502, 504. 503 // Server rejected our command because we didn't issue the commands in right // order. // FTP response code 503. 502 // Server does not support the command we issued. // FTP response codes 502, 504. 500 414 400-499 Cache errors 410 40...
小于等于 0 表示关闭 DNS 缓存,默认为0 fs.tos.request.max.retry.times 20 访问出错重试次数,包括限流,默认值20,如果数据量大,且带宽较小,请保持一个较大的参数值。 fs.tos.client.disable.cache false 是否禁... fs.tos.task.thread-pool-size 当前机器 CPU 数量 要求正整数,表示用于执行 task(如并发 copy 文件)的线程池线程数量。 fs.tos.multipart.thread-pool-size 当前机器 CPU 数量 要求正整数,表示用于异步上传 TO...