火山引擎 LAS 为您提供多种多模态数据处理 skill,可用于对音视频、文档等多模态数据处理的场景,您可以在OpenClaw、IDE等多种场景便捷地完成安装、使用。以下为您介绍当前支持的 LAS 官方 skill 列表。
注意
LAS skills 与对应的LAS 数据处理算子的能力本质上一致,因此:
- LAS skill 的计费与 skill 对应算子的计费逻辑一致,详情可参见大模型调用计费。
- 在使用 skill 时,您也可以在与 OpenClaw/IDE 的 Agent 交互过程中,根据需要通过 skill 参数指定数据处理的要求,各 skill 支持的 skill 参数可参见 skill 对应算子的请求API 参数中的 data 请求参数。
- 安装skill、配置与试用skill的操作,请参见 安装 LAS 官方 skills、配置环境变量并测试 skill。
文档
Skill 名称 | skill 获取链接 | Skill 介绍 |
|---|
PDF内容解析 Skill: - skill 名称:byted-las-document-parse
- skill 参数说明:PDF 文档解析(豆包)
使用skill时可参考其中的data请求参数。
| | - PDF内容解析Skill,孵化于豆包大模型训练场景,提供对PDF 文件的视觉级结构化解析、高保真 Markdown 输出、图片识别、灵活输出模式,可广泛应用于需要将 PDF 精准转为结构化 Markdown、还原图文公式、批量处理与构建知识库的各类文档自动化场景。
- 【应用场景】论文研读、财报分析、合同审查
- 【核心优势】支持复杂版面解析,对标题、页眉、页脚、页码等元素的识别更为全面和准确,token 成本更低
|
视频
Skill 名称 | skill 获取链接 | Skill 介绍 |
|---|
视频智能剪辑 Skill - skill 名称:byted-las-video-edit
- 参数说明:视频智能剪辑
使用skill时可参考其中的data请求参数。
| | - 视频智能剪辑Skill,基于多模态大模型构建智能视频剪辑能力,可从长视频中快速提取高价值片段,支持自然语言需求理解、参考图像辅助识别、多模态内容分析,输出标准化剪辑决策并自动生成与上传片段文件,适用于高光提取、角色追踪、商品片段筛选、自定义剪辑等视频生产与内容处理场景。
- 【应用场景】短漫剧制作、电商广告、课程切片
- 【核心优势】切分规则无限制(自定义),如根据角色、季节、剧情等维度切分,内置调优 Prompt,效果更优
|
视频内容理解 Skill | | - 本 Skill 用于调用 LAS
las_vlm_video 算子进行视频理解(会先压缩视频到 50MB 以内,再调用豆包模型进行理解),并将同步 process 调用封装为可重复执行的脚本化工作流 - 【应用场景】影视营销、课程提炼、内容打标
- 【核心优势】视频长度/大小/格式/语种无限制,应用场景更广泛,开发交付更快
|
视频修复 Skill - skill 名称:byted-las-video-inpaint
- 参数说明:视频修复
使用skill时可参考其中的data请求参数。
| | - 修复视频,包含水印/字幕擦除,支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容,输出修复后的视频文件。
- 【应用场景】短剧出海与翻译、短视频创作、品牌宣传
- 【核心优势】擦除目标无限制,如水印、字幕、滚动字幕,支持视频分段处理,处理长视频更稳定
|
视频分辨率调整 Skill - skill 名称:byted-las-video-resize
- 参数说明:视频分辨率调整(在线)
使用skill时可参考其中的data请求参数。
| | - 调整视频的分辨率,调高或调低
- 【应用场景】AI 短漫剧制作、渠道广告营销、
- 【核心优势】视频格式无限制,支持多种宽高比,可控制视频质量,音频不受损
|
音频
Skill 名称 | skill 获取链接 | Skill 介绍 |
|---|
语音识别 Skill | | - 语音识别Skill,基于 LAS ASR 打造录音转写服务,提供自动断句、数字规整、说话人 / 通道分离、长音频适配、标点补全能力,支持多音频并发处理与 JSON / 文本双格式输出,可广泛应用于会议记录、访谈整理、音视频字幕、客服质检与音频内容数字化等场景。
- 【应用场景】会议总结、客服质检、字幕生成
- 【核心优势】支持音频&视频,语种无限制,支持99种外国语&方言,内置降噪能力,准确率更优
|
音频格式转换 Skill - skill 名称:byted-las-audio-convert
- 参数说明:音频格式转换(在线)
使用skill时可参考其中的data请求参数。
| | - 将音频/视频转换成指定格式,支持 wav、mp3、flac 音频格式
- 【应用场景】数据服务商清洗、模型预训练、音乐发行
- 【核心优势】输入输出格式无限制(自定义),支持高并发要求和大规模数据处理
|
音频切分 Skill - skill 名称:byted-las-audio-extract-and-split
- 参数说明:音频切分
使用skill时可参考其中的data请求参数。
| | - 用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径
- 【应用场景】会议纪要、教学素材生产、AI 客服模型训练
- 【核心优势】切分规则无限制(自定义),如根据时长、时间、人物等维度切分,内置调优 Prompt,效果更优
|
图片
Skill 名称 | skill 获取链接 | Skill 介绍 |
|---|
图片重采样 Skill - skill 名称:byted-las-image-resample
- skill 参数说明:图片重采样
使用skill时可参考其中的data请求参数。
| | - 对输入图像进行尺寸重采样(仅支持降采样),并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法(nearest/bilinear/bicubic/lanczos)与
.jpg / .png 输出格式,适用于图像预处理、数据标准化、离线数据集构建等场景。 - 【应用场景】图像预处理、AIGC 平台、机器视觉与训练
- 【核心优势】输入输出格式无限制,在确保图片质量前提下,速度更快
|