文档中心
简体
文档
备案
控制台
登录
立即注册
AI 数据湖服务
了解 LAS AI
算子广场
帮助文档
AI 数据湖服务
AI 数据湖服务
算子广场
请输入
算子总览
算子广场概述
算子库发布记录
支持的算子列表:在线算子
支持的算子列表:离线算子
快速入门
准备工作
获取 API Key 并配置
获取 Base URL
方舟大模型系列
视觉理解
视频内容理解(豆包系列)增强版
视觉内容理解(豆包系列模型)
视觉内容理解(Doubao-1.5-vision-pro)
视觉内容理解(Doubao-1.5-vision-pro-32k)
文本生成
文本生成(Doubao-lite-32K)
文本生成(豆包/DeepSeek 系列模型)
文本生成(Deepseek-V3)
文本生成(Doubao-1.5-pro-32K)
文本生成(Doubao-1.5-lite-32K)
深度思考(Doubao-1.5-thinking-pro)
深度思考(Deepseek-R1)
图像生成
图片生成(Seedream 系列模型)
图片编辑
图片生成编辑(豆包seedream系列模型)
视频生成
seedance视频生成(豆包系列)
文本向量化
文本向量化(Doubao-embedding-large)
文本向量化(Doubao-embedding)
多模态向量化
图文 embedding(豆包系列模型)
多模态深度思考
多模态深度思考(豆包系列模型)
多模态深度思考(Doubao-Seed-1.6-flash)
多模态深度思考(Doubao-1.5-thinking-vision-pro)
多模态深度思考(Doubao-Seed-1.6)
多模态深度思考(Doubao-Seed-1.6-thinking)
多模态深度思考(Doubao-seed-1.8)
音频
音频处理
音频格式转换
音频格式转换(在线)
音频信噪比计算
音频转MP3
音频质量评分(DNSMOS)
音频片段切分(时间戳)
音频片段切分(时长)
音频切分
音频滤镜处理
音频静音检测
音频文件大小计算
音频时长计算
音频元数据提取
音频降噪(MossFormer2_SE_48K)
音频快速拼接(同源)
音频评分(Audiobox Aesthetics)
多语言 CTC 对齐
音频拼接
音频提取与切分(LAS)
语音质量评分(SpeechScore)
音频格式转换(LAS)
音频识别
语音转文字(FireRed)
语音转文字(豆包语音ASR)
语音转文字(豆包系列)
音频多语种识别(whisper)
说话人确认(ERes2Net)
语音转文字(whisper 系列模型)
语种识别及ASR(whisper 系列模型)
语音端点识别(FSMN 模型)
语音端点识别(Silero 模型)
音频生成
文字转语音(豆包语音大模型)
音频预处理
音频格式标准化
音频分类
多语言语音分类
音频安全识别
音频风险识别
【待确认】音频多语种识别(whisper)
多模态
图片理解
图片内容理解(Qwen VL 系列模型)
图片内容理解(Qwen VL 系列模型,支持大尺寸模型)
图片内容理解(LLaVA 系列模型)
音频理解
音频理解(Kimi-Audio 系列模型)
音频内容理解(Qwen Omni 模型)
视频理解
视频内容理解(Qwen VL 系列模型)
视频内容理解(Qwen VL 系列模型,支持大尺寸模型)
多模态向量化
图文 embedding(CLIP 模型)
视频
视频处理
视频转换MP4
视频帧采样
视频安全性检测
视频区域修复
视频音频检测
视频元数据提取
视频移除音轨
视频片段切分(关键帧)
视频片段切分(时长)
视频音频抽取
视频关键帧抽取
视频分辨率调整
通用视频格式转换
视频自适应压缩
视频片段切分(时间戳)
视频人脸模糊
视频清晰度计算
视频宽高比调整
视频起始帧识别
视频黑边检测与裁剪
视频拼接
视频剪裁
视频运动分计算
视频自适应关键帧抽取
视频分析
视频质量评分
视频内容安全
视频风险识别
视频剪辑
视频智能剪辑
图片
图片处理
图片重采样
图片安全性检测
图片Hash值
图像美学评分
图片人脸模糊
图片人脸检测
图像质量评分
图像清晰度计算
图片压缩
图像黑边裁剪
图像格式转换
图片裁剪
图片OCR
图像 OCR(EasyOCR)
图片向量化
图像 Embedding(ViT 系列模型)
文档
文档解析
Xlsx 文档解析
PDF 文档智能解析
PDF 文档解析(豆包)
Doc格式转换
文档格式转换
PPT文件转换
文本
TOS路径预签名
生成TOS的普通预签名
文本翻译
多语言文本翻译
文本清洗
特定字符替换
html 标签移除
Email 地址清理
文本安全识别
文本内容风险识别
文本质量评估
多语言文本质量评分
英文文本质量评分
文本向量化
文本 embedding(BGE模型)
文本 sparse & dense embedding(BGE模型)
文本分类
文本语种识别
文本处理
空白字符标准化器
URL占比计算器
文本安全性评分器
文本 chunk 切分(基于语义)
文本链接移除
项目符号行占比计算器
文本 chunk 切分(基于句子结构)
CommonCrawl WARC文件内容提取
版权声明移除
字符占比计算器
词重复比例计算器
中文简繁体转换
MD5 哈希计算
特殊字符占比计算器
困惑度计算器
最大英文单词长度计算器
重复行计算器
文本长度计算器
其他
时间戳片段合并
开源库广场
开源库广场
文档首页
AI 数据湖服务
音频
音频处理
语音质量评分(SpeechScore)
复制全文
我的收藏
音频处理
语音质量评分(SpeechScore)
复制全文
我的收藏
语音质量评分(SpeechScore)
文档反馈
问问助手
最近更新时间:2026.02.10 15:51:19
这个页面对您有帮助吗?
有用
有用
无用
无用