包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准当中,CogVLM-17B 在 10 项基准中取得 SOTA性能,而在另外四项(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取... 不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。这次开源的 17B 模型就是基于Vicuna-7B 的英文模型。其实我们内部也训练完成了更大的英文模型和基于GLM的双语模型,后面可能也会开源出来。 **问:**Visu...
包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准当中,CogVLM-17B 在 10 项基准中取得 SOTA性能,而在另外四项(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成绩。整体性能超越或匹配谷歌的PaLI-X 55B。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/470ca775f30a4ad79d5acb7652960e81~tplv-tlddhu82om-image.image?=&rk3s...
情感表达的丰富度与中英双语的融合度** 方面实现显著升级。升级范围包括T2A接口、T2A pro接口与语音体验中心。 **节奏更自然、情感更丰富** ![picture.image](https://p3-volc-co... 本次升级更是针对 **含有英文短句的中英混合场景** 实现效果提升,使听觉体验 **更自然流畅** 。 **T2A large接口** **上线** 本次上线的T2A large(异步超长文本语音合成...
包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准当中,CogVLM-17B 在 10 项基准中取得 SOTA性能,而在另外四项(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取... 不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。这次开源的 17B 模型就是基于Vicuna-7B 的英文模型。其实我们内部也训练完成了更大的英文模型和基于GLM的双语模型,后面可能也会开源出来。 **问:**Visu...
包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。在这些基准当中,CogVLM-17B 在 10 项基准中取得 SOTA性能,而在另外四项(包括 VQAv2, OKVQA, TextVQA, COCO captioning等)取得第二的成绩。整体性能超越或匹配谷歌的PaLI-X 55B。![picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/470ca775f30a4ad79d5acb7652960e81~tplv-tlddhu82om-image.image?=&rk3s...
情感表达的丰富度与中英双语的融合度** 方面实现显著升级。升级范围包括T2A接口、T2A pro接口与语音体验中心。 **节奏更自然、情感更丰富** ![picture.image](https://p3-volc-co... 本次升级更是针对 **含有英文短句的中英混合场景** 实现效果提升,使听觉体验 **更自然流畅** 。 **T2A large接口** **上线** 本次上线的T2A large(异步超长文本语音合成...
若您为纯英文场景,建议选择下方英文音色。 多语种语言 音色名称 voice_type 时间戳 支持情感/风格类型 支持语言类型 美式英语 慵懒女声-Ava BV511_streaming ✔ 【7种情感】通用、开心、悲伤、生气、害怕、厌恶、... BV704_streaming ✔ 郑州话 乡村企业家 BV214_streaming 湖南普通话 湖南妹坨 BV226_streaming ✔ 长沙话 长沙靓女 BV216_streaming ✔ 离线音色列表 V4版本语言 音色名称 voice_type 时间戳 中文 灿灿 BV70...