You need to enable JavaScript to run this app.
导航

产品简介

最近更新时间2024.04.15 14:17:13

首次发布时间2021.12.20 14:44:12

产品说明

语音合成(TTS, Text to Speech),能将文本转换成人类声音。它运用了语音合成领域突破性的端到端合成方案,能提供高保真、个性化的音频。

产品功能
特性说明

语音合成

【在线合成】单次调用支持1024字节,约等于使用UTF-8编码的300个汉字;
【离线合成】在无网或弱网环境下,支持在移动端、智能硬件等设备进行语音播报。

精品长文本语音合成

适用于需要批量合成较长文本,且对返回时效性无强需求的场景,单次可支持10万字符以内文本,异步返回音频。对于输入的文本请求,会进入集群排队处理,返回时长会受集群负载影响波动,通常返回时间会在数十分钟,最长返回时延3小时以内。如出现长时间未返回情况,如无报错,请耐心等待。提供“普通版”和“情感预测版”两种方案。
【普通版】支持多国语言、多风格,覆盖全年龄段的精品音色,满足不同场景需求;
【情感预测版】可自动区分旁白和对话,对话可支持七大情感,为您提供沉浸式听觉盛宴,适用于有声阅读领域。

音色选择提供多语音、多种音色以适配不同场景的语音合成需求
语速控制自定义速度,最多可使其比正常语速快或慢4倍
音高控制自定义所选语音的音高,最多可高于或低于默认输出 20 个半音
音量增益控制将输出音量最高调至 16db 或最低调至 -96db
情感强度控制自定义情感强度,支持20档强度调节
参数调节使用 SSML 标记添加停顿、数字、日期和时间格式以及其他发音指令,以自定义您的语音
合成结果高质量合成语音
音频格式支持pcm/wav/mp3/opus格式

集成方式

【 API】
-在线实时合成服务,支持可发起网络请求的服务或设备的语音合成请求;
-批量合成服务,支持小说、新闻等长篇文本的批量合成;
【SDK】
-轻巧简便,满足手机、智能硬件等快速集成,支持在/离线的服务调用;

产品优势
  • 多领域精品音色矩阵:采用行业最领先的生成式神经网络让AI演绎更加真实生动的同时深入不同领域打磨使音色更具业务属性,为各行业提供多风格全年龄段的精品音色。

  • 多语言多情感能力:支持中、英、日等多国家语种,针对不同语种可提供不同地区的口音。具有丰富的情感演绎能力,可淋漓尽致地表达出开心、悲伤、愤怒、惊讶、恐惧、厌恶、平和等多种情感,带给用户极致的听觉体验

  • 高知名度特色性强:提供如IP、方言等特色音色,达到亿级别使用,音色国民知名度高传播广。

  • 稳定适配不同网络环境:具有“在线+离线”配套能力,可自适应网络进行离在线切换,有效避免无网、弱网时的延迟与卡顿。

  • 高品质权威认证:具有AI国检中心颁发的语音合成增强级检验检测证书,在基本要求以及扩展要求上已达最高等级标准,音色MOS评分最高达4.64分。