1. 首页
  2. 英语培训
  3. >

文本转语音概述怎么写(文本转语音概述怎么做)

文本转语音允许应用程序、工具或设备将文本转换为类似人类的合成语音。文本转语音包括以下功能:用于详细了解神经网络文本转语音功能的标记语言,用于自定义文本转语音输出。要开始使用文本转语音,请参阅快速入门。上面提供了文本转语音的示例代码。这些示例涵盖了最流行编程语言中的文本到语音转换:使用文本到语音功能时,您需要为转换为语音的每个字符付费。本文内容

本概述介绍了语音服务的文本转语音功能的优点和功能,该服务是AzureAI服务的一部分。

文本转语音概述怎么写(文本转语音概述怎么做)

文本转语音允许应用程序、工具或设备将文本转换为类似人类的合成语音。文本转语音功能也称为语音合成。使用现成的、预先生成的类人神经声音,或根据您的产品或品牌创建独特的神经自定义声音。有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持。

核心功能

文本转语音包括以下功能:

功能总结演示

预先生成的神经网络声音

高度自然、现成的演讲。创建Azure帐户和语音服务订阅,然后使用语音SDK或访问语音工作室门户并选择预生成的神经语音即可开始。查看定价详情。

查看语音库以确定适合您业务需求的语音。

神经自定义声音

易于使用的自助服务,可创建自然的品牌声音并限制访问以实现负责任的使用。创建Azure帐户和语音服务订阅并请求神经网络自定义功能。获得访问权限后,请访问SpeechStudio门户并选择“自定义声音”即可开始。查看定价详情。

查看演讲示例。

有关神经文本转语音功能的更多信息

Azure上的语音的文本转语音功能已通过神经文本转语音引擎进行了全面升级。该引擎使用深度神经网络使计算机声音与人类录音几乎无法区分。神经文本转语音可提供清晰的发音,并在用户与人工智能系统交互时显着减少听力疲劳。

口语中的重音和语调模式称为韵律。传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。这可能会导致语音合成混乱和语气不一致。

以下是有关语音服务中的神经文本转语音功能的详细信息,以及它们如何克服传统文本转语音系统的局限性:

有关神经语音英语到在线转换语音免费英语的平台的完整列表,请参阅语音服务的语言和语音支持。

使用SSML微调文本转语音输出:语音合成标记语言(SSML)是一种基于XML的标记语言,用于自定义文本转语音输出。借助SSMLEnglishOnlineSpeechConverterFree,您可以调整音调、添加停顿、改善发音、更改说话速度、调整音量以及将多个语音归因于单个文档。

您可以使用SSML定义自己的词典或切换到不同的说话风格。使用多语言语音并通过SSML调整口语。要微调场景的语音输出,请参阅使用语音合成标记语言改进合成和使用音频内容创建工具进行语音合成。

视觉素-视觉素是在言语中观察到的关键手势,包括嘴唇、下巴和舌头在产生特定音素时的位置。视觉元素与语音和音素密切相关。

可以使用语音SDK中的体素事件生成面部动画数据。这些数据用于创建用于唇读交流、教育、娱乐和客户服务的面部动画。Visuales目前仅支持en-US神经网络声音。

评论

我们计划在2024年淘汰传统/标准语音和非神经自定义语音。之后,我们将不再支持它们。

如果您的应用程序、工具或产品当前使用任何标准语音和自定义声音,则必须迁移到神经网络版本。有关更多信息,请参阅迁移到神经网络声音。

入门

要开始使用TexttoSpeechEnglish进行免费英语培训,请参阅快速入门。文本转语音是通过语音SDK、RESTAPI和语音CLI提供的。

暗示

对于将文本转换为语音的无代码方法,请尝试使用SpeechStudio中的音频内容创建工具。

代码示例

GitHub上提供了文本转语音的示例代码。这些示例涵盖了最流行的编程语言中的文本到语音转换:

定制神经语音

除了预先生成的神经声音之外,还可以创建和微调您的产品或品牌独有的神经自定义声音。只需准备一些音频文件和相关转录即可开始。有关更多信息,请参阅神经网络自定义声音入门。

定价说明计费字符

当您使用文本转语音时,您需要为转换为语音的每个字符付费。尽管SSML文档本身不计费,但用于调整文本转语音行为的可选元素将被计为计费字符。计费内容如下:

有关更多信息,请参阅语音服务定价。

重要的

每个汉字算作两个字符,包括日语汉字、韩语汉字或其他语言中使用的汉字。

神经网络自定义声音的模型训练和托管时间

神经网络定制声音训练和托管按小时计费,按秒计费。计费单价请参见语音服务定价。

神经网络自定义语音(CNV)训练时间以“计算时间”来衡量。通常,在训练语音模型时,两个计算任务并行运行。因此,计算出的计算时间将比实际训练时间长。平均而言,训练一个CNVLite语音需要不到1小时的计算时间;对于CNVProfessional来说,训练单一风格的语音通常需要20到40个计算小时,训练多种风格的语音通常需要90个计算小时左右。小时。CNV训练时间的计费限制为96个计算小时。因此,如果语音模型训练需要98个计算小时,您只需支付96个计算小时的费用。

神经自定义语音(CNV)端点托管是实时测量的。每个端点的托管时间是在过去24小时内每天00:00UTC计算的。例如,在英语中,如果端点在第一天处于活动状态24小时,则将在第二天00:00UTC按24小时计费。如果端点是新创建的或当天已暂停,则将按其累积运行时间计费,直到第二天00:00UTC。如果端点当前未托管,则不会计费。除了每日00:00UTC计算英语在线转换语音免费外,当端点被删除或暂停时也会立即触发计费。例如,对于12月1日08:00UTC创建的终端节点,12月2日00:00UTC和12月3日00:00UTC的托管时间将分别计算为16小时和24小时。如果用户在12月3日16:30UTC暂停托管端点,则出于计费目的,将计算从12月3日00:30UTC到16:30UTC的持续时间。

参考文档ResponsibleAI

人工智能系统不仅包括技术文本到语音的概述,还包括使用它的人、受它影响的人以及它的部署环境。阅读透明度声明,了解如何在您的系统中负责任地使用和部署人工智能。

下一步