2026-01-27 12:25:38

Amazon Transcribe 推出百种语言支持的新一代语音识别系统

关键要点

Amazon Transcribe 宣布推出了支持 100 多种语言的新一代自动语音识别系统。该系统基于多参数语音基础模型，具有显著的准确性提升和用户友好的功能。企业可以利用该系统提高服务质量和客户体验。开始使用该服务非常简单，无需改动现有代码或参数。

Amazon Transcribe 是一项完全托管的自动语音识别ASR服务，使您能够轻松向应用程序中添加语音转文本的功能。今天，我们很高兴地宣布推出下一代多参数语音基础模型驱动的系统，从而将自动语音识别扩展到超过 100 种语言。在此帖子中，我们将讨论该系统的一些优势、企业如何利用它以及如何开始使用。下面我们还提供了转录输出示例。

Transcribe 的语音基础模型采用最佳的自监督算法进行训练，从而学习不同语言和口音间人类语音的固有通用模式。它在来自 100 多种语言的数百万小时的未标记音频数据上训练。训练配方通过聪明的数据采样进行优化，以平衡语言间的数据，确保传统上代表性不足的语言也能达到高准确度。

Carbyne 是一家软件公司，为紧急呼叫响应者开发云计算关键联系中心解决方案。Carbyne 的使命是帮助紧急响应者拯救生命，而语言不会成为他们实现目标的障碍。以下是他们如何利用 Amazon Transcribe 来实现使命的：

“基于 AI 的 Carbyne 现场音频翻译旨在帮助改善对 6800 万位在家中使用非英语语言的美国人的紧急响应，同时每年还有多达 7900 万外国游客访问该国。通过利用 Amazon Transcribe 的新多语言基础模型驱动的 ASR，Carbyne 将更加有能力为每一个人提供生命救助的紧急服务，因为每一个人都很重要。”

Alex Dizengof，Carbyne 联合创始人及首席技术官。

借助语音基础模型，Amazon Transcribe 在大多数语言中提升了 20 至 50 的准确性。在电信语音这一数据稀缺且具有挑战性的领域，准确率的提升介于 30 至 70 之间。除了显著的准确度提升外，该大型 ASR 模型还提升了可读性，提供更准确的标点和大写。随着生成 AI 的兴起，成千上万的企业正在利用 Amazon Transcribe 从他们的音频内容中释放丰富的洞察。随着准确性的大幅提升和对超过 100 种语言的支持，Amazon Transcribe 将对所有相关用例产生积极影响。所有现有和新客户在批处理模式下使用 Amazon Transcribe 时，无需对 API 端点或输入参数进行任何修改，就能访问基于语音基础模型的语音识别。

该新 ASR 系统在 100 多种语言中提供了一些关键的功能，包括易用性、定制化、用户安全和隐私保护。这些功能包括自动标点、定制词汇、自动语言识别、说话者区分、单词级置信评分和定制词汇过滤。该系统对不同口音、噪音环境和声学条件的扩展支持增加了输出的准确性，从而帮助您在应用程序中有效嵌入语音技术。

借助 Amazon Transcribe 在不同口音和噪声条件下的高准确性、对众多语言的支持以及丰富的增值功能数，成千上万的企业将被赋能，能够从他们的音频内容中提取丰富的洞察，并增加音频和视频内容在各领域的可访问性和可发现性。例如，联络中心可以转录和分析客户通话，以识别洞察，并随后改善客户体验和代理生产力。内容创作者和媒体分发商使用 Amazon Transcribe 自动生成字幕，以提高内容的可访问性。

开始使用 Amazon Transcribe

您可以使用 AWS 命令行工具AWS CLI、AWS 管理控制台和各种 AWS SDK 进行批量转录，并继续使用相同的 StartTranscriptionJob API，以获得增强 ASR 模型的性能优势，而无需对代码或参数进行任何修改。有关使用 AWS CLI 和控制台的更多信息，请参阅 AWS CLI 转录和 AWS 管理控制台转录。

第一步是将您的媒体文件上传到 Amazon 简单存储服务Amazon S3存储桶，这是一个设计用于随时存储和检索任何规模数据的对象存储服务。Amazon S3 提供行业领先的耐用性、可用性、性能、安全性，以及几乎无限的可扩展性，成本非常低。您可以选择将转录结果保存在自己的 S3 存储桶中，或者让 Amazon Transcribe 使用安全的默认存储桶。有关使用 S3 存储桶的更多信息，请参阅创建、配置和使用 Amazon S3 存储桶。

亚马逊转录Amazon Transcribe宣布了一款新的基于语音基础模型的自动语音识别ASR

转录输出

Amazon Transcribe 采用 JSON 格式输出其结果。它以两种不同的格式提供转录结果：文本格式和逐项格式。API 端点或输入参数没有变化。

文本格式提供转录内容的文本块，而逐项格式则按时间顺序提供转录项，并附带每项的额外元数据。两种格式同时存在于输出文件中。

根据您在创建转录作业时选择的功能，Amazon Transcribe 会生成额外和丰富的转录结果视图。请查看以下示例代码：

魔方加速器官网入口

json{ jobName 2xspeakers2xchannels accountId results { transcripts [ { transcript Hi welcome } ] speakerlabels [ { channellabel ch0 speakers 2 segments [] } { channellabel ch1 speakers 2 segments [] } ] channellabels { channels [] numberofchannels 2 } items [] segments [] } status COMPLETED}

视图如下：

转录文本由 transcripts 元素表示，仅包含转录的文本格式。在多说话者、多通道场景中，所有转录的内容将合并为一个文本块。发言者由 speakerlabels 元素表示，包含按发言者分组的文本和逐项格式的转录。只有当启用多说话者功能时才能获取。通道由 channellabels 元素表示，包含按通道分组的文本和逐项格式的转录。只有当启用多通道功能时才能获取。逐项内容由 items 元素表示，仅包含逐项格式的转录。在多说话者、多通道场景中，逐项内容将附加额外属性，以指示发言者和通道。片段由 segments 元素表示，包含按替代转录分组的文本和逐项格式的转录。只有当启用替代结果功能时才能获取。

结论

在 AWS，我们始终致力于为客户创新。通过将 Amazon Transcribe 的语言支持扩展到超过 100 种语言，我们使客户能够服务于多种语言背景的用户。这不仅增强了可访问性，也在全球范围内开辟了新的沟通和信息交流的途径。欲了解更多关于本文所讨论的功能，请查看功能页面和新内容发布。

关于作者

Sumit Kumar 是 AWS AI 语言服务团队的首席产品经理。他在多个领域拥有 10 年的产品管理经验，并对人工智能/机器学习充满热情。工作之余，Sumit 喜欢旅行，并享受打板球和草地网球的乐趣。

Vivek Singh 是 AWS AI 语言服务团队的高级产品经理，领导 Amazon Transcribe 产品团队。在加入 AWS 之前，他在亚马逊其他组织中担任过产品管理职务，包括消费者支付和零售。Vivek 住在华盛顿州西雅图，喜欢跑步和远足。

Amazon Transcribe 推出百种语言支持的新一代语音识别系统

关键要点

开始使用 Amazon Transcribe

转录输出

结论

关于作者

订阅邮箱