Amazon Transcribe 推出百种语言支持的新一代语音识别系统

关键要点

Amazon Transcribe 宣布推出了支持 100 多种语言的新一代自动语音识别系统。该系统基于多参数语音基础模型,具有显著的准确性提升和用户友好的功能。企业可以利用该系统提高服务质量和客户体验。开始使用该服务非常简单,无需改动现有代码或参数。

Amazon Transcribe 是一项完全托管的自动语音识别ASR服务,使您能够轻松向应用程序中添加语音转文本的功能。今天,我们很高兴地宣布推出下一代多参数语音基础模型驱动的系统,从而将自动语音识别扩展到超过 100 种语言。在此帖子中,我们将讨论该系统的一些优势、企业如何利用它以及如何开始使用。下面我们还提供了转录输出示例。

Transcribe 的语音基础模型采用最佳的自监督算法进行训练,从而学习不同语言和口音间人类语音的固有通用模式。它在来自 100 多种语言的数百万小时的未标记音频数据上训练。训练配方通过聪明的数据采样进行优化,以平衡语言间的数据,确保传统上代表性不足的语言也能达到高准确度。

Carbyne 是一家软件公司,为紧急呼叫响应者开发云计算关键联系中心解决方案。Carbyne 的使命是帮助紧急响应者拯救生命,而语言不会成为他们实现目标的障碍。以下是他们如何利用 Amazon Transcribe 来实现使命的:

“基于 AI 的 Carbyne 现场音频翻译旨在帮助改善对 6800 万位在家中使用非英语语言的美国人的紧急响应,同时每年还有多达 7900 万外国游客访问该国。通过利用 Amazon Transcribe 的新多语言基础模型驱动的 ASR,Carbyne 将更加有能力为每一个人提供生命救助的紧急服务,因为每一个人都很重要。”

Alex Dizengof,Carbyne 联合创始人及首席技术官。

借助语音基础模型,Amazon Transcribe 在大多数语言中提升了 20 至 50 的准确性。在电信语音这一数据稀缺且具有挑战性的领域,准确率的提升介于 30 至 70 之间。除了显著的准确度提升外,该大型 ASR 模型还提升了可读性,提供更准确的标点和大写。随着 生成 AI 的兴起,成千上万的企业正在利用 Amazon Transcribe 从他们的音频内容中释放丰富的洞察。随着准确性的大幅提升和对超过 100 种语言的支持,Amazon Transcribe 将对所有相关用例产生积极影响。所有现有和新客户在批处理模式下使用 Amazon Transcribe 时,无需对 API 端点或输入参数进行任何修改,就能访问基于语音基础模型的语音识别。

该新 ASR 系统在 100 多种语言中提供了一些关键的功能,包括易用性、定制化、用户安全和隐私保护。这些功能包括自动标点、定制词汇、自动语言识别、说话者区分、单词级置信评分和定制词汇过滤。该系统对不同口音、噪音环境和声学条件的扩展支持增加了输出的准确性,从而帮助您在应用程序中有效嵌入语音技术。

借助 Amazon Transcribe 在不同口音和噪声条件下的高准确性、对众多语言的支持以及丰富的增值功能数,成千上万的企业将被赋能,能够从他们的音频内容中提取丰富的洞察,并增加音频和视频内容在各领域的可访问性和可发现性。例如,联络中心可以转录和分析客户通话,以识别洞察,并随后改善客户体验和代理生产力。内容创作者和媒体分发商使用 Amazon Transcribe 自动生成字幕,以提高内容的可访问性。

开始使用 Amazon Transcribe

您可以使用 AWS 命令行工具AWS CLI、AWS 管理控制台和各种 AWS SDK 进行批量转录,并继续使用相同的 StartTranscriptionJob API,以获得增强 ASR 模型的性能优势,而无需对代码或参数进行任何修改。有关使用 AWS CLI 和控制台的更多信息,请参阅 AWS CLI 转录 和 AWS 管理控制台转录。

第一步是将您的媒体文件上传到 Amazon 简单存储服务Amazon S3存储桶,这是一个设计用于随时存储和检索任何规模数据的对象存储服务。Amazon S3 提供行业领先的耐用性、可用性、性能、安全性,以及几乎无限的可扩展性,成本非常低。您可以选择将转录结果保存在自己的 S3 存储桶中,或者让 Amazon Transcribe 使用安全的默认存储桶。有关使用 S3 存储桶的更多信息,请参阅 创建、配置和使用 Amazon S3 存储桶。

亚马逊转录Amazon Transcribe宣布了一款新的基于语音基础模型的自动语音识别ASR

转录输出

Amazon Transcribe 采用 JSON 格式输出其结果。它以两种不同的格式提供转录结果:文本格式和逐项格式。API 端点或输入参数没有变化。

文本格式提供转录内容的文本块,而逐项格式则按时间顺序提供转录项,并附带每项的额外元数据。两种格式同时存在于输出文件中。

根据您在创建转录作业时选择的功能,Amazon Transcribe 会生成额外和丰富的转录结果视图。请查看以下示例代码:

魔方加速器官网入口

json{ jobName 2xspeakers2xchannels accountId results { transcripts [ { transcript Hi welcome } ] speakerlabels [ { channellabel ch0 speakers 2 segments [] } { channellabel ch1 speakers 2 segments [] } ] channellabels { channels [] numberofchannels 2 } items [] segments [] } status COMPLETED}

视图如下:

转录文本 由 transcripts 元素表示,仅包含转录的文本格式。在多说话者、多通道场景中,所有转录的内容将合并为一个文本块。发言者 由 speakerlabels 元素表示,包含按发言者分组的文本和逐项格式的转录。只有当启用多说话者功能时才能获取。通道 由 channellabels 元素表示,包含按通道分组的文本和逐项格式的转录。只有当启用多通道功能时才能获取。逐项内容 由 items 元素表示,仅包含逐项格式的转录。在多说话者、多通道场景中,逐项内容将附加额外属性,以指示发言者和通道。片段 由 segments 元素表示,包含按替代转录分组的文本和逐项格式的转录。只有当启用替代结果功能时才能获取。

结论

在 AWS,我们始终致力于为客户创新。通过将 Amazon Transcribe 的语言支持扩展到超过 100 种语言,我们使客户能够服务于多种语言背景的用户。这不仅增强了可访问性,也在全球范围内开辟了新的沟通和信息交流的途径。欲了解更多关于本文所讨论的功能,请查看 功能页面 和 新内容发布。

关于作者

Sumit Kumar 是 AWS AI 语言服务团队的首席产品经理。他在多个领域拥有 10 年的产品管理经验,并对人工智能/机器学习充满热情。工作之余,Sumit 喜欢旅行,并享受打板球和草地网球的乐趣。

Vivek Singh 是 AWS AI 语言服务团队的高级产品经理,领导 Amazon Transcribe 产品团队。在加入 AWS 之前,他在亚马逊其他组织中担任过产品管理职务,包括消费者支付和零售。Vivek 住在华盛顿州西雅图,喜欢跑步和远足。

订阅邮箱