跟随

2021年11月12日

4分钟阅读

如何使用Python进行语音识别

用python中的汇编API进行语音到文本

什么是语音识别

语音识别，也称为自动语音识别或者语音到文本，是一个谎言的领域在交集计算机科学和计算语言学这开发了某些技术，使计算机系统能够处理人类的语音并将其转换为文本格式。换句话说，语音识别方法和工具用于将语言格式转换为文本。

语音识别设置中使用的最佳性能算法利用人工智能和机器学习领域的技术和概念。这些算法中的大多数随着时间的流逝而有所改善，因为它们能够通过互动增强其能力和性能。

语音识别的应用可以在许多使用此类技术来帮助用户，消费者和企业更有效的行业中找到。虚拟代理，例如苹果·西里（Apple Siri），，，，亚马逊Alexa和Google助手利用语音识别技术，可以通过语音命令访问某些功能。语音识别的其他应用包括语音激活导航系统在汽车中文档听写在医疗保健甚至基于语音的身份验证在安全环境中。

由于对语音识别技术的需求不断增长，该领域已经看到了巨大的开发，使开发人员和组织分别将它们纳入其代码库和产品。在以下各节中，我们将探讨如何执行语音识别和Python和汇编API，，，，在几行代码中。

使用汇编API的语音到文本

集会提供有力的语音到文本API由高级AI提供动力，并启用用户准确地转录音频和视频文件。在今天的指南中，我们将使用此API来通过MP3音频文件执行语音识别。

如果您想遵循本教程，那么您需要的只是一个API键，如果您注册了免费的gashingblyai帐户，则可以获得。一旦您这样做，您的钥匙就应该在您的帐户部分。

出于本教程的目的，我准备了一个简短的音频文件，您可以在下面找到。随意创建自己的或使用我已经为您创建的那个。

测试音频文件我们将在示例语音到文本教程中使用 - 来源：作者

现在前进，我们将使用要求为了调用需要您获得的API键以及下面定义的标题的库。

导入请求库和定义请求的标题 - 来源：作者

下一步是在文件中读取并将其上传到汇编托管服务上，以获取一个链接，然后我们将其使用它以转录实际的音频。

将音频文件上传到汇编托管服务 - 来源：作者

现在，我们已经成功地将音频文件上传到了汇编的托管服务，我们可以继续前进，并将上载URL发送到上载URL到Assemblyai的转录端点。端点的示例响应在要点末尾的评论中显示。

将请求发送到成绩单端点 - 来源：作者

我们最终可以通过从上一步的成绩单端点提供回复中收到的转录本ID来访问转录结果。注意我们将不得不重复得到要求直到响应中的状态是完全的或者错误如果音频文件未能处理。

成功完成后收到的成绩单端点的示例响应在下面的要点结束时作为评论。

发送重复的获取请求，直到失败或成功完成为止 - 来源：作者

最后，假设文件处理成功结束，我们可以将最终响应写入文本文件。

将输出成绩单写入文件 - 来源：作者

对于我们的示例音频文件，我们从汇编语言到文本API获得的输出，并将写入输出文本文件是

你知道，这样的电视上的恶魔。并让人们暴露于在电视上被拒绝或因恐惧因素而受到羞辱。

这很准确！

完整代码

我们使用的完整代码是为了使用assemblyai语音到文本API，可以在下面的GitHub Gist中找到。总而言之，该代码将从您的本地系统上传到AssemblyAi托管服务，然后将其提交给将执行语音到文本任务的成绩单服务。最后，我们处理输出响应并将其存储到本地文件系统上的文本文件中。

使用汇编API来源进行语音到文本的完整代码：作者

请注意，在本教程中，我已将本地文件上传到AssemblyAi托管服务，但您甚至可以从AWS等任何云服务中提交音频URL。有关更多详细信息和示例，您可以参考本节在Assemblyai官方文件中。

最后的想法

语音识别是一个迅速发展的领域，由于机器学习，人工智能和自然语言处理的巨大进步，它受益匪浅。由于对语音到文本应用程序的需求不断增长，因此提供了各种各样的工具，以便快速访问此类技术。

在今天的文章中，我们探讨了如何使用Assemblyai快速在Python中快速执行语音识别，这是全球成千上万的组织使用的强大API。API提供了本文中未介绍的各种功能，但您可以探索这里。

成为会员并在媒介上阅读每个故事。您的会员费直接支持我和您阅读的其他作家。您还将在媒介上完全访问每个故事。

加入Medium以我的推荐链接 - Giorgos Myrianthous

作为中型会员，您阅读的作家的一部分是您的一部分会员费，您可以完全访问每个故事……

gmyrianthous.medium.com

如何使用Python进行语音识别

用python中的汇编API进行语音到文本

什么是语音识别

使用汇编API的语音到文本

完整代码

最后的想法

加入Medium以我的推荐链接 - Giorgos Myrianthous

作为中型会员，您阅读的作家的一部分是您的一部分会员费，您可以完全访问每个故事……

从数据科学到更多欧宝全站登录

推荐用于媒介

如何使用索引在熊猫数据框中设置单元格值

在边界框中生成随机的LAT LNG。并绘制它！

设备故障的经济学

网络刮擦产品在3分钟内进行评论。

寻找共享技术（…仍然）

如何获取PANDAS数据框的行计数

在数据科学领域建立职业

星巴克项目

获取中型应用

Giorgos Myrianthous

更多来自中等的

如何使计算机与Python交谈

矩阵减法解释（带有python示例） - 线性代数

Hackerrank测试：Python

可以从眼图上的字母中制成的单词数量