如何使用Python进行语音识别
用python中的汇编API进行语音到文本
什么是语音识别
语音识别,也称为自动语音识别或者语音到文本,是一个谎言的领域在交集计算机科学和计算语言学这开发了某些技术,使计算机系统能够处理人类的语音并将其转换为文本格式。换句话说,语音识别方法和工具用于将语言格式转换为文本。
语音识别设置中使用的最佳性能算法利用人工智能和机器学习领域的技术和概念。这些算法中的大多数随着时间的流逝而有所改善,因为它们能够通过互动增强其能力和性能。
语音识别的应用可以在许多使用此类技术来帮助用户,消费者和企业更有效的行业中找到。虚拟代理,例如苹果·西里(Apple Siri),,,,亚马逊Alexa和Google助手利用语音识别技术,可以通过语音命令访问某些功能。语音识别的其他应用包括语音激活导航系统在汽车中文档听写在医疗保健甚至基于语音的身份验证在安全环境中。
由于对语音识别技术的需求不断增长,该领域已经看到了巨大的开发,使开发人员和组织分别将它们纳入其代码库和产品。在以下各节中,我们将探讨如何执行语音识别和Python和汇编API,,,,在几行代码中。
使用汇编API的语音到文本
集会提供有力的语音到文本API由高级AI提供动力,并启用用户准确地转录音频和视频文件。在今天的指南中,我们将使用此API来通过MP3音频文件执行语音识别。
如果您想遵循本教程,那么您需要的只是一个API键,如果您注册了免费的gashingblyai帐户,则可以获得。一旦您这样做,您的钥匙就应该在您的帐户部分。
出于本教程的目的,我准备了一个简短的音频文件,您可以在下面找到。随意创建自己的或使用我已经为您创建的那个。
现在前进,我们将使用要求
为了调用需要您获得的API键以及下面定义的标题的库。
下一步是在文件中读取并将其上传到汇编托管服务上,以获取一个链接,然后我们将其使用它以转录实际的音频。
现在,我们已经成功地将音频文件上传到了汇编的托管服务,我们可以继续前进,并将上载URL发送到上载URL到Assemblyai的转录端点。端点的示例响应在要点末尾的评论中显示。
我们最终可以通过从上一步的成绩单端点提供回复中收到的转录本ID来访问转录结果。注意我们将不得不重复得到
要求直到响应中的状态是完全的
或者错误
如果音频文件未能处理。
成功完成后收到的成绩单端点的示例响应在下面的要点结束时作为评论。
最后,假设文件处理成功结束,我们可以将最终响应写入文本文件。
对于我们的示例音频文件,我们从汇编语言到文本API获得的输出,并将写入输出文本文件是
你知道,这样的电视上的恶魔。并让人们暴露于在电视上被拒绝或因恐惧因素而受到羞辱。
这很准确!
完整代码
我们使用的完整代码是为了使用assemblyai语音到文本API,可以在下面的GitHub Gist中找到。总而言之,该代码将从您的本地系统上传到AssemblyAi托管服务,然后将其提交给将执行语音到文本任务的成绩单服务。最后,我们处理输出响应并将其存储到本地文件系统上的文本文件中。
请注意,在本教程中,我已将本地文件上传到AssemblyAi托管服务,但您甚至可以从AWS等任何云服务中提交音频URL。有关更多详细信息和示例,您可以参考本节在Assemblyai官方文件中。
最后的想法
语音识别是一个迅速发展的领域,由于机器学习,人工智能和自然语言处理的巨大进步,它受益匪浅。由于对语音到文本应用程序的需求不断增长,因此提供了各种各样的工具,以便快速访问此类技术。
在今天的文章中,我们探讨了如何使用Assemblyai快速在Python中快速执行语音识别,这是全球成千上万的组织使用的强大API。API提供了本文中未介绍的各种功能,但您可以探索这里。
成为会员并在媒介上阅读每个故事。您的会员费直接支持我和您阅读的其他作家。您还将在媒介上完全访问每个故事。