我听到死人了吗？自然语言技术使过去和现在的声音变得生动起来

2025

如今，大多数计算机声音已经过时了。当您听到手机上的“机器人”可以帮助您支付帐单或询问您想要哪个部门时，您可能对机器人和机器人的了解不多。但是，如果您突然听到库尔特·科本向您索取卡信息怎么办？还是约翰·肯尼迪（John F. Kennedy）告诉您有关提前投票的奇迹？还是猫王在闯入“大块头，燃烧的爱情大块头”之前先写下自己的名字和住址？

所有这些都是……有点怪异，但更令人着迷的是该技术已经基本存在。就在大约十年前，我们甚至对计算机的通话能力感到惊讶。现在，我们将受到自由放音，计算机生成的声音的影响，这些声音听起来像我们认识的人。

NLP的重大变化

如果您关注自然语言处理（NLP）领域，则可能听说过一些最新进展，这些进展已经超越了我们现在在全球定位系统（GPS）和自动化业务中听到的罐头虚拟助手声音电话线。

NLP的开始需要对人类语音的一般机制进行大量研究。研究人员和工程师必须识别单个语音，将它们分解为用于生成短语和句子的更好的算法，然后尝试在元级别上管理所有语音，以生成听起来真实的东西。随着时间的流逝，NLP领导者逐渐掌握了这一点，并开始构建高级算法来理解人类的言论。将这两者结合在一起，公司就为当今的虚拟助手和全数字账单服务员提供了驱动程序，当您停止考虑要进行的工作时，他们的举止虽然令人讨厌，但仍然令人赞叹。

现在，一些公司已经超越了通用虚拟语音的范畴，以组合出更加具体的个性化结果。这需要浏览特定人的词典，并收集大量独特的语音视频，然后将此存档应用于复杂的节奏，以进行语音，强调，节奏和语言学家通常以“韵律”为旗帜的所有其他微小提示。

发出的声音是听众认为是某个人“拥有”的声音-他们是认识的或与之交谈过的人，或是由于该人的名声而被其声音识别的人。

从猫王到马丁·路德·金，现在可以通过这种方式“克隆”任何人的声音-前提是他们的讲话有大量预先录制的记录。通过对单个小声音进行更详细的分析和处理，公司可以制作听起来像真实声音的虚拟人声副本。

VivoText上令人兴奋的“文本到语音”创作

例如，VivoText是一家致力于彻底改变从语音书到交互式语音响应（IVR）的各种活动中使用人工人声的公司。从理论上讲，VivoText的研究和生产团队正在研究一些流程，这些流程可以专门复制已故名人的声音，例如Ol'Blue Eyes本人。

VivoText首席执行官Gershon Silbert说：“要克隆Frank Sinatra的声音，我们实际上将保留他的录音遗产。”

目前，VivoText正在努力归档仍在我们身边的人的声音，例如NPR记者Neal Conan，他已签约成为此类IT先锋项目的模型。一段宣传视频显示，VivoText工作人员使用柯南提供的语音输入精心创建了语音代码模块。然后，他们创建了文本到语音（TTS）工具的模型，这些模型引起了巨大的人性化和个性化的结果。

根据VivoText战略和业务开发副总裁Ben Feibleman的说法，计算机在音素级别（使用最小的语音唯一部分）运行，以符合个人语音的韵律模型。

Feibleman说：“它知道声音是如何说话的。”他补充说，通过使用“单元选择”，计算机可以选择多个片段来组合一个简短的单词，例如单词“ Friday”具有五个有助于开发的成分特别强调和色调效果。

营销中的人造声音

那么，这在营销中如何工作？ VivoText的产品在创建可以覆盖目标受众的产品（如有声读物）方面可能非常有用。例如，如果将猫王语音用于销售与娱乐相关的产品，它与当今通用的无底盘自动语音相比，效果如何？

或者，在政治方面呢？ Feibleman一直致力于使用诸如此类项目的各种构想，以增强对需要更有效消息传递的公司或其他各方的营销。

“如果您知道有任何政治人物竞选总统，那么可能会有1000万摇摆状态选民接到候选人的私人电话，感谢他们的支持，告诉他们需要在哪里投票，天气以及选举的所有内容。选举前一天晚上，” Feibleman说。

您的声音永存

所有这些技术还有另一个明显的应用。像VivoText这样的自然语言公司可以创建一项个人服务，该服务会将客户的所有语音数据上传到产品中，从而使该人“永远说话”。

实际的实施可能会引起一些有关我们如何听到和内化语音的问题。例如，要使声音流完全听起来像某人，该怎么办？我们必须认识一个人来识别特定声音的程度如何？而且，有趣的是，如果自然语言服务产生粗俗的漫画而不是令人信服的模仿，会发生什么？

Feibleman说，评估结果通常取决于对上下文的考虑。例如，他说孩子们在听故事时通常不会问谁在说话。他们只是想要更多。但是，在特定情况下，例如被动广播或电话留言，许多成年人可能不会考虑与谁聊天。另外，由于电话声音模糊不清，可以掩盖计算机结果与人声之间的毛刺或其他差异，因此更容易被电话欺骗。

Feibleman说：“您不会挑战声音的真实性。”

在2525年

随着公司不断开发产品和服务并回答这些问题，“现场演讲”技术可以使我们朝着技术与人的思想融合的方向发展，这通常被称为人工智能（AI）。

如果计算机能够像我们一样说话，他们可能会欺骗其他用户以为他们像我们一样思考，并接受更大的奇异原理，这是1950年代由作家传福音的约翰·冯·诺依曼（John von Neumann）引入我们的词典的语言还有雷·库兹韦（Ray Kurzweil）等思想家。库兹韦尔（Kurzweil）在2005年出版的《奇点即将来临》一书激起了某些人的恐惧。库兹韦尔（Kurzweil）预测，到2045年，作为一种现象的“智能”将大大脱离人脑并迁移到技术中，从而模糊机器与人类主人之间的界限。

Zager&Evans的歌词“ In the Year 2525”（在这些人中没有人像这些家伙那样令人毛骨悚然的科幻民谣）永垂不朽。

在4545年

你不需要牙齿，不需要

你的眼睛

你不会嚼东西

没有人会看着你

在5555年

您的手臂在两侧li行

你的腿没什么可做的

有些机器在帮你

计算机声音是否朝这个方向迈出了一步？作为一种将某些人体功能外包（或更常见的是模拟人体功能）的新方法，这种技术进步是我们展望单个未来时最大的（也许未充分报道）进展之一。（关于计算机能够模仿人的心灵中的“奇异性”吗？）

我听到死人了吗？自然语言技术使过去和现在的声音变得生动起来

目录:

NLP的重大变化

VivoText上令人兴奋的“文本到语音”创作

营销中的人造声音

您的声音永存

在2525年

编辑的选择

突然的界面变化：为什么让用户迷失方向可能会受到伤害

为什么，作为一个女人，我差点放弃了一个科技职业

云托管成本如何在毫无戒心的公司上攀升

关于NSA泄漏的5件事情要记住

编辑的选择

威斯定律是什么？ -技术百科的定义

什么是只写代码？ -技术百科的定义

Web服务安全性（WS安全性）-Techopedia的定义

什么是可扩展标记语言（xml）？ -技术百科的定义

编辑的选择

什么是备份服务器？ -技术百科的定义

什么是内容交付网络（cdn）？ -技术百科的定义

什么是数据服务器（ds）？ -技术百科的定义

什么是域控制器？ -技术百科的定义

编辑的选择

什么是手机信号塔？ -技术百科的定义

什么是手机？ -技术百科的定义

什么是手机？ -技术百科的定义

什么是元？ -技术百科的定义

编辑的选择

我们问科技界的女性：为什么你们中没有更多？

我听到死人了吗？自然语言技术使过去和现在的声音变得生动起来

科技改变我们行为的5种怪异方式

关于无效域名和链接失效：为什么网络如此脆弱

热门类别