目录:
如今,大多数计算机声音已经过时了。 当您听到手机上的“机器人”可以帮助您支付帐单或询问您想要哪个部门时,您可能对机器人和机器人的了解不多。 但是,如果您突然听到库尔特·科本向您索取卡信息怎么办? 还是约翰·肯尼迪(John F. Kennedy)告诉您有关提前投票的奇迹? 还是猫王在闯入“大块头,燃烧的爱情大块头”之前先写下自己的名字和住址?
所有这些都是……有点怪异,但更令人着迷的是该技术已经基本存在。 就在大约十年前,我们甚至对计算机的通话能力感到惊讶。 现在,我们将受到自由放音,计算机生成的声音的影响,这些声音听起来像我们认识的人。
NLP的重大变化
如果您关注自然语言处理(NLP)领域,则可能听说过一些最新进展,这些进展已经超越了我们现在在全球定位系统(GPS)和自动化业务中听到的罐头虚拟助手声音电话线。
NLP的开始需要对人类语音的一般机制进行大量研究。 研究人员和工程师必须识别单个语音,将它们分解为用于生成短语和句子的更好的算法,然后尝试在元级别上管理所有语音,以生成听起来真实的东西。 随着时间的流逝,NLP领导者逐渐掌握了这一点,并开始构建高级算法来理解人类的言论。 将这两者结合在一起,公司就为当今的虚拟助手和全数字账单服务员提供了驱动程序,当您停止考虑要进行的工作时,他们的举止虽然令人讨厌,但仍然令人赞叹。
现在,一些公司已经超越了通用虚拟语音的范畴,以组合出更加具体的个性化结果。 这需要浏览特定人的词典,并收集大量独特的语音视频,然后将此存档应用于复杂的节奏,以进行语音,强调,节奏和语言学家通常以“韵律”为旗帜的所有其他微小提示。
发出的声音是听众认为是某个人“拥有”的声音-他们是认识的或与之交谈过的人,或是由于该人的名声而被其声音识别的人。
从猫王到马丁·路德·金,现在可以通过这种方式“克隆”任何人的声音-前提是他们的讲话有大量预先录制的记录。 通过对单个小声音进行更详细的分析和处理,公司可以制作听起来像真实声音的虚拟人声副本。
VivoText上令人兴奋的“文本到语音”创作
例如,VivoText是一家致力于彻底改变从语音书到交互式语音响应(IVR)的各种活动中使用人工人声的公司。 从理论上讲,VivoText的研究和生产团队正在研究一些流程,这些流程可以专门复制已故名人的声音,例如Ol'Blue Eyes本人。
VivoText首席执行官Gershon Silbert说:“要克隆Frank Sinatra的声音,我们实际上将保留他的录音遗产。”
目前,VivoText正在努力归档仍在我们身边的人的声音,例如NPR记者Neal Conan,他已签约成为此类IT先锋项目的模型。 一段宣传视频显示,VivoText工作人员使用柯南提供的语音输入精心创建了语音代码模块。 然后,他们创建了文本到语音(TTS)工具的模型,这些模型引起了巨大的人性化和个性化的结果。
根据VivoText战略和业务开发副总裁Ben Feibleman的说法,计算机在音素级别(使用最小的语音唯一部分)运行,以符合个人语音的韵律模型。
Feibleman说:“它知道声音是如何说话的。”他补充说,通过使用“单元选择”,计算机可以选择多个片段来组合一个简短的单词,例如单词“ Friday”具有五个有助于开发的成分特别强调和色调效果。
营销中的人造声音
那么,这在营销中如何工作? VivoText的产品在创建可以覆盖目标受众的产品(如有声读物)方面可能非常有用。 例如,如果将猫王语音用于销售与娱乐相关的产品,它与当今通用的无底盘自动语音相比,效果如何?
或者,在政治方面呢? Feibleman一直致力于使用诸如此类项目的各种构想,以增强对需要更有效消息传递的公司或其他各方的营销。
“如果您知道有任何政治人物竞选总统,那么可能会有1000万摇摆状态选民接到候选人的私人电话,感谢他们的支持,告诉他们需要在哪里投票,天气以及选举的所有内容。选举前一天晚上,” Feibleman说。
您的声音永存
所有这些技术还有另一个明显的应用。 像VivoText这样的自然语言公司可以创建一项个人服务,该服务会将客户的所有语音数据上传到产品中,从而使该人“永远说话”。
实际的实施可能会引起一些有关我们如何听到和内化语音的问题。 例如,要使声音流完全听起来像某人,该怎么办? 我们必须认识一个人来识别特定声音的程度如何? 而且,有趣的是,如果自然语言服务产生粗俗的漫画而不是令人信服的模仿,会发生什么?
Feibleman说,评估结果通常取决于对上下文的考虑。 例如,他说孩子们在听故事时通常不会问谁在说话。 他们只是想要更多。 但是,在特定情况下,例如被动广播或电话留言,许多成年人可能不会考虑与谁聊天。 另外,由于电话声音模糊不清,可以掩盖计算机结果与人声之间的毛刺或其他差异,因此更容易被电话欺骗。
Feibleman说:“您不会挑战声音的真实性。”
在2525年
随着公司不断开发产品和服务并回答这些问题,“现场演讲”技术可以使我们朝着技术与人的思想融合的方向发展,这通常被称为人工智能(AI)。
如果计算机能够像我们一样说话,他们可能会欺骗其他用户以为他们像我们一样思考,并接受更大的奇异原理,这是1950年代由作家传福音的约翰·冯·诺依曼(John von Neumann)引入我们的词典的语言还有雷·库兹韦(Ray Kurzweil)等思想家。 库兹韦尔(Kurzweil)在2005年出版的《奇点即将来临》一书激起了某些人的恐惧。 库兹韦尔(Kurzweil)预测,到2045年,作为一种现象的“智能”将大大脱离人脑并迁移到技术中,从而模糊机器与人类主人之间的界限。
Zager&Evans的歌词“ In the Year 2525”(在这些人中没有人像这些家伙那样令人毛骨悚然的科幻民谣)永垂不朽。
在4545年
你不需要牙齿,不需要
你的眼睛
你不会嚼东西
没有人会看着你
在5555年
您的手臂在两侧li行
你的腿没什么可做的
有些机器在帮你
计算机声音是否朝这个方向迈出了一步? 作为一种将某些人体功能外包(或更常见的是模拟人体功能)的新方法,这种技术进步是我们展望单个未来时最大的(也许未充分报道)进展之一。 (关于计算机能够模仿人的心灵中的“奇异性”吗?)
