所有版权归中国经济网所有。
中国经济网新媒体矩阵
网络广播视听节目许可证(0107190)(京ICP040090)
即使直播持续近6个小时,大部分电商主播都出现了疲惫的迹象,直播间的主播们仍能情绪化地回答观众的问题,时不时讲一些“笑话”来吸引观众并促使他们下单。随着人工智能技术的快速发展,从大规模模型向多模态模型的加速演进,数字人成为大规模语言模型与多模态技术相融合的创新应用。电商直播是数字人落地的绝佳舞台。数字人技术让会员店无需投入大量人力物力进行直播,大幅降低场地租赁、设备购置、人力资源等成本培训。同时,数字化工作人员可以24小时进行直播,进一步增加产品曝光时间和销售机会,提高财务回报。然而,传统的数字人生成技术往往面临语音、语言和视觉多模态分离的问题,表现为线条僵化、语音语调与线条情感匹配不佳、面部表情和手势独特等。百度首席技术官王海峰表示,为了解决数字人应用痛点,百度创新开发了高保真数字人技术、基于脚本的多模态协作能力。剧本的基础是对话。台词的生成不仅与内容的结果相匹配,而且与演讲者的个性和语言风格相匹配,保证了语言表达的个性化和连贯性。多个主播场景也需要实现整体协调语义逻辑、语调节奏和情感风格。同时,提高台词内容深度,应引入内容规划、知识丰富和事实核查机制,降低人工智能错觉的风险。据了解,大模型可以直接生成真人数字广播脚本。脚本带有“视觉标签”和“音频标签”,可以告诉系统角色应该根据对话采取什么行动。浓厚的兴趣度是电商直播场景的一大特点。在与观众互动过程中,语音合成的自然程度是决定用户沉浸感的重要因素。观众希望听到演讲者情绪化、上下起伏的声音,而不是死板、机械的朗读。王海峰表示,针对这一需求,百度提出了“文本控制语音合成”的解决方案。大规模文本控制的语音合成模型不仅具有较高的弹性语音合成功能,还可以结合直播台词和主讲人的个人特点,将这些文字内容转换成自然且富有感染力的声音,让数字人员不仅能发出声音,还能准确传达嘲笑、自豪、强调等微妙情绪。数字真人主播在直播过程中除了与用户互动之外,还必须与产品、空间进行物理和逻辑上的互动。我们怎样才能做到这一点?高度一致的人体长度超写实数字视频生成技术能够分析和理解历史视频数据、脚本、音频信息、骨骼脉冲等多模态输入信号,并在此基础上生成高表现力片段、复杂的“人-物-场”交互片段以及大动作、大表情的片段。系统可以在很长一段时间内一致地对这些剪辑进行编程,从而确保声音、嘴型、面部表情和动作总是高度一致和同步的。如今,数字人正逐步从实验室走向各种应用场景,商业化进程显着加速。深度思考和多模式交互等关键能力的进步预计将使越来越多的数字人类出现在屏幕上并进入人们的生活。同时,业内专家表示,《直播电商监督管理办法(征求意见稿)》要求对人工智能等技术生成的人物图像、视频进行直播。直播间经营者在用于营销活动时,应在直播页面显着位置标注,不断提醒消费者,人物图像、视频是人工智能等技术生成的,并建议明确区分。名字和我自然人法师。中国科学院信息技术研究所高级工程师韩子忠表示,人们在接受数字人技术的同时,也要划清界限,避免使用高保真的技术来掩盖其真实性,达到欺诈或虚假宣传的目的。技术发展必须与法律和道德约束并行,以保持创新走在正确的道路上。 (记者杜鹏)

你也可能喜欢

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注