您的位置 首页 科技

数字内容“遍地开花”,AI技术如何创新“造梦”?

文 | 智能化量子论 创作者 | 陈泊丞 这也是央视春晚西安市主会场《山河诗长安》的一幕:“诗仙李白”出世,带领观众齐颂《将进酒》,将我们中国人内心深处的豪…

文 | 智能化量子论

创作者 | 陈泊丞

这也是央视春晚西安市主会场《山河诗长安》的一幕:“诗仙李白”出世,带领观众齐颂《将进酒》,将我们中国人内心深处的豪情和浪漫演绎得淋漓尽致。

这确实是浙江省义乌市产品市场里的另一幕:会说好多个英语单词的美女老板瞬间变成外国语大咖,切换自如36国表达流畅详细介绍自己家产品,玩命卖货。

这一幕幕令人惊奇的界面,造就了今天中国文化艺术、商业不断爆红。而一切背后,都有着相同的适用:AI技术赋能数字产品生产制造与应用。

近些年,伴随着AI大模型科技的不断升级与创变,数字产品生产制造及应用的态势更加强烈,现实场景与数字产品不断融合,发生了改变着整个内容生产领域的局面,乃至进一步推动了相关行业和商业新变革。

技术革新重构数字产品生产制造及应用新形态

虚拟数字人“诗仙李白”的深情演绎、义乌市女老板的AI卖货——这种热点事件背后,是技术革新提升所带来的结果。AI大模型的发展运用,让愈来愈多不同类型的数字产品得到暴发,并普遍进入大众视野。

在6月21日举行的华为开发者大会(HDC 2024)上,华为云服务盘古大模型迈入5.0版本更新,在其中盘古开天新闻媒体大模型在语音形成、视频生成及其AI汉语翻译上技术革新就重塑了数字产品生产与运用的新形态。

比照以往的技术能力,新技术所带来的效果是非常显著的。

一、视频语音形成升阶:仅需三言两语,沉浸式体验、现实感的语言轻而易举

以往的语言形成依靠传统声音克隆实体模型,因为实体模型非常小,精度低等因素,通常在实际操作就要复杂得多。例如,在数据采集环节,对目标人物的语音数据就要尽可能的多元化,包含不同类型的说话速度、语气、声音和不同语境下的视频语音,要用到几百句话的录音。

然后到了预备处理环节,必须对收集的语音数据进行清洁,根据人工标注等方式清除噪音、降噪精彩片段和其它没有用的一部分。从而也要进行视频语音切分,将连续不断的音频数据切成比较小的视频语音精彩片段(如语素或英语单词)。最终提取音乐特点,再用以后续响声模型。

之上,也仅仅是数据采集和预备处理,尚未进入真真正正的语言形成环节。但其中工作量和实际操作复杂性就已经很大了,对视频语音产生的效率和效果都是一个非常大的危害与挑战。

直到现在,伴随着技术创新,根据更完善的实体模型,例如盘古开天新闻媒体大模型的语言形成水平,这一问题得到很好的处理。只需两三句、几秒的声响,AI就可以学到个性化音质、语气、表述律动,从而得到高质量人性化视频语音。与此同时,还提供了所有喜怒哀乐等拟人化情绪视频语音,闲谈、新闻报道、等互联网10多种多样语调设计风格,让形成的语言更准确、更具情感色彩,能沉浸式体验地运用到不同的场景中。

例如,在媒体译制中,AI将可以做到配音员的专业程度——根据盘古开天新闻媒体大模型所提供的视频翻译水平,AI能把视频翻译为目标英文,并保留初始人物角色的音色、情绪、语调。华为云服务正在积极协同小伙伴逻辑性智能化,打造出高爱情视频语音复制及其14国小语种专业配声,共同打造高爱情超拟人化跨模态音频应用技术等。与此同时,再根据盘古开天新闻媒体大模型的嘴型推动实体模型,还能实现音唇同歩,特别是在侧边、多的人会话、物件挡住及其角色挪动等场所,也可以做到非常好的嘴型配对。

二、视频生成超越:仅需几十张图,可控、一致的短视频垂手可得

传统视频生成技术的应用数据需求、数据、时钟频率一致性、物理定律遵循、效率和质量平衡、可操控性、逼真度和衔接性以及应用限定等多个方面都存在一定的局限。现如今,根据盘古开天新闻媒体大模型,只需练习几十张特殊美学风格的照片,如吉卜利、二次元等风格,再键入实拍视频就能快速形成该样式的漫画视频。

除开根据需求时间形成相对稳定的漫画视频,然后通过ID一致性模型,还会对形成画面中关键角色开展一致性解决,保证视频里人物角色外貌特点在前面一帧与后一帧中常呈现的效果自始至终一致,在侧颜、轨迹下视觉效果有效一致,从而提高AI视频生成的可操控性、一致性,让短视频内容更科学、真正。

除此之外,业界对视频生成的真实性、复杂性同样在对焦提高。例如,OpenAI的Sora已经尝试仿真模拟繁杂的监控摄像头移动镜头,与此同时清晰地维持角色视觉风格一致,让AI创作作品数字产品更为趋向实际写作。英伟达显卡更加是发布了一系列技术性模块如ACE(NVIDIA Avatar Cloud Engine)、NeMo™及其RTX™等,去提高数字产品的真实感,让数据角色之间的互动、会话更复杂、真实。

三、AI汉语翻译加强:精确性>93%,实时、跨语言交流为期不远

从前的机器翻译系统通常是根据统计模型或标准模型建立的,因而汉语翻译结论大多数不能与全文一致,看起来生涩、生硬,不具备运用到不同的场景的前提条件。目前,华为云服务根据AI完成多种语言即时传译,精确性>93%,可适用于即时语音通话、云会议等都需要即时翻译情景。

与此同时,根据盘古开天新闻媒体大模型的语言还原、AI文字转换及其TTS技术性,就能够完成语音的同声翻译,取得成功实现跨语言表达汉语沟通交流感受。乃至还可以结合虚拟数字人技术性,让虚拟数字人模拟客户讲话,融合嘴型实体模型技术性保证嘴型与响声精确匹配,让AI汉语翻译、数据人和视频语音形成相对高度融合用以网上召开会议、跨国贸易交流等场景下。

科技的“短板”在收拢?

科技的创新和突破增添了数字产品生产制造与应用全面爆发,但另一方面伴随着生产制造与应用的过程加快,对应的技术难题同样在发生,且要持续收拢、对焦。现阶段,AI大模型在数字产品生产制造与应用方面的问题关键展现在三个层面。

其一,能源与运算效率短板。现阶段,大模型推理的算率剂量仍在进一步增大,从GPT-3到GPT-4算率剂量增加了68倍。伴随着锻炼的token数、网络参数提升,大模型推理所需要的运算量也要随之增加。

更为关键的是,背后的成本支出是步履维艰的。依据测算,练习一个5000亿主要参数体量的Dense实体模型,基本算率设备资金投入约10亿美元,无故障运行21月,水电费约5.3亿人民币——这远远超过了公司的承受范围。

可是,如果你想要产业化地生产制造高质量数字产品,大模型的精湛又是非常必要的途径。在这个时候,业界开始寻求更有效、更优的算率解决方法。像华为云服务昇腾AI云服务器就在那致力于为客户提供便捷、实用的算率服务项目,在算率方面不断革新计算能力和运算效率,提供包括云生态算率、模型开发、实体模型代管到生态系统全栈开发服务项目。

其二,优化算法架构提升考验。伴随着大网络参数的提高,需要实现更好的数值的输出更优的回答,那其解决的时长就会不断延期的。可是,这实际应用中是一个困惑数字产品生产与运用的明显难题,非常不利于数字产品的产业化、商业化的发展趋势。

从而,业界也逐渐在算法架构上进行改善,调节计算逻辑、处理办法来达到更优质实际效果。在其中,以稀少激话体制为代表MoE实体模型就是目前AI行业的一个聚焦点,类似“术有专攻”的发展理念,稀少激话体制根据对业务每日任务进行拆解,分类整理,初次分配给特定“权威专家”(Experts)予以处理,最后综合性权重计算导出——成功实现了运算效率提升,也使输入参数更全面、强劲。

其三,安全和伦理问题。大模型内部结构运作模式繁杂,制作出来的具体内容缺乏可解释性和可操控性,又会受对抗样本进攻,存有管控难点和网络安全问题。对于此事,在数字产品生产与运用中,有关的安全伦理问题随着行业的广泛发展趋势而逐步显出。

因而,在数字化内容行业飞速发展的环节,虽然公司能吃到数字产品市场红利,但需要辨别实体模型安全性、稳定性,避免因为实体模型的安全伦理问题从而引发负面舆情危害。在这种考验下,华为云服务盘古大模型也随即做出更新,在大数据应用、安全合规等多个方面达到较标准化。

以创新“造梦”,数字产品来日可期

新形态的确立产生更明确的技术方向,对整个数字产品行业来说,这就意味着未来发展有了基本的雏形,市场前景仍然是积极乐观的。可是,不可忽视的是,技术性的瓶颈客观现实,且更突出,摆放在领域眼前的依然是一条较为严峻的发展道路。

虽然撇开技术难题不说,在实际的在实践中,数字产品的生产和运用也不简单,通常都要面对很多在研发以外的具象化难题,仅有根据难题去一步步处理才有可能进行落地式。

华为云服务团队在开展纪实片译制的时候就发觉,新项目具体开展起来会碰到这样那样的问题,例如环境声音很杂很乱,AI没法准确识别人声伴奏确保中文谐音的完整性,或者伴随着场景下的转换,角色的情况、嘴型都呈现出不同的模样,必须AI准确地配对等。

假如各种问题不一一解决,AI译制的效果就打个极大地折扣优惠。对于此事,华为云服务团队通过深入分析难题,选择不同的技术性去解决各类微小难题,比如用分离出来实体模型技术让环境声和人声伴奏分离,根据嘴型实体模型技术性让声音与嘴型精确匹配等。

技术性也许一直都有,那么如何用刚好才算是项目建设的关键所在。也就是说,在今日数据内容行业飞速发展、技术革新加快迭代的环节,仅有实践了才能做到真正促进市场的发展。这是一个大比拼工程项目的环节,哪家的工作经验越多,越会了解相关的技术该如何运用才能发挥出应有的效果。

现阶段,中国电影集团与华为云服务协作,将新闻媒体大模型运用到影视工业,携手共建影视剧译制大模型,根据AI将视频译做成不同语言,并保留初始人物角色的音色、情绪、语调,还可以适用嘴型配对,为影片译制提供全新的AI制作工艺。

今日,数字产品迈入爆发,愈来愈多精彩文章问世的另一面往往是厂商们持续应用技术性、认证技术性、健全技术性的一个过程。将来的新项目之途任重道远,与此同时也是行业变得成熟的必经之路。静候技术的应用创新中、在实践中不断升级、健全,将来便迅速能看到一个数字产品丰富多彩,好似梦境一般世界。

*文中图片均图片来自网络

本文来自网络,不代表热点新闻立场,转载请注明出处:http://www.redianxinwen.cn/14401.html

作者: admin

为您推荐

发表评论

邮箱地址不会被公开。 必填项已用*标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: 2562541511@qq.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部