首页

加入收藏

您现在的位置 : 首页 > 最新资讯

苹果联手加州大学研究人员推出AI图片处理模型初显技术家底

时间:02-09 来源:最新资讯 访问次数:136

苹果联手加州大学研究人员推出AI图片处理模型初显技术家底

财联社2月8日讯(编辑 史正丞)看着三星刚发布的AI手机“画个圈就能编辑图片”,iPhone用户只能无奈地咽下口水。但最新论文却显示,苹果公司在AI领域的储备,显然要比市场预期得丰厚不少。苹果与加州大学研究人员在本周刊发的论文中,公开了一项基于多模态大模型,能根据自然语言指示进行图片编辑的开源“MGIE”AI模型。开发人员直言,这个AI能够进行“Photoshop式的修改”、全局优化和局部编辑。(来源:arXiv)这项研究的突破之处在于,虽然现在多模态大语言模型(MLLMs)在跨模态理解和视觉感知响应生成方面表现出了卓越的能力,但尚未被广泛应用于图像编辑任务。而从这篇论文给出的一系列演示来看,光是MGIE展现出来的AI图像编辑能力,就足以推出一系列有趣的AI应用。这个AI能做什么?使用多模态大语言模型编辑图像有两个好处:首先,模型能够将自然语言指令翻译成更容易让机器执行的命令。例如用户输入“让图片背景的天空更蓝一些”时,MGIE会将提示词转化为“将天空区域的饱和度提高20%”。其次,多模态大语言模型在视觉想象力、图片生成等模块本身也具有一定的优越性。论文也给出了不少示例:比如,“让图中食物变得更健康一些”,AI就会在纯肉披萨上,加一些小番茄和香草叶。还有网友们需求极大的“P图”功能:将背景里的人去掉,这个AI也能抠得干干净净。从多个同类AI的表现对比来看,MGIE在理解指令(例如在甜甜圈上覆盖草莓酱淋面)和执行P图命令(增亮、锐化图片)方面,也展现出了业界顶级的效果。(注:从左往右数,第一张为原图,第四张为MGIE输出效果)目前MGIE的开源文件已经被论文第一作者、加州大学圣塔芭芭拉分校的Tsu-Jui Fu上传到Github上,同时在“抱抱脸”平台上开放了试用demo。论文显示,Tsu-Jui Fu曾在2023年夏天在苹果公司实习,MGIE的研究工作也是在那个时候完成的。围绕苹果的AI争论MGIE和这篇论文,也展现了苹果公司近些年来在AI领域确有相当水平的积累。在被华尔街诟病“没跟上AI时代”,以及科技爆料人嘴里“苹果高层惊慌失措”后,前不久才从世界市值第一上市公司的位置上掉下来的苹果,势将在今年对外展示iOS如何使用AI。外界普遍预期,每年6月苹果披露最新软件成就的WWDC,今年将会成为发布AI产品的主阵地。在今年2月1日的财报电话会上,库克也明确表示,公司在生成式人工智能方面正在开展大量工作,同时在今年晚些时候,苹果将讨论一些“让我们感到无比兴奋的事情”。值得一提的是,苹果公司在机器学习等领域一直都有投入,但在产品宣发层面却不太喜欢使用AI这个词。在去年WWDC上,苹果发布能够自动修正拼写错误的键盘功能,底层技术正是与ChatGPT类似的transformer模型,但是苹果在发布会上完全没有提AI,仅使用了更为学术化的称呼——机器学习。

本信息由网络用户发布,本站只提供信息展示,内容详情请与官方联系确认。

标签 : 最新资讯