一文带你轻松掌握AI绘图技术 时快讯
AI绘图并不是近几年凭空出现的新技术,但是在短短几个月就突然之间就火了起来。这种突然火爆,背后原因是什么呢。
一方面基于扩散模型(Diffusion Model)的底层技术,给AI绘图带来了突破性进展。不仅加快了AI的学习速度和效率,还让AI作画实现了由文字生成图像的功能,图像质量也得到了大幅提升,甚至可以达到直接应用的水平。
(资料图片仅供参考)
另一方面,以Stable Diffusion,NovelAI,Midjourney为代表大量AI绘图产品对大众开源使用,降低了使用门槛,催生出了使用AI绘图的大量用户,更多使用场景扩展到了人们生活里,从而引发了更多的讨论。
为什么 AI 可以听懂我们的描述?在我们输入文字到最终 AI 产出图像之间,到底发生了什么呢?
· 数据训练 Traning Data
要使AI的图像生成器响应如此多的关键词提示,需要一个庞大的多样性的数据库去训练AI。开发人员从互联网上数以亿计的图像中抓取训练素材,抓取的每张图像都会标注对应的文字描述信息,而这些图像都是以数据的形式(RGB的像素值)在计算机上呈现给AI的,图像数据组成的数据库会构成AI认知图像的基础,并对其进行将文字和图像信息相关联的训练。
· 深度学习Deep Learning
虽然有庞大的训练数据库,但是AI 最终生成的内容并不源自于素材图像内容的直接抓取和拼贴。而是来自深度学习模型的数据计算。整个学习过程,是模拟人类神经元系统的原理。通过反复判断和纠正功能得到真确答案,他所要学习去做的做的事情就是将每一张转化成像素点阵数据的图片内容与相应的文字描述相匹配。
经过无数次算法推算后,AI最终可以找到一种可行的方法。将像素排列的规律与对应的文字描述结合起来,从而理解怎样的像素排列规律,怎样的像素排列规律代表香蕉,怎样的像素排列规律代表苹果,怎样的像素排列代表梵高的艺术风格,进而推演到理解所有训练图像的像素排列规律所代表的意义。
· 潜在空间Latent Space
深度学习模型学习了所有训练数据之后,提取物体的各种特征变量(形状,颜色,光泽度,时间,年代,艺术风格、艺术流派、艺术家...)构建多维度数学空间,这个空间具体包含了具体多少个维度我们无法想象,它涵盖了我们所能描述的一切特征,以及很多潜在的我们无法识别和理解的变量,空间里的每一个维度都有它的意义,比如有一些维度代表了梵高作品的内容,表现力,风格;而另外一些维度描述了各种猫的特点和外貌,所以当我们输入关键词“梵高的猫”的时候,AI就会从空间中寻找这些维度的错增复杂交点作为配方,生成一系列我们想要的图片。
· 扩散模型Diffusion Model
将数学空间中的交点转换为像素排布的实际图像还涉及一个关键的过程,这个过程就是大名鼎鼎的Diffusion model(扩散模型),Diffusion model的原理,简单来说就是不断地对一张图像加噪处理(这些噪点来自文字描述和参考图片信息转化的数据),直到这张图像变成彻底变成不能辨认的样子。然后,人们再让AI模型尝试着一步步地将其还原成为最初的样子。而当AI模型能够从这样的一团噪声中解析出来正确的图片,也就意味着AI掌握了“无中生有”的能力。
当然,这个过程中还有,担任这个连接器的东西叫CLIP(Contrastive Language-Image Pre-training)当我们输入了文字描述时,CLIP就会产生一个相应的结果“A”(学名叫“表征”)。与此同时,diffusion model里也会随机生成一张图片,而CLIP也会给一个相应的结果“B”。然后,通过不断地计算A和B的相似程度,让A和B无限接近, 最终就能够实现“A=B”,也就是让我们输入的描述和电脑生成的结果一模一样。
不可否认的,AI正在以难以想象的速度飞速发展,也会必然会对设计和艺术工作者造成正面冲击。未来可能会逐步替代一些程式化的轻脑力环节,但是新的技术产生的同时也一定会带来相应其他供需关系。
面对新趋势,我们要直面变化,探索与AI 协作共赢的工作方式,参与到新技术的应用与改革过程中。
保持想象力和创造力,保持对AI的敬畏,相信没有艺术,只有艺术家。
福利时间:公众号后台回复“咒语”获取1000+midjourney热门关键词。
扫码进群
转载时请连同下方内容一起转发
请与该公众号联系获取内容授权
长按二维码 轻松关注
微信公众号:i58UXD
58同城用户体验设计中心