ChatGPT有了很大的升级。这次谁会恐慌?

日期:2023-10-17 14:50:08 / 人气:150


工人们,你们好!现在我相信有一个问题非常困扰大家:
今天星期几?
连续休息后踏入7天班,无论是早上定好的几个闹钟的群殴,还是假装对着电脑全神贯注,脑子里都跑出了云朵。
以上由不二子步雄和鸟山明等日本顶尖漫画家带来的画作当然可以充分描述你的现状。
哦,我犯了个错误。上面的画不是漫画家自己画的。它们是由内置DALL-E 3的ChatGPT Plus创建的。
虽然不是为了祖国的生日礼物,但是在刚刚过去的长假期间,OpenAI确实为Plus用户开放了以下新功能:
以bing搜索的能力,因效果不佳暂时下线,这次又恢复了;
默认模式允许上传图片并识别图片内容;
增加了DALL-E 3模式。
其中DALL-E 3还没有普及到所有的ChatGPT Plus订阅用户,但是娱乐资本Vision Future手中的账号已经开通了上述所有能力。
有些Plus用户虽然续费了,但是看不到所有这些功能。此时,阅读我们下面的简单介绍和入门指南是非常重要的。
可以说这里面的每一项能力都是ChatGPT用户这半年来期待已久的。但是它们的实际效果如何呢?它们真的能融入我们的日常工作流程吗,会对市场上的竞品构成重大威胁吗?
娱乐资本视觉未来一直是娱乐和内容行业读者的亲密朋友。无论是科普、测评还是培训,我们始终坚持一个原则:像在实际生产过程中一样测试和使用AI工具,而不是单纯追求它“卖弄技巧”。
不管是骡子还是马,现在就拉出去遛遛吧。
第一卷
Bing搜索
在进入大家关心的图像能力之前,我们先来看看重新上线的Bing联网模块。
上个月,娱乐资本Vision Future刚刚完成了大规模文本模型实用场景的第二轮交叉评测。读者应该还记得,在那次测试中,GPT 4号在不联网的情况下性能依然稳定。但在使用VoxScript等插件连接互联网时,性能甚至比一些大型国产机型还要差。
我们也分析了相关原因,主要是其他第三方插件在与Bing官方联网插件无法使用的情况下不稳定,不均衡。
官网的回归让我们期待它的表现会比以前好,但实际上也好不到哪里去,很难被称为提供了全面准确的答案。
而且,不像使用插件连接互联网,在回答问题时不再允许你看到它访问了哪些网站。所以当结果不理想的时候,是无法找出原因的。
当然,GPT支持生成更长的提示和答案,而必应只支持几百字的短答案,但联网也会占据GPT 50次的限制——每三小时4次。所以有时候你用AI在Bing官网搜索,效果可能会更好。
所以就这样了,下面进入主事件。
第二卷
DALL-E 3图纸
现在我们可以回顾一下本文开头的三张图。
这三张图片最后的效果都很优秀。可以说在本次更新之前,文圣地图的所有工具中,只有Midjourney能达到这个水平。当然,我们一直认为竞争对手达到MJ的高度是迟早的事,但DALL-E 3的出现比我们想象的要早得多。
当然,ChatGPT引入图像生成的最大改进不仅在于生成的效果,还在于生成的过程。
我们知道,和文字相比,SD和MJ的提示词都是不能随便写的。它们有更多的规则、格式甚至“咒语”,在生成图片中起着重要的作用。正如我们AIGC大师班指出的,一些画风,艺术家名字,效果灯等。需要具体说明,这些话酝酿出来的结果就像炼丹一样。
在今天的ChatGPT,这些事情都是过去的事情。我们现在用的方法会更接近于请一个人类画家来做事,我们说的话会更接近于自然语言。GPT-4承担翻译工作。
ChatGPT会根据用户的需求一次提供四种不同的真相提示,导入DALL-E生成四种不同的图片。这比单个提示生成的四个变体更完美,你也可以指定其中一个继续微调,虽然效果可能不尽如人意。
我们来来回回思考一下,文章开头的那幅画是怎么生成的。
首先,这是我们看到一个有意思的梗图,想自己画一个的时候,非常常见的使用场景。
然而,在DALL-E 3之前,我们似乎很难想象除了Midjourney之外还有什么工具可以产生更好的结果。
点击发现每张图片的提示都不一样。
虽然AI画图中嵌入字符的问题还没有完全解决,但是你可以看到相比之前的版本已经有了很大的进步。这时候我们甚至可以用Windows自带的“画图”给它添加合适的字体。
其他图片也差不多:
显然,如果我们想用传统的方法,我们有必要用我们自己的大脑来生成提示词,但现在GPT承担了这一重要任务。当你点击一个特定的图片,你可以看到它使用了哪些提示词,并复制它们。当生成的结果有问题的时候,我们也可以通过分析提示词的构成来发现问题以及是否有改进的可能。
由于映射的完成度很高,可以对图像中不需要的部分进行裁剪,嵌入文字,甚至只需要Windows自带的画图就可以完成。
在接下来的测试中,我们发现如果你的指令非常简单,那么ChatGPT生成的作品可能会有一些刻板印象和对东亚文化元素的挪用。例如:
请创作一张海报来庆祝中国的三八国际妇女节。主题是:“为党圆梦,复兴国家,勇往直前”,但海报中不需要出现任何文字。
接下来我们尝试用bing搜索来总结如何优化提示词,让生成的效果更贴近我们的需求。
尽管如此,如果你直接要求ChatGPT更改地图,还是有很大概率不会直接按照你的要求更改,这反映了DALL-E 3在识别提示方面的局限性。
如果你点击它改变的提示,你会发现它不是提示,GPT实际上已经尽了最大努力。因此,最好在后期手动修改一次生成的地图。
现代上海芭蕾舞演员的油画,优雅地在外滩附近的标志性建筑前摆好姿势。在背景中,有一面没有任何标志、星星或符号的普通红旗在风中飘扬。场景以红色和金色为主,底部为潜在文本保留了一个空白空间。
即便如此,我们还是得到了一些最终效果不错的图片。
上述试验过程代表了一个大趋势,即提示微调的作用大大降低,我们给AI的指令会越来越接近自然语言。
第三卷
GPT-4地图阅读
ChatGPT另一个最受欢迎的新功能当然是识别图片的含义。
在最近的一些测试中,GPT-4可以读出一些幽默或寓言故事的潜台词,并分析图片中人物的心理和情绪。当然这些都是重大突破,但总体来说还是“套路动作”。
我们想看看它是否能做更多有趣的事情——比如看x光片。
医学影像行业会被取代吗?实际结果远没有这么乐观。
我给了GPT一张有问题的x光片(我不想把原图放在这里,因为那是我自己的x光片)。人类医生可以在右下颌骨看到一颗断裂的牙齿和一个牙源性囊肿,但GPT没有发现任何问题。
回头看上面的网络图,它的问题也是一样的。它知道是牙片,但没有别的东西。它倾向于报喜不报忧,对不可见、不确定的事情毫不在意,这与“百度一下,我觉得我快死了”正好相反。
看来影像科看片子的人类目前可以继续高枕无忧了。
在不太严肃的问题上,比如翻译一个外语广告牌,它是胜任的。你可以将这一结果与纪娜的同类产品进行比较。人工智能
翻译确实是ChatGPT的强项,图像识别让这个优势更加强大。但是,它能胜任多少,取决于它的基础知识的积累。在不太熟悉的领域,比如维吾尔语的翻译,它还是“胡说八道”。
接下来的测试可谓效果惊人。我们在一个设计师常用的网站上找到一些网页和app的渲染图,然后让它直接生成一个真正能在浏览器中打开的网页代码。
它完成了任务——太棒了。
虽然没有完整的效果图复制,但是如果我完全不知道前端代码,想从头开始,那么它已经使我能够做出一个可用的东西。甚至因为其实现与效果图的细微差异,可以说是为原作“洗稿”。这可能是运用GPT发散思维能力的最佳案例。
经过4-5次及时调整后,成品如下:
可以说,口头修改的成功率远高于之前的预期,无论如何,也比不断微调代码要简单得多。通过这种方式,作家可以尝试以一种前所未有的简单方式建立自己的作品集或个人网站。
第四卷
谁会恐慌?
让我们回顾一下我们做过的这些测试:
不需要懂英语,可以让DALL-E 3用自然语言绘画,效果接近中旅;。
可以读图,在流行语言之间翻译图像内容;
把绘制好的界面图转换成真实的网页,不需要前端技术就可以设计自己的网站...
这些演变给人最大的感觉就是意料之外,情理之中。仔细想想就会发现,这些功能不过是巧妙的利用了GPT-4原有的基本能力,将原本各自为政的不同模式组合起来,化腐朽为神奇。
在阅读和绘图的时候,GPT还是会补上,所以你还是需要你的专业知识去补充那些它不知道的地方,去核对事实,决定如何剪裁和应用它的答案。
这进一步加强了我们对GPT的了解。它是现有从业者的工具,可以提升你现有的能力,但你无法独立生成知识,只能按照你的想法去操作。
ChatGPT不会取代我们的大部分读者,但会更好地帮助我们。然而,当然,有些人看到这些进步后会感到真正的恐慌。
"
一个
比如我们一直在对比的Midjourney:对于普通用户来说,既然已经有了一个和MJ一样效果的工具,数量几乎是无限的,也不需要额外花钱,为什么还要再买MidJourney呢?这种组合将用户更深地绑定到OpenAI系统中,并使GPT每月20美元的月费越来越值得。
"
2
比如国内各种大模型的开发者:绘图精度,语义理解。目前ChatGPT是最强组合,这让GPT与国内大车型的差距似乎更加难以逾越。不过开源领域还是可以迎头赶上的,类似于LLaMa的图片应用LLaVA也出现了。
"

例如,由第三方集成服务的开发者可能需要重新思考他们的发展方向。例如,虽然不是所有的大型模型都有多模态空间,但是可以在第三方应用程序中智能地调用最合适的模型来执行相关任务。这样,用户将能够在各个领域使用最优的解决方案,我们之前采访过的纪娜正在做这项工作。
我们期望第一方或第三方服务能够真正将分散在不同模式中的现有能力结合起来,而不是将它们彼此独立放置。
ChatGPT的进步表明,Openai或MJ设置的壁垒并非绝对牢不可破,只是后来者需要几个月、半年或一年的时间才能赶上。对于后来者来说,坚持下去,不破产,可能才是胜利的关键。"

作者:杏彩娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT © 杏彩娱乐 版权所有