在科技界的一次重大突破中,OpenAI公司宣布了其最新成果GPT-4o的多模态图像生成功能正式上线。这一创新意味着用户无需再切换至OpenAI的DALL-E模型,即可直接在ChatGPT应用中生成并修改图片。这一消息迅速在社交媒体上引发轰动,尤其是吉卜力风格的图像在各大平台上疯传,一股二次元风潮席卷互联网。
不仅仅是吉卜力风格的图像,GPT-4o的绘图能力更在于其打破了传统文生图领域的格局。过去,Midjourney等垂类应用在这一领域占据主导地位,但GPT-4o的加入为市场带来了前所未有的挑战。其强大的控图能力让用户能够通过自然语言与AI进行多轮对话,精准修改图像,这在以往是难以想象的。
GPT-4o之所以能够超越Midjourney等专业应用,关键在于其独特的策略。它并没有直接比拼艺术领域的图像生成质量,而是在应用门槛、修图改图以及跨学科能力上实现了弯道超车。GPT-4o通过提升自然语言对话能力,使得用户无需掌握复杂的结构化提示指令,只需用日常口语即可生成想要的图像。例如,用户只需说“帮我生成一幅清晨茂密森林里的彩虹瀑布”,GPT-4o就能迅速理解并生成相应图像。
GPT-4o还具备多模态能力,支持图生图和图改图功能。用户可以上传自己的图片,无论是AI生成的还是自拍,都能进行多次修改。这包括调整图像的分辨率、色彩、背景等,甚至可以在原图上不限次数地修改,直到满意为止。这种灵活性使得GPT-4o在修图方面远超Midjourney等传统应用。
GPT-4o的跨学科知识储备同样令人瞩目。它不仅能够生成各种风格的图像,还能解答数学问题、做物理题,甚至还原建筑草图。这种全面的能力使得GPT-4o成为一个文理双全的全能型选手,远超过局限于艺术领域的Midjourney。
GPT-4o的火爆出圈不仅吸引了大量用户,也引起了同行的关注。Midjourney的CEO大卫·霍尔兹在GPT-4o上线一周后便发文称,Midjourney-v7即将上线,以应对这一挑战。然而,无论最终结果如何,GPT-4o已经成功地冲出了设计师的小众圈子,走进了大多数人的工作场景。
GPT-4o之所以能够如此受欢迎,关键在于其降低了应用门槛并提升了模型产品的质量和效能。用户无需任何艺术功底和AI基础,只需像与朋友对话一样交流即可修图。同时,GPT-4o的生图和改图速度更快,控制性更高,能够完全还原用户的指令。这使得GPT-4o不仅具有娱乐性,更具备了强大的工具属性,可以应用于电商、教育、建筑、设计等多个行业。