GPT-4o绘图功能火爆出圈，能否成为Midjourney等垂类应用的终结者？

发布时间：2025-04-14 19:00 来源：ITBEAR 作者：苏婉清

在科技界的一次重大突破中，OpenAI公司宣布了其最新成果GPT-4o的多模态图像生成功能正式上线。这一创新意味着用户无需再切换至OpenAI的DALL-E模型，即可直接在ChatGPT应用中生成并修改图片。这一消息迅速在社交媒体上引发轰动，尤其是吉卜力风格的图像在各大平台上疯传，一股二次元风潮席卷互联网。

不仅仅是吉卜力风格的图像，GPT-4o的绘图能力更在于其打破了传统文生图领域的格局。过去，Midjourney等垂类应用在这一领域占据主导地位，但GPT-4o的加入为市场带来了前所未有的挑战。其强大的控图能力让用户能够通过自然语言与AI进行多轮对话，精准修改图像，这在以往是难以想象的。

GPT-4o之所以能够超越Midjourney等专业应用，关键在于其独特的策略。它并没有直接比拼艺术领域的图像生成质量，而是在应用门槛、修图改图以及跨学科能力上实现了弯道超车。GPT-4o通过提升自然语言对话能力，使得用户无需掌握复杂的结构化提示指令，只需用日常口语即可生成想要的图像。例如，用户只需说“帮我生成一幅清晨茂密森林里的彩虹瀑布”，GPT-4o就能迅速理解并生成相应图像。

GPT-4o还具备多模态能力，支持图生图和图改图功能。用户可以上传自己的图片，无论是AI生成的还是自拍，都能进行多次修改。这包括调整图像的分辨率、色彩、背景等，甚至可以在原图上不限次数地修改，直到满意为止。这种灵活性使得GPT-4o在修图方面远超Midjourney等传统应用。

GPT-4o的跨学科知识储备同样令人瞩目。它不仅能够生成各种风格的图像，还能解答数学问题、做物理题，甚至还原建筑草图。这种全面的能力使得GPT-4o成为一个文理双全的全能型选手，远超过局限于艺术领域的Midjourney。

GPT-4o的火爆出圈不仅吸引了大量用户，也引起了同行的关注。Midjourney的CEO大卫·霍尔兹在GPT-4o上线一周后便发文称，Midjourney-v7即将上线，以应对这一挑战。然而，无论最终结果如何，GPT-4o已经成功地冲出了设计师的小众圈子，走进了大多数人的工作场景。

GPT-4o之所以能够如此受欢迎，关键在于其降低了应用门槛并提升了模型产品的质量和效能。用户无需任何艺术功底和AI基础，只需像与朋友对话一样交流即可修图。同时，GPT-4o的生图和改图速度更快，控制性更高，能够完全还原用户的指令。这使得GPT-4o不仅具有娱乐性，更具备了强大的工具属性，可以应用于电商、教育、建筑、设计等多个行业。

更多>同类内容