在近日于上海新国际博览中心圆满落幕的VisionChina2025(上海)机器视觉展上,北京阿丘科技的产品总监李嘉悦带来了一场别开生面的演讲,主题聚焦于“大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化”。此次展会由机器视觉产业联盟(CMVU)主办,慕尼黑展览(上海)有限公司承办。
李嘉悦在演讲伊始便介绍了自己的身份,并随即展开了《大模型驱动的AI检测范式变革:大模型、小模型与智能体的协同进化》的主题分享。她指出,2019年被视作工业AI视觉的元年,当时以小模型路线为主的CNN技术开始在早期客户中得以应用。直至2024年,工业AI视觉一直在跨越鸿沟,逐渐在各大细分领域和市场普及,从头部客户逐渐覆盖至腰部客户,甚至在某些细分行业已成为标配。然而,尽管认知有所改变,AI检测应用的增长速度却相对缓慢,呈现出线性增长趋势,这主要源于小模型技术路线存在的诸多问题,如样本收集周期长、模型迭代周期长以及模型泛化能力差。
她进一步解释道,工业缺陷样本稀缺且收集周期长,非专业工程师在调优模型时常面临不收敛的问题,导致AI落地周期延长。小模型的泛化能力不足,对于未见过的样本往往无法准确识别,这又加剧了样本收集的难题。这些问题成为制约AI检测落地和增长的关键因素。不过,令人振奋的是,去年AI领域出现了重大技术突破,通用大模型如雨后春笋般涌现,从OpenAI的ChatGPT到豆包、Kimi,再到DeepSeek和Manus智能体,这些大模型引发了广泛讨论,标志着AI技术来到了突破点。
谈及大模型在工业检测中的应用,李嘉悦表示,存在两种截然不同的声音。一种保守观点认为,大模型与工业检测无关,无法适应工业场景严格的准确性要求;另一种激进观点则认为,大模型能力强大,很快即可直接接入工厂,实现自动化质检。而阿丘科技则认为,大模型将加速AI检测范式的转变,并与小模型形成协同关系。
在科普大模型、小模型、智能体的概念时,李嘉悦指出,小模型通常指传统的深度学习网络,如CNN等,参数规模较小,数据处理能力有限,对数据量和数据多样性要求较高,且泛化性能相对较差。相比之下,大模型采用Transformer等架构,解决了小模型在长时间和远距离依赖问题上的不足,参数规模庞大,能够接收多模态数据,对数据中的噪声和不一致性具有较强的鲁棒性,具有出色的泛化性能。智能体则是大模型应用的一种包装形式,可以自主完成一系列动作以达成目标。
在探讨工业视觉如何运用大小模型时,李嘉悦表示,通用AI大模型虽然通过大量互联网数据训练,但在工业检测中准确度通常较差。然而,有机会构建专门的工业检测大模型,这类模型类似于行业大模型,能够学习到各行各业、各种制造领域中不同产品的各种缺陷知识,在工业检测领域具有很强的泛化能力。还有场景大模型,这类模型学习了一定规模的特定范围内的知识,在准确度、处理速度和泛化能力方面表现出色。小模型则专注于学习特定的知识,优势在于准确度高和推理速度快。智能体则可作为自主模型训练的小助手,大幅降低模型迭代的难度和时间成本。
在介绍阿丘科技的AI模型产品布局时,李嘉悦表示,公司仍然保留小模型方向的产品,并提供开发工具套件,如AIDI等软件工具型产品。对于场景大模型类产品,公司直接提供面向特定场景的端到端即插即用模型。工业检测大模型产品也是今年研发的重点,称为AQ-VLM,即阿丘的视觉语言模型,分为工业视觉大模型和通用缺陷生成模型两个分支。智能体则更多集成到模型训练开发平台中,将人工重复性工作转变为由智能体完成。
最后,李嘉悦分享了一个实践案例,以更好地理解大小模型协同的概念。在金属结构件检测的场景中,针对明显的缺陷,直接使用大模型进行检测;对于不明显但常见的缺陷,采用VLM加上微调的方法;对于不明显且罕见的缺陷,采用生成式AI结合小模型和智能体的方法。她强调,这些模型的能力边界是动态变化的,方案也保持一定的开放性。