构建大规模人工智能辅助质量检测框架
Authored by:
Feng Xue, IBM, Singapore
Charisse Lu, IBM, Yorktown Heights, New York
Christine Ouyang, IBM, Yorktown Heights, New York
James Hoey, IBM, Poughkeepsie, New York
Rogelio Fernando Gutierrez Valdez, IBM, Guadalajara, Mexico
Richard B Finch, IBM, Poughkeepsie, New York
编者按:本文最初刊登于《2021年IPC APEX EXPO展会会刊》。
摘要
近年来,在数字图像处理领域,基于神经网络的深度学习模型在目标检测和分类方面具有很高的精度。制造业已经成功实施了样机测试和小规模构建,采用人工智能(AI)模型进行质量检测。通过这些样机测试和小规模构建,已经证明AI辅助质量检测可以显著提高检验精度、运行产量和效率。然而,随着人工智能辅助质量检测在制造业应用的不断扩大,操作技术(OT)和信息技术(IT)集成面临着业界所熟知的挑战。虽然从检查的角度来看,模型精度是主要关注点,但IT实施必须满足高可用性、可扩展性、安全性,以及模型和设备生命周期管理的要求。
本文详细讨论了大规模构建人工智能模型进行质量检测操作的挑战,并介绍了在制造环境下采用边缘计算架构的大规模AI辅助质量检测框架。该框架侧重于IT架构决策,以满足OT需求,包括质量检测生态系统中的用户体验。
引言
质量检测是电子制造业重要的质量保证手段之一。质量检测的执行严格遵循特定产品制造过程的控制计划。检测通常是针对原材料(也称为来料检验)和成品(也称为出厂质量检验)。在高度复杂的制造过程中(例如晶圆制造和集成电路封装),也对在制品进行检验,作为早期的在线质量反馈。质量检测涉及的项目范围很广,从外观、颜色、标记和标签,到缺陷和划痕。
检测过程包括两个步骤:图像采集和图像检测。传统上这两个步骤都是人工完成的。通过检测人员的视觉直接从产品中获取图像,并由人的认知自发的进行检测。因此,传统的质量检测是劳动密集型工作,对人的技能和能力有很大的依赖性。
当需要关注的特征尺寸对于人类视觉来说变得太小时,诸如放大镜、显微镜之类的先进设备以及诸如背光、暗场和X射线之类的技术开始被使用,用来获取人类视觉可以检查的图像。图像采集设备实现了自动化,显著提高了批量生产检测过程的产量。一个很好的例子是用于PCB检测的自动光学检测(automated optical inspection,简称AOI)设备,它的光学分辨率达到了微米级。
随着计算机视觉技术的发展,基于一定规则的检测算法被用来部分替代人类对图像检查的认知,进一步提高了检测过程的效率和产量。然而,基于一定规则的算法在目标检测和分类方面存在局限性,通常被用作被检查图像的 "粗略 "筛选。要对被检图像进行准确分类,在很大程度上还需要人类的认知。
近年来,在数字图像处理领域,基于神经网络的深度学习模型在目标检测和分类方面具有很高的精度。AI模型通过对目标的检测和分类,在质量检测过程中开始显示出取代人类认知的巨大潜力。因此,AI辅助的质量检测变得非常有前途,可以实现质量检测过程完全自动化。
质量检测AI模型
虽然AI模型不是本文的主要重点,但简要介绍目前流行的目标检测和分类模型类型对于了解它们在质量检测中的应用方式,无论是精度还是性能,都非常重要。
以下是在图像识别应用和用例中广泛使用的几种成熟AI模型类型:
•GoogLeNet
•更快的R-CNN(基于区域的卷积神经网络)
•Detectron
•Tiny YOLO(只看一次)
•YLO V3
•SSD(单镜头检测)
GoogLeNet采用了一个22层的卷积神经网络,只用于图像分类,这意味着GoogLeNet不能识别每幅图片中的单个对象,而是能够将每个图像识别为一个类别。GoogLeNet可以导出在边缘设备上运行,从而使其具有高度的便携性。
FasterR-CNN、Detectron和YLOV3模型都优化了精度。这些模型使用矩形边界框来标记对象。Detectron模型还可以使用带有多边形标记的对象(分割)来提高训练精度。但是,使用多边形标签训练数据集所需的时间要比使用矩形边界框的训练长。YOLOV3是一种比TinyYOLO精度更高的目标检测图像分析模型,但模型训练和模型推理都需要更多的计算机资源。
Tiny YOLO模型主要针对速度进行了优化,可以在任何地方运行,但可能不如针对精度优化的模型精确,特别是对于需要对小物体进行分类的用例。
单点探测器(SSD)模型适用于实时推理和嵌入式设备。它的速度几乎和YOLO一样快,但不如FasterR-CNN精确。
利用IBM制造工厂实际质量检验中收集的训练数据集和测试数据集,对4个模型进行了训练和测试。这个质量检测使用案例要求对小物体进行高精度的分类。
表1总结了4种模型的关键性能数据。
Training Time (Hours)Model Size (MB)Accuracy (%)Inference Memory Usage (GB)Inference Time (sec)
Faster R-CNN1.0546.9972.14047
Detectron0.33338.1993.19746
SSD1.5107.3480.92547
Tiny YOLO*7.063.11N/AN/A
表1:模型性能总结
*使用了TinyYOLO v2。由于精度低,没有进行推理。推理时间预计将比其他模型类型少。
**没有选择GoogLeNet进行此测试,因为用例需要使用GoogLeNet不支持的对象检测模型。
***在撰写本文时,YOLO V3评估正在进行中。将在以后的出版物中分享评估结果。
结果与预期相符,与不同模型的特点相符。由于该案例涉及到微小物体检测,SSD和Tiny YOLO不满足精度要求。因此,只有Faster R-CNN和Detectron适合该案例。FasterR-CNN和Detectron的推理时间都是每幅图像4~7秒,这也符合本次检测的操作要求。FasterR-CNN和Detectron在推理内存使用方面的差异对IT操作和成本的影响大于质量要求。下面将讨论这些差异。
如表1中的案例所示,由特定检测使用案例的OT和IT需求决定适当模型类型的选择。检查对象的性质、产量需求和IT运营预算是确定最合适模型类型的3个重要因素。
大规模构建的体系架构需求
为优化精度选择适当的模型类型和训练可确保良好的AI模型,为生产部署到制造车间做好准备。然而,在将经过训练的人工智能模型实际部署到制造层面,出现了一系列新的IT挑战。
高可用性
质量检测是产品交付客户前的最后关口。检测系统的可用性直接影响发运进度,进而影响收入。系统必须具有每周7天、每天24小时的不间断可用性和最小的维护周期。
可扩展性和性能
生产经营可以跨越多个地域,该系统需要扩展到许多地点的制造厂。该系统应具有易于扩展的功能,即添加计算机视觉(用于AI模型训练)实例,无论是在本地还是在云端,以及添加边缘设备。必须考虑性能(速度、异常处理等)以支持全球用户。
用户身份验证和授权
制造质量管理体系的一个重要特征是,只有经过授权和培训的操作员才能进行质量检测。因此,需要对不同的用户角色进行用户身份验证和授权。
模型管理和设备管理
一旦构建,AI模型和设备(AI模型在其上运行)的生命周期管理对运营至关重要。用户需要一种简单有效的方法来管理生产中采用的AI模型版本。设备监控和恢复也很重要,以尽量减少对生产计划的干扰。
数据安全
在检测过程中不断生成检测数据(图像和结果)。这些数据必须作为关键和机密数据安全的存储和存档。数据应在短期内易于被其他应用(如分析应用、显示屏)使用,并在长期内易于根据要求检索。
成本
在任何IT构建中,相关成本有两个组成部分:固定成本和可变成本。固定成本包括硬件和基础设施的设置或购买要求。可变成本包括云端消耗(如果有的话)以及硬件和基础设施的维护成本。例如,所选模型类型的推理内存使用情况对运行AI模型硬件的选择有直接影响。
因此,必须认真设计IT架构,以满足上述所有需求。
边缘计算解决方案
边缘计算被定义为“一种分布式计算模式,它使计算和数据存储更接近需要的位置,以提高响应时间和节省带宽。”[1]在大规模制造中,检测数据是在工厂内和工厂之间的大量检测点(设备或工位)生成的,边缘计算自然适合将经过训练的AI模型分布在检测点附近,以便检测结果可以很快返回给检验人员。
基于IBM Edge Computing Reference Architecture[2],为制造业质量检测的AI模型和边缘服务构建设计了解决方案体系架构。该体系架构是为高效的模型构建以及满足上述讨论的所有需求而精心设计的。
图1显示了解决方案体系架构设计的系统关系图,考虑了外部因素和约束条件。它还可以确保用户体验是设计中的重点之一。
图1:制造边缘解决方案的系统关系图
该解决方案支持3组人:
•模型工程师:训练和优化AI模型,管理AI模型的生命周期,将AI模型构建到边缘设备
•边缘经理:设置和管理边缘设备(或边缘服务器)
•质检员:启动和监控检测过程
这些人员可与以下3个外部系统交互:
•数据仓库:所有检测图像和结果的数据库
•生产车间控制(MFC)和企业资源规划(ERP)系统:读取/写入生产运行数据
•机械臂/机器人:执行自动图像采集和生产处理
图2显示了边缘解决方案的体系架构图。架构决策是在高层讨论的,在操作模型中没有太多具体细节。对于该体系架构的实际实施,可以考虑许多选项。
高可用性
混合云提供了灵活性和高可用性。公共应用和服务(例如,用于模型构建的主应用、模型和设备管理、模型提取服务、模型训练服务)可以根据使用案例需求部署到不同的云基础设施(例如私有云、多个云提供商)中,同时保持高可用性。另一方面,边缘应用和服务的高可用性必须通过边缘硬件冗余和恢复来实现,这是一种更为传统的做法。
可扩展性和性能
公共应用和服务可以轻松地构建到云环境的多个区域中。这样可以快速扩展解决方案,同时保持跨地域的性能。
用户身份验证和授权
用户通过单点登录进行身份验证,以便于使用和安全。对系统的访问基于角色和授权策略
图2:边缘计算架构图
模型管理和设备管理
在云中构建模型管理服务和设备管理服务,为模型工程师和设备管理人员提供了一个单一的高可用性平台,以管理模型和边缘服务、设备的生命周期。MQTT(消息队列遥测传输)协议提供了一个轻量级的实施方案,来监控边缘服务器、设备的正常运行状况。
数据安全
实施数据备份和存档服务,将边缘数据备份到企业数据仓库。该服务可以在不同的边缘设备和边缘服务器之间异步运行。企业数据仓库应是其他应用或用户使用和检索数据的交互点,最大限度地减少对边缘设备和边缘服务器的不必要访问。数据在静止状态和边缘设备与云之间的传输过程中是加密的。
成本
成本并没有直接反映在这个架构图中。它更多的与上述体系架构决策的实施选项相关。因此,在决定图中每个模块的实施方案时,应考虑成本因素。
混合质量检测框架
虽然制造企业开始在其生产车间构建AI辅助质量检测,但将其所有质量检测操作转换为AI辅助将需要相当长的一段时间。从制造操作的角度来看,混合质量检测框架需要同时支持AI辅助检测和人类认知检测。这对于降低新开发的AI服务潜在中断风险、以及在组织层从人工检测到AI辅助检测的平稳过渡都是至关重要的。此外,肯定会有一些关键的检测,需要通过人类认知抽样验证,以确保AI的精度没有漂移。还有,尽管有些质量检测仍停留在人类认知上,但制造企业在图像采集(包括边缘移动应用)、检测清单管理、检验数据等领域仍需要实现质量检测自动化和数字化。
图3显示了所提出的混合质量检测框架。在这个框架中,AI辅助检测和人类认知检测共享了共同边缘集成和通信,以及共同的数据备份和报告策略。所提出的框架提供了3个关键优势:
•在AI服务中断时,在AI辅助检查和人类认知检查之间切换具有极大的操作灵活性
•用于消耗和检索质量检测数据的公共数据层
•随着公司向更多AI辅助检测的方向发展,需要最少的投资来升级边缘的检测站。
•通过在早期阶段将检测与人类认知集成到框架中,可以更顺利地过渡到AI辅助检查。
图3: Hybrid inspection framework illustration.
结论
本文介绍了在不同地域的工厂内和工厂间,在生产车间构建大规模AI辅助检测的前景。提出了一种边缘计算体系架构,做为满足在可用性、可扩展性、性能和安全性方面操作需求的可行解决方案。针对在生产车间同时运行的AI辅助检测和人工认知检测操作需求,提出了一种混合检测框架。IBM制造工厂正在构建基于边缘计算架构和检测框架的完整解决方案,以更高的效率和准确性来改造质量检测过程。
致谢
本文作者感谢以下IBM同事对本文做出的贡献:Igor Khapov、Ekaterina Krivtsova、Dmitry Gorbachev、IlsiyarGaynutdinov、Ilya Trofimov、Yuri Pravosud、Thomas Cook、Jeff Komatsu、Julian Reyes、 Aaron Civil、John Bacon、DingguoXiong、Hailin Zhu。
参考资料
1.Hamilton, Eric "What is Edge Computing: The Network Edge Explained." https://www.cloudwards.net/what-is-edge-computing/, 27 December 2018.
2.IBM Edge Computing Reference Architecture, https://www.ibm.com/cloud/architecture/architectures/edge-computing/overview
冯雪任IBM的高级技术人员。
Charisse Lu任IBM的高级技术人员。
Christine Ouyang任IBM杰出的工程师。
James Hoey任IBM的制造工程师。
Rogelio Fernando Gutierrez Valdez任IBM的高级工程师。
Richard B. Finch任IBM的高级技术人员。