心鉴智控罗晓忠接受澎湃科技专访:所有创新要以提高企业效率为目的
内容来源:澎湃新闻
·如何判断某项技术是否需要投入?罗晓忠的标准是“接地气”。他表示,“一定要结合公司的实际情况,不要‘为了创新而创新’。我们所有的创新都要围绕一个目的,那就是提升企业的效率。”
·罗晓忠认为,大模型之所以有这么高的能力,是因为它拥有大量高质量的数据和新型的训练方法,因此在大算力的支持下,涌现出了令人惊艳的能力。但在自己的行业领域,罗晓忠直接表示:“我们需要的是基于基础大模型之上的行业大模型。”
心鉴智控创始人兼CEO罗晓忠向澎湃科技介绍,公司的第一个产品用了两年时间才正式落地,在这两年期间公司没有任何营收,只有不断地研发投入。
“我最喜欢辛弃疾的‘醉里挑灯看剑’,很小的时候我也有当大侠的梦想,希望自己武功高强、除暴安良等。虽然这是小时候的梦想,但它也指引了我人生的一些选择。”
心鉴智控创始人兼CEO罗晓忠喜欢读诗并感悟美好,用他自己的话来说,是一个“文绉绉”的人。五年前创业时,他和联合创始人为公司取名“心鉴智控”用的是《诗经》中的“我心匪鉴”,寓意“用心做鉴别”。
罗晓忠于密歇根大学博士毕业,创业前在美国微软总部任首席软件架构师,拥有大数据、人工智能技术及企业级软件的开发经验及团队管理经验。2018年,罗晓忠创立心鉴智控,专注工业场景下透明、反光、高速运动物品的AI视觉检测,主要应用场景包括医药外包装(铝塑泡罩,输液袋,软膏及三期等)、导光板,瓶盖瓶身等的瑕疵检测。
在日前举办的华映资本2023年会间隙,罗晓忠接受了澎湃科技专访,谈及自己选择创业,他觉得仍然和年少时的梦想相关,只不过更加practical(重视实践),“希望能做一些切实把人的双眼从生产线中解放出来的事。因为人的眼睛要去看风景、看美好的东西,而不是去做瑕疵检测。”2023年初,心鉴智控连续完成了A+和A++两轮融资,融资总额近亿元。
微软工作18年后辞职下工厂2018年,在加入微软18年后,罗晓忠选择辞职回国创业。“我始终都有‘在这个世界上创造一些东西’的想法,而不是仅仅做一颗大厂螺丝钉。最小的孩子上大学后,没有了对家庭的顾虑,我的太太也很支持我,所以正式投身创业。”
从工程师转化成创业者,罗晓忠觉得最大的改变是“真是更加深入地理解了‘以客户为中心’到底意味着什么。”谈到自己曾经因为理论和实际脱节吃的亏,罗晓忠笑着回忆道,“我们公司有很多海归员工,大多是软件和AI(人工智能)的人员,对工业实操欠缺经验,做出过不少失败的产品。后来我们就要求所有人必须到工厂去,看到实际的工况才不会闭门造车。”
心鉴智控刚成立不久,曾经为一家知名品牌做过一个瓶盖检测的项目。酒瓶盖的检测看似简单,却因团队不了解生产线上的实际情况而最终流产。
“我们没有想到,客户的同一条生产线上只要更换模具,就可以生产十几款大小规格不同的酒瓶盖,甚至包括印刷都完全不同,但当时我们的模型迭代速度没有那么快,满足不了客户的要求,”罗晓忠表示,“从那之后,我们在跟客户沟通和交流的过程之中,信息的收集会更加全面,让项目最后成功的几率更大。”
创业后,罗晓忠很多情况下需要为公司亲自做战略决策,这直接影响到公司的生和死,他也感到作为创业者肩上沉甸甸的责任。罗晓忠介绍,一个产品面临失败了要如何及时止损,以及一些技术路径上面是否需要投入,这都是让自己压力很大的决策。
如何判断某项技术是否需要投入?罗晓忠的标准是“接地气”。他表示,“一定要结合公司的实际情况,不要‘为了创新而创新’。我们所有的创新都要围绕一个目的,那就是提升企业的效率。”
“我们创业早期还保留着工程师的习惯,想把事情做得比较完美,但实际上短期之内你不需要那么完美,却一定要把它尽快落地用出去,让产品在实践的过程中不断迭代才是最重要的。”罗晓忠表示。
第一个产品历经两年才落地机器学习需要海量的数据做支撑,高质量的数据越多,最后的人工智能模型效果就会越好。对人工智能创业公司而言,一家初创公司,还没有积累足够多的行业数据时,是发展最为艰难的时期。
罗晓忠向澎湃科技介绍,公司的第一个产品用了两年时间才正式落地,在这两年期间公司没有任何营收,只有不断地研发投入。产品真正落地之前的测试之中,团队不管在硬件、软件、还是模型上,都经历了一系列的问题,在工程化层面,团队跟客户也做了很多协同。
软件层面的问题主要体现在速度上。如果软件处理的速度是20毫秒,但生产节拍是18毫秒,那软件就会因为来不及处理而导致系统崩溃。为了提高自己软件的速度,罗晓忠推翻了自己原本用Python语言编写的应用,重新打造了公司基于C++语言的软件框架。“Python是一种解释性的语言,它运行的速度很慢,一到高速产线就崩溃了。C++是一个多线程的语言,一个线程里可以有很多进程并行,它的运行速度比Python快很多。”
还有一个难点是公司的模型和客户的产线系统需要匹配。罗晓忠介绍,药片生产和包装的速度很快,心鉴智控的系统在流水线上的A点识别出某一板药品有瑕疵之后,它已经位移到B点了生产线上的设备才能把瑕疵品剔出,因此模型和系统需要通过软件和PLC(Programmablelogiccontroller,可编程逻辑控制器,专门用于工业环境的一种数字运算操作电子系统)控制实现精准地协调和同步,这也花费了团队很多时间和精力进行调试。
除了软件方面之外,在流水线上的硬件也出现过各种各样的问题,需要仔细排查并解决。团队曾经发现有的工业相机里没有缓存,也有的相机会反复提交同一张。工人操作时可能把线碰松了导致数据传输不稳或是相机掉线。还有的便宜导线本身就数据传输不稳,需要更换。
在心鉴智控将产品工程化的过程中,也与药厂就药品瑕疵的定义达成了共识。现在的行业标准中,铝塑泡罩药片有8种不同的瑕疵,胶囊有21种不同的瑕疵,就是心鉴智控在产业实践中最早制订出来的药品瑕疵标准。随着行业数据的积累和客户的增加,现在,心鉴智控在医药产品、白玻、高速产线上物品的综合检测领域能力已经位于行业第一梯队。
打造自己的“行业大模型”罗晓忠介绍,心鉴智控在高透光、高反光的场景中,有自己独到的光学成像技术,可提供高质量的初始图像。另外,自己的人工智能模型也是另一个核心竞争力。
公司的人工智能模型中,采集数据有两个技术模块:一个是数据的素材系统,能够对生产线上的数据进行采集压缩,并将数据在边缘侧上传到云端,在云端解压打开后,做半自动机器标注和人工的标注;另一个是数据的重复利用系统,模块在云端有自己的自动学习平台,能够把标注好的数据进行模型的训练迭代和优化,这就将数据和生产线部署的边缘侧模型进行了高效率的再利用。
心鉴智控成立至今,已经在视觉检测的业务中积累了大量高质量的数据,并在2022年下半年训练出了自己在工业检测领域的通用模型。同年11月,ChatGPT横空出世。经研究之后,罗晓忠认为,大模型之所以有这么高的能力,是因为它拥有大量高质量的数据和新型的训练方法,因此在大算力的支持下,涌现出了令人惊艳的能力。但在自己的行业领域,罗晓忠直接表示:“我们需要的是基于基础大模型之上的行业大模型。”
“瑕疵检测的容错率非常低,有一点点差错都不行,语言类的模型达不到这个水平,所以ChatGPT有时候会一本正经地满口胡话;另外,瑕疵品的数据是ChatGPT背后的训练数据库里没有的,所以大模型不会根本性替代我们公司现有的技术底座,”罗晓忠说,“但借鉴大模型多模态的训练方式,结合公司已有的行业数据,我们可以更好地打造自己的行业大模型。”