程序员转型AI高手的8项杰出思维
1 前言
在AI大潮流中,程序员(又称码农)具有的优势是擅长挖掘AI开源代码(如免费金矿)。由于互联网上有丰富的开源AI大模型的代码(Code),而程序员熟悉免费拿大模型的代码,把其参数量调小,搭配企业自有IP练出企业自有IP的中小模型了。于是,免费代码既省成本、又自有IP,岂不美乎。
基于上述的优势技能,程序员可以将AI模型(代码)视为-种软件容器(Container),其能程序员擅长于代码,可以表达算法,也包容芯片算力。于是,程序员承接下且致力于组合创新AI容器,以便支持人们的多样化商且致力于组合创新AI容器,以便支持人们的多样化商业应用需求。
程序员的珍贵价值在于—AI模型代码的创新组合,其内涵包括:
● IT延伸人的手脚,AI 扩大人思维空间。
● LLM强龙与企业AI地头蛇的相辅相成。
● 传统IT、今日AI与人之间,三合协作。
● LLM是神鹰,IT是猎狗,您是成吉思汗。
于是,本文就来说明,程序员转型AI高手的葵花宝典,它包含8项杰出思维和创新组合技能。如下:
1.精准厘清泛化需求,调整模型参数,追求最优化。
2.家猫搭配野猫。猫丁兴旺,企业兴隆,财源广阔。
3.优化人机的协作模式。建立<人, AI,IT>的三合。
4.熟悉微调的训练机制,并搭配GPU性能优化策略。
5.区分AI模型的可观察空间与隐空间(Latent space)。
6.避免掉入把AI模型应用于<果-果>推论的陷阱里。
7.活用LLM来优化人机接口,拉近科技与人的距离。
8.AIGC不仅能生成作品,也能生成样本(Samples)。
2 详细解说
2.1 杰出思维(1):精准厘清泛化需求,调整模型参数,追求最优化
● 泛化(Generalization)是大模型的必要特性和能力,因而模型的参数量大增,运算效率下降且更加耗能。[泛化」之意是:当我们的AI模型可以应对未来的数据,也就是可以被广泛使用却仍在我们模型的识别的范围内,也就是它的适应性很好,这就是泛化。
● 从上所述可知,泛化是导致模型变大、效率下降的原因。所以,缩小泛化的幅度,能有效减小模型、加细观察企业AI应用情境中的泛化需求,然后删除不必细观察企业AI应用情境中的泛化需求,然后删除不必要的模型泛化功能、结构,以及数据收集和训练。
● 例如,在商店<柜台CLIP招财猫>模型的使用情境里,客人拿来结账的商品是自己店家的商品,由柜台的Camera拍摄照片,才输入给CLIP 模型。于是,泛化的幅度不需要超出本家产品图像,只需要涵盖产品放置的角度不同而拍摄到不同视角的图像即可。这样即可大幅缩小参数量、训练数据量、加速训练和推理效能,省时又省能源。
2.2 杰出思维(2):家猫搭配野猫。猫丁兴旺,企业兴隆,财源广阔
● 亦即,训练自己的家猫(小模型),搭配外来的野猫(大模型)。猫丁兴旺,企业兴隆。
● 精心思考如何来建立企业家猫模型,复制企业专家直觉,扩大企业生产力,提升竞争力。亦即,引导企业内的领域专家、AI工程师,一起携手为企业(建立AI模型、训练模型、应用模型〉。大力延伸企业专家有效的〈去芜存菁>剪枝之后,才是企业最值得信赖的有效的〈去芜存菁>剪枝之后,知识力,最能提供客户〈比你更懂你)的服务效能。亦即,才是企业最值得信赖的训练自己的家猫(小模型),搭配外来的野猫(大模型)。
● 生成式AI大模型是发散性(加法设计),如同风筝一样随风飘扬。它需要有一根绳索, 即缩敛性(减法设计)模型,来精准微调,力求整体和谐。例如,Stable Difusion是发散性模型,富有创新力。各企业可以训练自用Difusion来生成足够样本,来训练自用GAN模型,来担任缩敛的任务。
● 再如ChatGPT等是发散性模型,富有幻想创新力。各企业可基于企业知识图(Knowledge Graph),训练自用Graph AI模型,来担任缩敛的任务。
2.3 杰出思维(3):优化人机之间的协作模式
● 鉴于近年来AI的发展,AI(如ChatGPT)愈来愈善解人意,但是行为却更加幻觉。于是,我们可以把机器(计算机)的任务分为三项: 1) 与人体贴互动、2)正确工作行为、3)关键重要决策。
● 其中的第1项任务可由AI来打前锋。而第2项任务则由传统IT打前锋搭配AI辅助。至于攸关法律责任(或人命关天)的重要决策,则交给人类来主导&裁决。AI可以比喻为<神鹰>、IT 可比喻为<鬣狗>、善用<神鹰、鬣狗、成吉思汗>的三合架构,则您极善用<神鹰、鬣狗、成吉思汗>的三合架构,则您极可能如成吉思汗,缔造史上最大帝国。
● 就如同Uber汽车,人类司机是决策者(需负法律责任,并且人命关天)。而AI扮演<相>的角色——如帮忙看地图、比人类看得更广,寻找更佳路线,并实时重新探索新路径。此时,不是拿人类所看到的地图数据去训练AI,而是收集更多人类视野中看不见的、无法实时看完的巨大数据来训练AI。
● 此外,AI还要时时刻刻观察人类的决策,瞬间评估人类的决策,实时反馈给决策者,避免人类将错误决策付之<执行>,于是大大降低了决策风险。
2.4 杰出思维(4):微调(Fine- tuning)训练,并搭配GPU性能优化策略
● 例如,熟悉LoRA微调三步骤:
● Step-1:观察&测试原模型(如MT5- -Small)的input和output格式
● Step-2:准备Training data,建立自己的Dataset类别,并拿原模型测试训练。
● Step-3:将LoRA外挂到原模型(如MT5-Small),并进行协同训练及测试。
● 再如,程序代码指定使用BF16精度、NTWC内存数据格式等,发挥Intel GPU的高效率潜能,大幅加快训练效率。以及指定量化(Quantization)模式,提高推论效率、降低功耗。
2.5 杰出思维(5):区分模型里的可观察空间与隐空间(Latent space)
● 力求发挥隐空间的三项特质是:架构通用性、内涵复用性、模块组装性。这个架构如同一棵大树的主干,向上支持枝叶(即可观察空间)的新陈代谢,又能支持根部(如底层GPU芯片)的成长,因而创造了整体生生不息的有机次序(Organic Order)。
● 当底层芯片层更改时,它不会影响可观察层,能大幅降低AI芯片开发的风险。因此,基于隐空间架构可以确保芯片底层设计变动的自由度,可以实现<没钱就改版,改版就有钱>的美好商模。
2.6 杰出思维(6):避免掉入<把AI模型应用于<果果>推论>的陷阱
● 许多人们掉入把AI模型应用于<果果>推论的陷阱里。例如,ECG心电图数据、血糖检测数据,其实都是<果>,不是<因>。而眼睛、脚踝肿大症状,也是<果>。 心脏休克,也是<果>。AI模型应用于<果果>预测都不会准确,都会失败!
● 例如在医学AI领域,病毒检测和预测,不能掉入这项迷思里。而要请教医学专家:这些果的幕后的<因>是甚么?然后建立两个AI模型,第1个模型:第2个模型是:从预测出的真正<因>,推论出所需要第2个模型是:从预测出的真正<因>,推论出所需要的果(如胰脏癌并发症)。
● 除了医学AI模型之外,其实各行业都要留意:所有呈现的数据几乎都是现象的<果>。而这些现象的真实的<因>并没有呈现于大数据里。
● 因而一般人常常只关心数据的<真>与<假>。而没有深入探索出关于<因>的潜藏数据。例如,Apple Watch是-项成功的AI商业案例,人们需要建立<果因推论>的AI模型,而不是仅仅建立<果果>AI模型。
2.7 杰出思维(7):活用LLM优化人机交互,拉近科技与人的距离
● 综观计算机科技的发展史,凡是有科学技术或美学设计来显着拉近人机之间的距离时,都会带来巨大的商业效益。例如,40 年前从DOS+键盘输入,改进到Windows+鼠标输入,带给主导企业可观的收益。
● 到了15年前,从平板+触控笔操作,改进到手从输入关键词查询,又推进到LLM的文字(语音)从输入关键词查询,又推进到LLM的文字(语音)输输入和交互,也将带给有关企业巨大的商业利益。
2.8 杰出思维(8): AIGC不仅能生成作品,还能生成样本(Samples)
来训练决策式(或辨别式)AI模型。
● 生成样本来训练AI模型。例如,擅用基因医学的GWAS分析,以及IC芯片设计的庞大特征(Features)数来生成样本(样本),做为决策式AI模型的训练数据,IC芯片设计、无人机作战、企业投资等决策都有巨大IC芯片设计、无人机作战、企业投资等决策都有巨大商业意义。
● 与上述的基因检测分析、肠道菌相检测分析一样,因为IC的组成要素(如晶体管)的数量都是高达10亿(Billion)级别的。使得这些元素之间的链接(Connection)的数据有一项重要特性特征(Feature)的个数非常大(如几千~几十万)。因之,AI科技可以给予<半导体IC产业>一项礼物,即是:高维度大数据运算能力。
4 结束语
AIGC潮流就如同一个巨大的海流,程序员(码农)就能水涨船高,积极转型成为AI模型的组合创新高手。并且促进AI与IC芯片两个行业之间的协同设计(co-design),融合交流,逐渐成为<丰富美学&擅用算力>的AI产业新人才,并主导未来AI生态发展。
(本文来源于《EEPW》202407)
评论