关于GPT-4V、LoRA和Agent | 大模型系列知识分享答

作者: 吴言不语零一二三 | 来源:发表于2024-04-09 09:24 被阅读0次

创建 Aries Agent 应用程序
一个70岁的老太太，策划了一场长达20年的复仇！
健康养生知识学习
LoRa重要知识
CSS进阶
zabbix 通讯方式与结构组成
加padding、border后盒子被撑大的解决方法
次世代模型美术教程-贴图烘焙
CSS面试题
CSS面试题

大模型基础知识系列培训文章差不多要告一个段落了，培训结束后，同事之间也提了些问题，做了些答疑，以下摘录如下：

问1：LoRA是否可以理解成是一个类似于深度学习框架的工具吗？

答：你可以理解LoRA其实就是一套算法，像是照片里的滤镜，我们看到许多生图网站可以选择各种风格，比如二次元、低聚风、摄影风、折纸风、2.5D等，其实后台就是先选择了一个基础模型，再选择一个LoRA模型，训练LoRA可以理解为它只是训练基础大模型之外的额外几层网络层的参数，做出来后就像一个插件一样，插在这个大模型上面，给它增强各方面能力。像美图秀秀里面就可以选好多照片滤镜，而LoRA就是AI滤镜。

比如就有专门生成美女的LoRA模型，生成的个个都是网红颜值，你让它生成别的它就不在行，这就是专门微调过的。还比如有专门生成文字的，把你的文字跟背景融合的很好的那种模型。

还有专门生成风景的，反正就是不同的方向，取决于你拿什么数据给它训练，你可以形成自己的风格，你也可以训练自己的专属绘画模型。

问2：为什么GPT-4V可以识图，甚至是可能没学习过的类别？

答：这个跟现在很流行的一个模型训练方法有关，叫零样本学习（zero-shot）和小样本学习（few-shot），GPT-4V也是用到这种思想，举个栗子，比如说我们的训练数据集里面没有没有这个斑马的数据。但是我有老虎的，有马的，我们看斑马是类似老虎的黑色条纹对吧，然后斑马又是马的样子，然后我就可以问GPT-4V，我上传了一张图片，问它是什么动物？GPT-4V假设没有斑马的图片数据做过训练，但是它会零样本学习，它知道迁移学习，它就会先描述图片的特征：上面的动物长得马的样子，然后有类似老虎的条纹，这些转成了文字后，就可以在LLM大语言模型海量的知识库中寻找关联，认出它是斑马，因为大语言模型的知识库是世界知识都有，是极其丰富的，我们只是缺少斑马的训练图片，但是你发一个斑马的测试图片，它会把图片转义为文字，只要知识库中有，斑马的知识是知道的，那么就可以识别出没学过的类别了。

问3：有没有可以代替人来操作电脑或手机的人工智能吗？

答：这就是AI Agent技术了。人工智能专家吴恩达甚至说这个技术是有可能通往AGI（通用人工智能的）。现在也有好几个这类项目开源了，比如metaGPT，AutoGPT，那有之前阿里搞了一个mobileGPT，可以替代手机应用测试了。

比如一句话告诉它，让它帮我们在哪个抖音视频上自动发评论。

还有个开源项目叫ChatDev，里面内置多个AI员工，有研发、产品、测试等，你只要一句话扔给他们，比如开发一款“愤怒的小鸟”游戏，这些AI员工就开始吭哧吭哧地干活了，最后给你一个可部署的游戏产品，让你享受一把当老板的感觉。当然，目前做出的产品还比较初级，但是已经让我们看到Agent应用的未来雏形。

今天聊得比较简单，以后可以抽时间多介绍下这块。