【深度】大模型准确率从17%到90%！为什么提示词工程是今天最珍贵的技能？

大语言模型（LLM）正在迅猛发展，人们对LLM的接受度也在不断上升，提示工程已成为一项含有巨大潜能的新技能。什么是提示词呢？可以把提示词看作是与人工智能系统对话的语言。让我们能够利用它们的巨大能力，重塑我们的创造、工作、解决问题的方式，以及做更多事情的方式。它可以让任何人——包括老人、孩子——在云端为复杂的数十亿参数人工智能系统编程。LLM建立在深度学习算法和架构之上，由海量的文本数据集训练而来。

Python-搬运工

1746人浏览 · 2024-11-19 10:51:07

Python-搬运工 · 2024-11-19 10:51:07 发布

大语言模型（LLM）正在迅猛发展，人们对LLM的接受度也在不断上升，提示工程已成为一项含有巨大潜能的新技能。

什么是提示词呢？可以把提示词看作是与人工智能系统对话的语言。让我们能够利用它们的巨大能力，重塑我们的创造、工作、解决问题的方式，以及做更多事情的方式。它可以让任何人——包括老人、孩子——在云端为复杂的数十亿参数人工智能系统编程。

LLM建立在深度学习算法和架构之上，由海量的文本数据集训练而来。就像人类阅读了无数书籍一样，LLM从数据中学习模式、语法、关系和推理能力。可以通过调整内部设置来改变模型处理信息的方式，并通过调整来提高准确性。在推理阶段给出提示时，LLM会利用学到的知识和参数生成最有可能的、与上下文相关的输出结果。正是由于这些提示词，LLM可以生成高质量的文本、与人进行对话、翻译语言、撰写不同类型的创意内容，并以信息丰富的方式回答问题。

如今有许多免费的开源LLM和付费的闭源LLM服务。LLM正在改变各行各业以及我们生活的方方面面。举例来说：

客户服务：功能强大的人工智能聊天机器人可提供即时支持并回答客户询问。
教育：提供个性化学习体验和人工智能辅导。
医疗保健：分析医疗问题、加速药物研发和定制个性化治疗方案。
营销和内容创作：创作有吸引力的营销文案、网站内容和视频脚本。
软件开发：协助开发人员进行代码生成、调试。

基本的提示词类型与技巧

提示语是大模型的指路明灯，一个精心设计的提示词可以极大程度上影响大模型生成内容的质量和相关性。

不妨想象一下这样一个场景：让助理预订晚餐，你提供的信息（如偏好的菜肴或时间）越多、越明确，得到的结果也会更加准确。

同样，提示工程是一门艺术和科学，通过精心设计的提示词来从人工智能系统中获得所需的输出，包括设计和改进提示，以生成符合用户意图且准确、有创意的输出。

对于企业来说，提示词工程有三个基本的成效：

效果最优化：减少迭代的次数并得到最满意的大模型输出。
成本最小化：尤其对于大规模的AI应用，像GPT-4这样的优质大模型的使用成本已经很高，提示词工程可以最大程度上减少不必要的查询指令以获得想要的答案。
提升用户体验：将大模型集成到聊天机器人或虚拟助手等应用程序中时，提示词工程可以通过提供更连贯和准确的回复来显著增强用户体验。

那么，究竟什么是提示词呢？从实践来看，提示词大致可分为以下几类：

直接提示词：短的直接指令，如“将‘你好’翻译成西班牙语”。
上下文提示词：在短的直接指令中加入更多的上下文。例如，“我要写一篇关于人工智能优点的博文，请写一个醒目的标题”。
基于指令的提示词：详细的指令，包括做什么和不做什么的具体细节。例如，“写一个关于一只会说话的猫的小故事，这只猫应该脾气暴躁、爱挖苦人”。
基于例子的提示词：提示者可能会说：“这是一首俳句的范例：寂静的池塘/青蛙跳进池塘/溅起水花！又是一片寂静。现在写出你自己的俳句”。

以下是已被证明在提示词工程中非常有效的几个提示策略：

迭代改进：根据人工智能的反应不断改进提示词，让它可以生成更好的结果。比如，可以从“写一首关于日落的诗”开始，根据输出结果将其细化为“写一首关于海滩日落的忧郁诗歌”。
思维链提示：鼓励逐步推理，有助于解决复杂问题。举例说明：不要只做复杂的提示，如“一个农民有14辆拖拉机、8头奶牛和10只鸡。如果他卖掉一半的鸡，再买3头奶牛，那么有多少头牲畜能给他产奶？”这样的复杂提示，加上“请你逐步思考”或“解释你的推理”可能会取得更好的效果，甚至能清楚地指出模型可能犯的中间错误。
角色扮演：在交给人工智能任务之前，先给它分配一个角色或人物。比如“想象你是一名博物馆导游，解释一下小戴维·特尼尔斯的画作《从石窟看风景》”。
多轮提示：这包括将复杂的任务分解成一系列提示。这种技术包括使用一系列提示来引导人工智能找到所需的答案。比如“创建一个详细的提纲”，然后是“使用提纲将每个要点扩展为一个段落”，接着是“第2段缺少…，请重写，重点是…”，最后完成文章。

挑战与机遇

如何将大模型的功力发挥到极致

提示工程面临着一些挑战和机遇。虽然人工智能已经有了指数级的进步，但在处理抽象概念、幽默、复杂推理等等任务时，LLM可能仍然会感到吃力，这往往需要精心设计的提示词。人工智能模型可以反映出训练数据中存在的偏差。提示词工程师需要了解这一点，并在最终解决方案中解决和减少潜在的偏差。

此外，不同的模型可能会以不同的方式对提示词做出自然的解释和响应，这就给不同模型之间的通用化带来了挑战。大多数LLM创建者通常都有很好的文档，以及对该模型非常有效的提示词模板和其他指南。熟悉模型对高效使用模型总是有益的。

尽管推理速度在不断提高，但有效的提示也为在推理时对LLM进行精确编程以节省计算和能源资源提供了机会。随着人工智能与我们的生活日益紧密地结合在一起，及时工程在塑造我们如何与人工智能互动并从中受益方面发挥着至关重要的作用。

硅谷的提示词工程师年薪已经达到200万，而国内也出现了月入10万的提示词工程师。不少AI大模型公司和大模型应用开发商在招聘平台上挂出的“提示词工程师”岗位，开出的月薪起步价几乎都不低于1.5万。

如果方法得当，提示词工程将蕴含巨大的潜力，提示词工程师的含金量还将不断上升，释放我们尚未想象到的可能性。

但请注意：

提示词工程是提高 LLM 性能的一种更便宜、更快捷的方法，尤其是相比起花费大量时间对 LLM 进行微调。但请始终记住，它不是一个能解决所有问题的咒语，它是性价比最好的优化模型性能的策略之一。如果大模型本身没有与提示词（输入的指令）正确对齐，那么提示词工程的效果会变得有限，并且可能导致不相关的输出。

从17%到90%

提示词工程使大模型准确率猛增

除了以上提到的几点提示词策略，还有一种有效的提示策略叫作多范例提示（Few-Shot Prompting）。多范例提示词指的是在对大模型提出指令的同时，为大模式列举几个同类任务样例。这些样例有助于大模型理解上下文、一些细微的差别和用户所期望结果，从而提高输出结果的准确性和相关回复的能力。

多范例提示有以下四点要素：

清晰的输入指令：例如，“将以下评论分类为正面或负面……”
相关性：确保提供的示样例与指令所安排的任务高度相关
多样性：使用涵盖多个可能场景的示例，让模型对任务有广泛的了解
清晰度：确保每个样例都清晰无歧义，以避免使大模型产生混淆

W&B对于这个提示词策略做过评估，发现通过列举范例，大模型输出的准确率可以从19%跃升到90%。测试者准备了100个工单作为测试样本，让大模型将这些工单分类。首先在不给大模型任何范例的情况下给出一个简单的直接指令：

Goal: Given the support text, predict if 'question' is one of the following:
'type_feature_request'
'type_bug'
'none'
'question'

再使用100份样例测试了这一简单指令后，测试者发现大模型输出的准确率只有17%！

测试者按照如下框架修改这一提示词，不断增加给大模型的范例数量：

"""Classify the text delimited by triple backticks into one of the following classes.
   Classes: {desired_tags}
 
         Text: ```{ticket_text1}```
         Class: question
         Text: ```{ticket_text2}```
         Class: type_bug
         <...more examples here>
 
   Text: ```{ticket_text}```
   Class: 
"""

测试者发现，在添加5个范例后，大模型输入的准确率上升到了25%到30%。而当添加了20个随机范例后，准确率到达了70%。

除了给出范例，测试者还在尝试在提示词中添加对于四个工单类别的解释，改变模型输出的随机程度（temperature）的值，最终将输出结果的准确率调试到了90%。以下是准确率及提示词范例数的统计图。

但值得注意的是，范例提示词也有一定的局限性，并不是一个万金油。它的局限性主要有以下三点：

范例依赖性：模型的输出质量很大程度上会取决于范例的质量以及范例与指令的相关度。
规模性：如果数据集很庞大或者任务复杂程度很高，列举各式各样的范例将会变得很累赘。
算力消耗：范例提示词会增加模型推理所需要的算力消耗，因为模型需要考虑更多的上下文。

提示词策略多种多样，各有其优缺点和适配的场景。接下来我们将推出有关提示词工程的系列文，如果你是提示词工程小白，对生成式大模型、人工智能应用感兴趣，或者想要步入提示词工程师这个行业，都可以关注起来。我们将从提示词的定义出发，逐步拆解、列举提示词的使用技术，帮助你了解并上手提示词工程。
在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习所有资源获取处（无偿领取）一一】
所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

『低代码开发的终极形态：AI 驱动的可视化编程』

CSDN-OPC开发者社区

Python内存管理终极指南：优化大型数据集处理性能的5个技巧

Python内存管理在处理大型数据集时常常成为性能瓶颈，掌握有效的内存优化技巧能让你的程序运行速度提升数倍。在python-mastery课程中，我们深入探讨了如何通过不同的数据结构选择来显著降低内存使用。## 🚀 为什么Python内存管理如此重要？当处理像芝加哥公交系统数据（包含577,000多行记录）这样的大型数据集时，内存使用可能从12MB激增到50MB以上！这不仅仅是数字问题，