Prompt Learning - 1:继 Fine-Tuning 之后的最新范式不再神秘_finetuning后-程序员宅基地

技术标签: Prompt Learning  语言模型  机器学习  深度学习  人工智能  自然语言处理  

本文内容主要参考刘鹏飞博士在 Big Model Meetup 上的报告内容以及其发表的关于 Prompt Learning 的综述论文 《Pre-train, Prompt, and Predict A Systematic Survey of Prompting Methods in Natural Language Processing》 

Big Model Meetup 报告链接:智源社区活动

论文链接:https://arxiv.org/pdf/2107.13586.pdf

本文目前算法工程师一枚,重点关注 预训练语言模型、文本语义相似性检测、命名实体识别、Prompt Learning 领域研究,后续会陆续更新更多文章,欢迎关注 ^_^

如果对于本文章的内容存在疑问或问题,欢迎留言或发邮件,看到后会第一时间回复,Email:[email protected]

1. 什么是 Prompt?

在过去很长一段时间,预训练模型均是采用的 Pretrain+Fine-Tuning 的方式来适配下游任务,但是采用这种方式所带来的问题是对于每一项下游任务来说,都需要重新 Fine-Tune 一个新的模型,且具体任务的模型之间无法共用,这对于预训练语言模型来说,相当于对于每一个任务都进行了定制化,十分低效;而 Prompt Tuning 则是一种新的训练模式,即可以将预训练模型看做是电源,不同的下游任务则相当于用电器,此时依据下游任务的不同,只需要为预训练模型插入不同的插座(下游任务特定的 Prompt 参数),即可使预训练模型适配下游任务;

上述 Prompt Tuning 的方式极大地提升了预训练模型的使用效率,如下图所示:

  •  左侧的图表示基于 Pretrain+Fine-Tuning 的训练范式,即对于不同的下游任务来说,均需要训练不同的模型,每个任务都会有一套完全独立的模型参数,任务模型之间相互独立;
  • 右侧的图表示基于 Prompt Tuning 的训练范式,即对于不同的任务来说,只需要插入不同的 Prompt 参数,在训练期间可以灵活选择是否对预训练语言模型的参数进行调整,可以极大地缩短训练时间,提升模型使用率;

所谓 Prompt,从字面意思上来讲翻译为 “提示”,联想人类的思维过程,假如我们某一天忘记了某件事情,如果此时能够得到某种特定的提示,就可以轻松想起来对应的事情,比如给出我们提示 “白日依山尽”,我们自然而然的就会联想到下一句 “黄河入海流”;再比如,我们玩儿 “你画我猜” 这样的游戏,假如直接让我们猜一幅画,这对于我们来说很困难,但是如果给出别人画的提示呢?如果再进一步给出一个与这幅画相关的提示词呢?是不是就变得越来越容易啦?

那么在 NLP 的领域研究中,Prompt 就是指根据输入文本,给予预训练语言模型一个任务相关的线索或提示,以帮助模型能够更好的理解或记忆特定的人类问题; 比如,BERT、BART、ERINE 均为近些年饱受关注的预训练模型,其对于某些特定的人类问题,根据给出的线索均可以给出正确的答案,如下图所示:

 在上图的示例中,根据提示,BERT 可以准确的给出答案: JDK 是由 Oracle 研发的;根据 TL;DR: 提示,BART 可以知道当前任务需要给出文章的摘要信息,另外,根据提示 ERINE 可以知道当前 Query 想问的是鸟类的能力;

除了上述较为形象的表述之外,Prompt 更加严谨的表述方式如下:

Prompt is the technique of making better use of the knowledge from the pre-trained model by adding additional texts to the input.

即通过为输入内容添加额外的文本(重新定义任务)的方式,来更好的挖掘预训练语言模型本身能力的一种方法;

2. Prompt 工作流

通常来说,Prompt Tuning 的工作流主要分为四个部分:模板构造、答案空间映射关系构造、将输入带入至模板并预测、预测结果映射; 以情感分析任务为例,Prompt Tuning 的不同工作模块如下图所示:

 上图展示了在情感分析任务中,Prompt Tuning 范式在情感分析任务中的具体工作模块,下面将会将各个模

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sinat_32332805/article/details/122429599

智能推荐

nuxt开发中踩过的坑_nuxt ssr plugins 报错-程序员宅基地

文章浏览阅读7.8k次,点赞2次,收藏2次。新开的项目需要兼容IE,并且还需要SEO。在JQ和SSR二者中,选择了尝试一下新技术。(真的作死)下面是个人在这半个月使用nuxt框架遇到的一些问题,记录一下:1,首先一个是关于nuxt.config.js的配置问题,在plugins引入一些第三方插件的时候,如果不需要SSR,可以在后面选择ssr:false进行关闭。这样可以避免一些window未定义的问题。2,接着是window o..._nuxt ssr plugins 报错

s3c2440对nandflash的操作_s3c2440怎么将flash擦除-程序员宅基地

文章浏览阅读1.4w次,点赞3次,收藏27次。本文以K9F2G08U0A为例,详细讲解了s3c2440对nandflash的基本操作,包括读ID,页读,页写,擦除,随意读,随意写等内容。_s3c2440怎么将flash擦除

java.sql.SQLException: The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represents more tha_java.sql.sqlexception : the server time zone value-程序员宅基地

文章浏览阅读221次。Springboot项目启动报了一下错误java.sql.SQLException: The server time zone value '�й���׼ʱ��' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via the 'serverTimezone' configuration property) to use a more s_java.sql.sqlexception : the server time zone value 'pdt' is unrecognized or

windows程序设计 王艳平版_windows程序设计王艳平-程序员宅基地

文章浏览阅读1.3k次。// 02CreateProcess.cpp文件#include "stdafx.h"#include #include int main(int argc, char* argv[]){char szCommandLine[] = "cmd";STARTUPINFO si = { sizeof(si) };PROCESS_INFORMATION_windows程序设计王艳平

因特网(Internet)和广域网(WAN)之间的区别_wan和internet区别-程序员宅基地

文章浏览阅读3k次。Internet最早来源于美国国防部高级研究计划局DARPA(Defense advanced Research Projects Agency)的前身ARPA建立的ARPAnet,该网于1969年投入使用。最初,ARPAnet主要用于军事研究目的,它有五大特点:1.支持资源共享;2.采用分布式控制技术;3.采用分组交换技术;4.使用通信控制处理机;5.采用分层的网络通信协议。近十年来,随着社会科技,文化和经济的发展,特别是计算机网络技术和通信技术的大发展,随着人类社会从工业社会向信息社会过渡的趋势越来越明_wan和internet区别

随便推点

苹果手机设置灰度,不沉迷手机_苹果手机灰度有什么坏处-程序员宅基地

文章浏览阅读2.7k次。现在 沉迷手机的状况已经很严重了,危害是相当明显的: 首先对视力造成伤害,这个很明显; 其次损伤颈椎,这个也明显; 最后就是手机依赖增强,浪费时间;苹果 手机可以通过设置灰度来抑制玩手机的欲望;设置方法: 打开手机 ---> 找到设置 ----> _苹果手机灰度有什么坏处

MySQL到Kafka实时数据同步,手把手教你!-程序员宅基地

文章浏览阅读3.3k次。点击蓝字 关注我们很多 DBA 同学经常会遇到要从一个数据库实时同步到另一个数据库的问题。同构数据还相对容易,遇上异构数据、表多、数据量大等情况就难以同步。我自己亲测了一种方式,可以非常方..._kafka链接mysql数据库的小米手环心率数据的处理

计算机软件工程毕业设计题目推荐-程序员宅基地

文章浏览阅读485次,点赞4次,收藏10次。学长搜集分享最新的软件工程业专业毕设选题,难度适中,适合作为毕业设计,大家参考。相对容易工作量达标题目新颖。

php爬虫非常好用的一个库_php 爬虫库-程序员宅基地

文章浏览阅读584次。具体库连接:https://github.com/jae-jae/QueryList爬虫的流程:用代理模式爬取示例1:require 'autoload.php';use QL\QueryList;$urlParams = null;$opts = [ // Set the http proxy,设置代理模式 'proxy' => 'socks5h://127.0.0.1:7890', //Set the timeout time in seconds _php 爬虫库

IntellIJ IDEA 配置 Maven修改中央仓库为阿里云仓库_ieda将默认的maven仓库改为阿里的maven仓库-程序员宅基地

文章浏览阅读4k次,点赞3次,收藏20次。IntellIJ IDEA 配置 Maven修改中央仓库修改中央仓库为国内阿里云仓库Idea 自带了apache maven,默认使用的是内置maven,所以我们可以配置全局setting,来调整一下配置,比如远程仓库地址,本地编译环境变量等。1.打开Settings,在输入框输入maven,如图:2.如果本地设置了MAVEN_OPTS 系统环境变量,这个步骤可以忽略。MAVEN_OP..._ieda将默认的maven仓库改为阿里的maven仓库

2021-10-17_microg签名不一致-程序员宅基地

文章浏览阅读5.8k次,点赞2次,收藏4次。HarmonyOS 2.0正式版上安装谷歌服务框架GMS与谷歌应用商店Google Play。无需降级直接安装谷歌框架华为P50 P40 P30 Mate40 Mate30荣耀v30,参考YouTube视频: 华为手机鸿蒙2.0系统HarmonyOS 2.0正式版上安装谷歌服务框架GMS。问题一在激活设备管理器时,出现“由于另一个应用目前正显示在这些选项之上, “设置”无法回应迩的操作”。解决方法:关闭导航悬浮窗、备忘录速记。问题二Googlefier安装MiCrOG - HUAWEI FIX _microg签名不一致

推荐文章

热门文章

相关标签