当前位置: 开发笔记 > 编程语言 > 正文

工程化实践：如何基于自定义数据进行Ptuning实验？如何部署预测？

作者：小森林 | 来源：互联网 | 2023-08-13 17:40

关注微信公众号：NLP分享汇。【喜欢的扫波关注，每天都在更新自己之前的积累】背景说明谁说GPT只擅长生成，GPT也能自然语言理解。利用P

关注微信公众号&＃xff1a;NLP分享汇。【喜欢的扫波关注&＃xff0c;每天都在更新自己之前的积累】

· 背景说明

谁说GPT只擅长生成&＃xff0c;GPT也能自然语言理解。利用 P-tuning 方法&＃xff0c;GPT 的自然语言能力可以匹敌 BERT。2021年&＃xff0c;清华、智源等机构的一项研究打破了这一刻板印象。

这一切源于这篇论文&＃xff1a;《GPT Understands, Too》

论文原文&＃xff1a;https://arxiv.org/pdf/2103.10385.pdf

GitHub&＃xff1a;https://github.com/THUDM/P-tuning

但今天这篇文章并非要向大家赘述P-tuning原理。关于上述论文大家可以搜搜博客自行消化&＃xff0c;我们这里主要要借助百度PaddleNLP去介绍一下P-tuning小样本模型的一些工程化干货。

· 前言

小样本学习&＃xff08;Few-Shot Learning&＃xff09; 旨在研究如何从少量有监督的训练样本中学习出具有良好泛化性的模型&＃xff0c;对训练数据很少或监督数据获取成本极高的应用场景有很大价值。百度将中文预训练模型renie1.0和prompt方法结合&＃xff0c;为我们提供了一个P-tuning一站式的应用方法&＃xff0c;代码用起来超级方便。但是&＃xff0c;直接用百度github提供的内置数据、README去按部就班跑起来程序似乎对我们的帮助就很鸡肋&＃xff0c;更多的我们希望该开源能够应用到我们着手的具体小样本项目场景中&＃xff0c;比如&＃xff1a;风控、质检等。这篇文章则希望帮助读者们解决如下3个问题&＃xff1a;1&＃xff09;复现可能存在的环境安装问题和代码运行问题&＃xff0c;并奉上解决方法&＃xff1b;2&＃xff09;如何基于自定义数据实验P-tuning&＃xff1b;3&＃xff09;如何部署训练好的模型进行单句预测。

· 基础准备

在基于自定义数据进行P-tuning实验前&＃xff0c;小编希望读者能先按github上的README先跑起其内置的FewCLUE数据集&＃xff08;小样本学习测评基准-中文版&＃xff09;。

1&＃xff09;P-tuning github&＃xff1a;https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/few_shot/p-tuning

代码结构&＃xff1a;

2&＃xff09;FewCLUE数据集

github: https://github.com/CLUEbenchmark/FewCLUE

paper&＃xff1a;https://arxiv.org/abs/2107.07498

· 工程实践分析

1&＃xff09;环境安装和代码运行BUG

【BUG-1】ImportError: /usr/lib/x86_64-linux-gnu/libstdc&＃43;&＃43;.so.6: VERSION &＃39;GLIBCXX_3.4.22&＃39; not found 【解决方法】https://blog.csdn.net/u014577702/article/details/123453453?spm&＃61;1001.2014.3001.5502

【BUG-2】request.exceptions.ConnectionError: HTTPSConnectionPool(host&＃61;&＃39;paddlenlp.bj.bcebos.com&＃39;,port&＃61;443): Max retries exceeded w: /model/transformers/ernie/ernie_v1_chn_base.pdparams (Caused by New Connection) 【解决方法】自行下载相应安装内容&＃xff0c;导入相应位置。

【BUG-3】找不到libcublas.so 【解决方法】找不到libcublas.so&＃xff0c;则需要链接到该软链接所在位置&＃xff0c;使用如下命令 export LD_LIBRARY_PATH&＃61;/home/pafl/anaconda3/envs/mypaddle/lib:$PATH export LD_LIBRARY_PATH&＃61;conda环境所在位置:$PATH

【BUG-4】 INFO 2021-10-26 19:01:38,701 launch_utils.py:327] terminate all the procs ERROR 2021-10-26 19:01:38,702 launch_utils.py:584] ABORT!!! Out of all 1 trainers, the trainer process with rank&＃61;[0] was aborted. Please check its log. INFO 2021-10-26 19:01:41,705 launch_utils.py:327] terminate all the procs 【解决方法】https://github.com/PaddlePaddle/PaddleNLP/issues/1238

【BUG-5】训练报错ABORT!!! Out of all 1 trainers, the trainer process with rank&＃61;[0] was aborted. Please check its log. 【解决方法】单卡不需要 paddle.distributed.launch

【BUG-6】ln: failed to create symbolic link &＃39;libcudnn.so&＃39; : File exits 【解决方法】https://www.jianshu.com/p/b308d3bbde8a

【BUG-7】fatal error: &＃39;Segmentation fault&＃39; is detected by the operating system 【解决方法】https://blog.csdn.net/u014577702/article/details/123453508

【BUG-8】Fatal Error : &＃39;Access to an undefined portion of a memory object&＃39; is detected by the operating system 【解决方法】一般就是cudatoolkit、cudann的版本不符合环境要求&＃xff0c;升级到对应版本就行。我的cudatoolkit从8.0升级到1.0就能正常运行。conda install cudatoolkit&＃61;10.0

2&＃xff09;如何基于自定义数据实验P-tuning?

step-1 实现读取函数&＃xff0c;以字典形式返回明文数据&＃xff0c;并在def train()中更改加载数据的方式 eg:

# 假设明文数据为 \t 分隔的 2 列数据: text \t label def read_fn(data_path):example &＃61; []with open(data_path, &＃39;r&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:for line in f:text, label &＃61; line.rstrip().split(&＃39;\t&＃39;)yield {"text":text, ";label":label}

def do_train():...# 原直接利用内置数据fewclue的数据加载方式# train_ds, dev_ds, public_test_ds &＃61; load_dataset(# "fewclue",# name&＃61;args.task_name,# splits&＃61;("train_0", "dev_0", "test_public"))# 自己的数据加载方式train_ds &＃61; load_dataset(read_fn,data_path &＃61; "../train.txt",lazy&＃61;False)dev_ds &＃61; load_dataset(read_fn,data_path &＃61; "../dev.txt",lazy&＃61;False)public_test_ds &＃61; load_dataset(read_fn,data_path &＃61; "../test.txt",lazy&＃61;False)

step-2 在 ./label_normalized/ 目录下创建名为 mytask.json 的 Label map 词典&＃xff0c;负责对 Label 进行标准化, eg:

# 以 label 为 "Positive"、"Negative"的分类任务为例。 {"Negative":"负例","Positive":"正例"}

3&＃xff09;如何部署训练好的模型进行单句预测&＃xff1f;

# 单独写个py进行单句预测 import argparse import os import sys import random import time import json from functools import partialimport numpy as np import paddle import paddle.nn.functional as Fimport paddlenlp as ppnlp from model import ErnieForPretraining from paddlenlp.data import Stack, Tuple, Pad from paddlenlp.datasets import load_datasetfrom data import create_dataloader, transform_fn_dict from data import convert_example, convert_chid_example from evaluate import do_evaluate, do_evaluate_chid import timeparser &＃61; argparse.ArgumentParser() args &＃61; parser.parse_args()def set_seed(seed):"""sets random seed"""random.seed(seed)np.random.seed(seed)paddle.seed(seed)&＃64;paddle.no_grad() def do_predict(model, tokenizer, data_loader, label_normalize_dict):model.eval()normed_labels &＃61; [normalized_lablefor origin_lable, normalized_lable in label_normalize_dict.items()]origin_labels &＃61; [origin_lablefor origin_lable, normalized_lable in label_normalize_dict.items()]label_length &＃61; len(normed_labels[0])y_pred_labels &＃61; []for batch in data_loader:src_ids, token_type_ids, masked_positions &＃61; batch# [bs * label_length, vocab_size]prediction_probs &＃61; model.predict(input_ids&＃61;src_ids,token_type_ids&＃61;token_type_ids,masked_positions&＃61;masked_positions)batch_size &＃61; len(src_ids)vocab_size &＃61; prediction_probs.shape[1]# prediction_probs: [batch_size, label_lenght, vocab_size]prediction_probs &＃61; paddle.reshape(prediction_probs, shape&＃61;[batch_size, -1, vocab_size]).numpy()# [label_num, label_length]label_ids &＃61; np.array([tokenizer(label)["input_ids"][1:-1] for label in normed_labels])y_pred &＃61; np.ones(shape&＃61;[batch_size, len(label_ids)])# Calculate joint distribution of candidate labelsfor index in range(label_length):y_pred *&＃61; prediction_probs[:, index, label_ids[:, index]]# Get max probs label&＃39;s indexy_pred_index &＃61; np.argmax(y_pred, axis&＃61;-1)for index in y_pred_index:y_pred_labels.append(origin_labels[index])return y_pred_labelspredict_file &＃61; {"mytask": "mytask_predict.json" }def read_fn(data_path):example &＃61; []with open(data_path, &＃39;r&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:for line in f:sid, text &＃61; line.rstrip().split(&＃39;\t&＃39;)yield {"id":int(sid), "sentence":text}def write_my(task_name, output_file, pred_labels):test_ds &＃61; load_dataset(read_fn, data_path &＃61; "../test.txt", lazy&＃61;False)test_example &＃61; {}with open(output_file, &＃39;w&＃39;, encoding&＃61;&＃39;utf-8&＃39;) as f:for idx, example in enumerate(test_ds):test_example["id"] &＃61; example["id"]test_example["label"] &＃61; pred_labels[idx]str_test_example &＃61; json.dumps(test_example)f.write(str_test_example &＃43; "\n")write_fn &＃61; {"mytask": write_my }if __name__ &＃61;&＃61; "__main__":paddle.set_device(&＃39;cpu&＃39;)set_seed(1000)label_normalize_json &＃61; os.path.join("./label_normalized","mytask.json")init_from_ckpt &＃61; "../model_state.pdparams"label_norm_dict &＃61; Nonewith open(label_normalize_json, encoding&＃61;&＃39;utf-8&＃39;) as f:label_norm_dict &＃61; json.load(f)convert_example_fn &＃61; convert_examplepredict_fn &＃61; do_predictprint("model paramas loading ...")model &＃61; ErnieForPretraining.from_pretrained(&＃39;ernie-1.0&＃39;)tokenizer &＃61; ppnlp.transformers.ErnieTokenizer.from_pretrained(&＃39;ernie-1.0&＃39;)# Load parameters of best model on test_public.json of current taskif args.init_from_ckpt and os.path.isfile(args.init_from_ckpt):state_dict &＃61; paddle.load(args.init_from_ckpt)model.set_dict(state_dict)print("Loaded parameters from %s" % args.init_from_ckpt)else:raise ValueError("Please set --params_path with correct pretrained model file")# [src_ids, token_type_ids, masked_positions, masked_lm_labels]batchify_fn &＃61; lambda samples, fn&＃61;Tuple(Pad(axis&＃61;0, pad_val&＃61;tokenizer.pad_token_id), # src_idsPad(axis&＃61;0, pad_val&＃61;tokenizer.pad_token_type_id), # token_type_idsStack(dtype&＃61;"int64"), # masked_positions): [data for data in fn(samples)]trans_func &＃61; partial(convert_example_fn,tokenizer&＃61;tokenizer,max_seq_length&＃61;args.max_seq_length,p_embedding_num&＃61;args.p_embedding_num,is_test&＃61;True)while True:print("Input sentence: ")sentence &＃61; sys.stdin.readline().strip()# 如下只是一种最简单粗暴的方式&＃xff0c;大家有时间可以自行更改with open("../test.txt","w",encoding&＃61;&＃39;utf-8&＃39;) as ftest:ftest.write(&＃39;1&＃39; &＃43; &＃39;\t&＃39; &＃43; sentence)ftest.close()test_ds &＃61; load_dataset(read_fn,data_path&＃61;"../test.txt",lazy&＃61;False)# Task related transform operations, eg: numbert label -> text_label, english -> chinesetransform_fn &＃61; partial(transform_fn_dict[args.task_name],label_normalize_dict&＃61;label_norm_dict,is_test&＃61;True)test_ds &＃61; test_ds.map(transform_fn, lazy&＃61;False)test_data_loader &＃61; create_dataloader(test_ds,mode&＃61;&＃39;eval&＃39;,batch_size&＃61;1,batchify_fn&＃61;batchify_fn,trans_fn&＃61;trans_func)y_pred_labels &＃61; predict_fn(model, tokenizer, test_data_loader,label_norm_dict)if y_pred_labels[0] &＃61;&＃61; &＃39;Poscase&＃39;:print("正例")else:print("负例")

如果你在进行P-tuning实验中遇到了问题&＃xff0c;可以在公众号给我发消息&＃xff0c;定期查看回复。

推荐阅读

import
使用python自动化下载pdf文档

使用python输入PDF编号自动下载freepatentsonline.com的文档#!usrbinenvpython3#codingutf-8#Version:python3. ... [详细]

蜡笔小新 2023-10-17 12:29:08
main
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
main
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
command
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
require
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
string
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
string
r2dbc配置多数据源

R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]

蜡笔小新 2023-12-12 16:38:53
string
python开发技术详解pdf_python开发技术详解（一）

python是一门简单灵动的语言。从今天开始我要每天都做笔记，每天都要写博客记录我所想，我所学到的。笔记提纲：1，pyt ... [详细]

蜡笔小新 2023-10-17 17:19:36
sum
oracle安装时找不到启动,Oracle没有开机自启是怎么回事？这一步骤很重要

重启Oracle数据库重启Oracle数据库包括启动Oracle数据库服务进程和启动Oracle数据库两步，大家继续往下看。按照《【Oracle】什么?作为DBA&# ... [详细]

蜡笔小新 2023-10-16 22:31:42
sum
验证识别之你讲武德了吗？

说说那个试用版的打包软件，既然是试用版肯定要加个试用期限，但是里面的pb模型并没有放识别率最好的那个，而是放了一个识别率中等 ... [详细]

蜡笔小新 2023-10-16 20:25:37
eval
ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

作者:王雅冰方向:多模态学习论文：Cross-LingualCross-ModalRetrievalwithNoise-RobustLearning录取： ... [详细]

蜡笔小新 2023-10-13 12:22:18
range
NLP简单的数据增强方法

NLP简单的数据增强方法当训练数据量不充分，或者分布单一的情况下，数据增强可以快速扩充语料以避免过拟合的问题，同时，数据增强 ... [详细]

蜡笔小新 2023-10-13 09:39:34
range
Jupyter 使用Anaconda 虚拟环境内核

Anaconda虚拟环境中使用JupyterNotebook安装好Anaconda之后，进入AnacondaPrompt，创建虚拟环境， ... [详细]

蜡笔小新 2023-10-12 18:48:11
range
python人物抠图算法_比PS还好用！Python 20行代码批量抠图

抠图前vsPython自动抠图后在日常的工作和生活中，我们经常会遇到需要抠图的场景，即便是只有一张图片需要抠，也会抠得我们不耐烦ÿ ... [详细]

蜡笔小新 2023-10-12 18:22:39
range
百度AI Studio人流密度常规赛火热进行中，快来报名！

早晨七点半。北京初秋的凉风叫醒了住在望京西的你，睁开眼睛，一想到又要为人类的信息化事业贡献满满的正能量，你不禁哼唱起那句“早晨起来 ... [详细]

蜡笔小新 2023-10-12 18:57:29

小森林

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章