热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

float32精度_模型压缩系列方法——混合精度计算与量化压缩(3)

摘要移动端应用以及服务端节约空间都需要对当前的大模型进行适当压缩。本文继续介绍一种模型压缩方法。实际除了各种形式的distilling方式,混合精度计算与量化压缩方法
f40112ccd6b8240062757c4c3778aa66.png

摘要

移动端应用以及服务端节约空间都需要对当前的大模型进行适当压缩。本文继续介绍一种模型压缩方法。实际除了各种形式的distilling方式,混合精度计算与量化压缩方法也是非常常用的。

一、methodology

1.1 混合精度

实际在TensorFlow矩阵计算中,大多数是使用float32进行计算和存储的,但实际在可接受小幅精度损失的情况下,其中一部分变量可以采用float16进行变量申明和存储,仅仅在计算时候cast成为float32,也就形成了float32和float16混合的情景。

这样能压缩一部分空间;同时由于直接进行训练的缘故,效果偏差可控。

1.2 量化压缩

google 在官方网页中https://tensorflow.google.cn/api_docs/python/tf/lite/ 开源了量化压缩方法实现 8bit压缩。经过转换后,输入输出依旧是float,只不过中间的计算是用过8 bit来计算存储的。

对量化的实现是通过把常见操作转换为等价的八位版本达到的。涉及的操作包括卷积,矩阵乘法,激活函数,池化操作,以及拼接。转换脚本先把每个已知的操作替换为等价的量化版本。然后在操作的前后加上含有转换函数的子图,将input从浮点数转换成8 bit,再把output从8 bit转回浮点数。下面是 ReLu 的例子,input(float)==>relu==>output(float)

经过转换后,如下图所示:

ac06f77084e11d7cc82707d86b8ea8f5.png

quantize取input中的min和max,分别对应被量化的input中的最小值(0)和最大值(255),把[min, max]这个区间均匀分成255个小区间,把input中的值对应到对应的区间中。反量化操作则是把上述操作反向执行。

经过量化操作,可以有效提高点乘的计算效率。但当前google开源的tflite只对部分基础AIP有效,新出的很多高阶API尚不支持,期待后续开发。

二、data&实现

注意自行标记输入输出点:

from __future__ import print_functionimport os,sys
import time
from datetime import timedelta
import numpy as np
import tensorflow as tf
#from create_tf_record import *
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "2"
import tensorflow.contrib.slim as slim
from tensorflow.python.framework import graph_utildef freeze_graph(input_checkpoint,output_graph):''':param input_checkpoint::param output_graph: PBmodel path:return:'''# checkpoint = tf.train.get_checkpoint_state(model_folder) ## input_checkpoint = checkpoint.model_checkpoint_path ##output_node_names = "score_teacher/output_teacher"output_node_names = "score_student/output_student"#saver = tf.train.import_meta_graph(input_checkpoint + '.meta', clear_devices=True)graph = tf.get_default_graph()#input_graph_def = graph.as_graph_def()#with tf.Session() as sess:saver.restore(sess, input_checkpoint) #output_graph_def = graph_util.convert_variables_to_constants( # sess=sess,input_graph_def=input_graph_def,# :sess.graph_defoutput_node_names=output_node_names.split(","),variable_names_whitelist=None,variable_names_blacklist=None)#with tf.gfile.GFile(output_graph, "wb") as f: #f.write(output_graph_def.SerializeToString()) #print("%d ops in the final graph." % len(output_graph_def.node))
#
input_checkpoint='/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/best_validation'
out_pb_path='/data/liuyuanlin/push_project/push_model/push_student_model_topk_v2.0_20190910_1/pbmodel/IASv2.0.pb'
freeze_graph(input_checkpoint, out_pb_path)#=====================简单转换为 tensorflow lite格式 不压缩==================#
import tensorflow as tf
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "7"
input_arrays = ["input_x"]
output_arrays = ["cnn_student_1/output_student"]
#converter = tf.lite.TFLiteConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb", input_arrays, output_arrays)
converter = tf.contrib.lite.TocoConverter.from_frozen_graph("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/frozen_model_for_best_validation.pb",input_arrays, output_arrays)print("start convert..")
tflite_model = converter.convert()
print("convert ok and write the tflite model...")
open("/data/liuyuanlin/push_project/push_model/push_student_model_topk_20190819_1/pbmodel/converted_model.tflite", "wb").write(tflite_model)
#============================================================================##======================================================================================================#
#需要tf 1.14进行量化压缩
# default 默认压缩
import tensorflow as tf
in_tensors = ["input_x"]
out_tensors = ["score_student/output_student"]
graph_def_file = './push_student_model_topk_20190813_1/frozen_model_for_best_validation.pb'
converter = tf.lite.TFLiteConverter.from_frozen_graph(graph_def_file, in_tensors, out_tensors)
#converter.optimizations = [tf.lite.Optimize.OPTIMIZE_FOR_SIZE]
#converter.optimizations = [tf.lite.Optimize.OPTIMIZE_FOR_LATENCY]#OPTIMIZE_FOR_SIZE
converter.optimizations = [tf.lite.Optimize.DEFAULT]#tf.lite.Optimize下有DEFAULT,OPTIMIZE_FOR_LATENCY,OPTIMIZE_FOR_SIZE
tflite_model = converter.convert()
open("quantify_default_model.tflite", "wb").write(tflite_model)

参考文献

[1]

TensorFlow Lite | 适用于移动设备和边缘设备的机器学习技术​tensorflow.google.cn
1b985bc78b87d861d9fa2538ab110513.png

[2] https://www.tensorflow.org/lite/performance/post_training_quantization



推荐阅读
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 本文介绍了P1651题目的描述和要求,以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术,将问题转化为求解差值的问题,并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 加密世界下一个主流叙事领域:L2、跨链桥、GameFi等
    本文介绍了加密世界下一个主流叙事的七个潜力领域,包括L2、跨链桥、GameFi等。L2作为以太坊的二层解决方案,在过去一年取得了巨大成功,跨链桥和互操作性是多链Web3中最重要的因素。去中心化的数据存储领域也具有巨大潜力,未来云存储市场有望达到1500亿美元。DAO和社交代币将成为购买和控制现实世界资产的重要方式,而GameFi作为数字资产在高收入游戏中的应用有望推动数字资产走向主流。衍生品市场也在不断发展壮大。 ... [详细]
author-avatar
粪青12_601
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有