Skip to main content

什么是onehot编码

这么高大上的名字,顾名思义,就是在编码中只有一个1,其他是0。
眼熟吧。在Pyton神经网络编程这本书中,已经见过了。神经网络的输出中,用1000000000代表1,用01000000000代表1,以此类推,用0000000001代表9。
tf.one_hot()函数是将input转化为one-hot类型数据输出,相当于将多个数值联合放在一起作为多个相同类型的向量,可用于表示各自的概率分布,通常用于分类任务中作为最后的FC层的输出,有时翻译成“独热”编码。

tensorflow的help中相关说明如下:

one_hot(indices, depth, on_value=None, off_value=None, axis=None, dtype=None, name=None)

indices表示输入的多个数值,通常是矩阵形式;depth表示输出的尺寸。
由于one-hot类型数据长度为depth位,其中只用一位数字表示原输入数据,这里的on_value就是这个数字,默认值为1,one-hot数据的其他位用off_value表示,默认值为0。

tf.one_hot()函数规定输入的元素indices从0开始,最大的元素值不能超过(depth - 1),因此能够表示(depth + 1)个单位的输入。若输入的元素值超出范围,输出的编码均为 [0, 0 … 0, 0]。

indices = 0 对应的输出是[1, 0 … 0, 0], indices = 1 对应的输出是[0, 1 … 0, 0], 依次类推,最大可能值的输出是[0, 0 … 0, 1]。

代码示例如下:
---------------------
import tensorflow as tf
import numpy as np
t=[0,1,2,3,4]#onehot编码数据必须是整形
#indices, depth, on_value=None, off_value=None, axis=None, dtype=None
indices=t
depth=5#不能小于t的长度
sess=tf.Session()
on_value=1#默认是1,也可以设置为其他值,比如9
off_value=0#默认是0,也可以设置为其他数值,比如2
axis=0#默认是0,纵轴方向编码,0是纵轴,1是横轴,类似于相互转置
oh1=tf.one_hot(t,depth=depth,axis=axis)
oh2=tf.one_hot(t,depth=depth,axis=axis,on_value=9,off_value=2)
print(sess.run(oh1))
print(sess.run(oh2))
#输出结果点击链接

Comments

Popular posts from this blog

神经网络(容易被忽视的基础知识)

神经网络(容易被忽视的基础知识) Evan 180 人赞了该文章 以下大多笔记主要来自cs231n和其他深度学习资料和一些我自己的补充,首先CS231n一个非常不错的deep learning课,值得一看,奉上 链接 ,然后,cs231n本身是有笔记的- 链接 ,最后,知乎上的一些大神对这个笔记进行了翻译--- 链接 。在这里,我主要是将一些重要的笔记,我认为是比较容易被我们忽视的,加上查阅其他博文,做一个笔记和心得总结! 这次主要讲解的内容有: 基本神经元 作为线性分类器的单个神经元 为什么要是深度神经网而不是”肥胖“神经网络? 为什么在人工神经网络中的神经元需要激活函数? 一些主要的激活函数 神经网络中的偏置有什么意义? 初始化神经网络的参数可以全为0吗,其他普通线性分类器呢? 交叉熵损失存在的意义和与平方差损失相比有什么好处? 神经元 下面图表的左边展示了一个生物学的神经元,右边展示了一个常用的数学模型。乍一看还是有点相似的,事实上也是,人工神经网络中的神经元也有受到生物神经元的启发。总结要点: 在生物的神经元(也就是左图)中,树突将信号传递到细胞体,信号在细胞体中相加。如果最终之和高于某个阈值,那么神经元将会 激活 ,向其轴突输出一个峰值信号, 注意这里输出是一个脉冲信号! 在数学计算模型(也就是右图)中,首先将输入 进行加权求和加上偏执 ,得到待激励值,然后将该值作为输入,输入到 激活函数 中,最后输出的是一个 激励后的值 ,这里的激活函数可以看成对生物中神经元的激活率建模。由于历史原因,激活函数常常选择使用 sigmoid函数  , 当然还有很多其他激活函数,下面再仔细聊! 需要注意: 1.一个神经元可以看成 包含两个部分 ,一个是对输入的加权求和加上偏置,一个是激活函数对求和后的激活或者抑制。2.注意生物中的神经元要复杂的多,其中一个是生物中的输出是一个脉冲,而现在大多数的数学模型神经输出的就是一个值,当然现在也有一些脉冲人工神经网络,可以自行了解! 作为线性分类器的单个神经元 比如基础的逻辑回归,结合上面的神经元知识,可以发现,逻辑回归就是激活函数是 sigmoid 的单层简单神经网络。也就是说,只要在神经元...

tf.split用法

按照行或者列分割一个矩阵 第一个参数是待切分的张量,第二个是切分的大小,共切分为三个,每一个分别为4列,15列,11列。第三个参数为1表示按照列切分,为0表示按照行切分。 切分的子块的大小加起来应该等于母块的大小。比如这个例子,4+15+11=30列 看下面的代码例子

谈axis

Python和TF张量计算中经常见的形参,代表什么意思呢?     首先请看一下官方帮助的解释:     轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。如下图     注意看,官方对于0和1的解释是轴,也就是坐标轴。而坐标轴是有方向的,所以千万不要用行和列的思维去想axis,因为行和列是没有方向的,这样想会在遇到不同的例子时感到困惑。     根据官方的说法,1表示横轴,方向从左到右;0表示纵轴,方向从上到下。当axis=1时,数组的变化是横向的,而体现出来的是列的增加或者减少。我们拿图形举个例子:     我们有一个正方形,假设是4x4的     接下来我们让他横向增加一个单位,也就是长度+1,变成了一个5x4的长方形 也就是说,对于这个4x4的正方形而言,当axis=1时,体现的是横向的长度+1,而如果这是一个4行4列的二维数组同样也是如此,但是体现出来是增加了一列。     所以其实axis的重点在于方向,而不是行和列。具体到各种用法而言也是如此。当axis=1时,如果是求平均,那么是从左到右横向求平均;如果是拼接,那么也是左右横向拼接;如果是drop,那么也是横向发生变化,体现为列的减少。 当考虑了方向,即axis=1为横向,axis=0为纵向,而不是行和列,那么所有的例子就都统一了。题主的疑问也就迎刃而解。