• Tensorflow简单CNN实现


    1. """转换图像数据格式时需要将它们的颜色空间变为灰度空间,将图像尺寸修改为同一尺寸,并将标签依附于每幅图像"""
    2. import tensorflow as tf
    3. sess = tf.Session()
    4. import glob
    5. image_filenames = glob.glob("./imagenet-dogs/n02*/*.jpg") # 访问imagenet-dogs文件夹中所有n02开头的子文件夹中所有的jpg文件
    6. # image_filenames[0:2] 此语句表示image_filenames文件中的从第0个编号到第2个编号的值
    7. # ['./imagenet-dogs\\n02085620-Chihuahua\\n02085620_10074.jpg',
    8. # './imagenet-dogs\\n02085620-Chihuahua\\n02085620_10131.jpg']
    9. # 此时image_filenames中保存的全部是类似于以上形式的值
    10. # 注意书上的解释和这个输出和此处的输出与有很大的不同,原因是书本是用linux系统,
    11. # 所以是以"/"对文件名进行分隔符的操作而此处不是windows下使用"\\"对文件名进行操作.
    12. from itertools import groupby
    13. from collections import defaultdict
    14. training_dataset = defaultdict(list)
    15. testing_dataset = defaultdict(list)
    16. # Split up the filename into its breed and corresponding filename. The breed is found by taking the directory name
    17. # 将文件名分解为品种和对应的文件名,品种对应于文件夹名称
    18. image_filename_with_breed = map(lambda filename: (filename.split("/")[1].split("\\")[1], filename), image_filenames)
    19. # 表示定义一个匿名函数lambda传入参数为filename,对filename以"/"为分隔符,然后取第二个值,并且返回filename.split("/")[1]和filename
    20. # 并且以image_filenames作为参数
    21. # ('n02086646-Blenheim_spaniel', './imagenet-dogs\\n02086646-Blenheim_spaniel\\n02086646_3739.jpg')
    22. # Group each image by the breed which is the 0th element in the tuple returned above
    23. # 依据品种(上述返回的元组的第0个分量对元素进行分组)
    24. for dog_breed, breed_images in groupby(image_filename_with_breed, lambda x: x[0]):
    25. # Enumerate each breed's image and send ~20% of the images to a testing set
    26. # 美剧每个品种的图像,并将大致20%的图像划入测试集
    27. # 此函数返回的dog_breed即是image_filename_with_breed[0]也就是文件夹的名字即是狗的类别
    28. # breed_images则是一个迭代器是根据狗的类别进行分类的
    29. for i, breed_image in enumerate(breed_images):
    30. # breed_images此时是根据狗的种类进行分类的迭代器
    31. # 返回的i表示品种的代表编号
    32. # 返回的breed_image表示这个标号的种类下狗的图片
    33. if i%5 == 0:
    34. testing_dataset[dog_breed].append(breed_image[1])
    35. else:
    36. training_dataset[dog_breed].append(breed_image[1])
    37. # 表示其中五分之一加入测试集其余进入训练集
    38. # 并且以狗的类别名称进行区分,向同一类型中添加图片
    39. # Check that each breed includes at least 18% of the images for testing
    40. breed_training_count = len(training_dataset[dog_breed])
    41. breed_testing_count = len(testing_dataset[dog_breed])
    42. # 现在,每个字典就按照下列格式包含了所有的Chihuahua图像
    43. # training_dataset["n02085620-Chihuahua"] = ['./imagenet-dogs\\n02085620-Chihuahua\\n02085620_10131.jpg', ...]
    44. def write_records_file(dataset, record_location):
    45. """
    46. Fill a TFRecords file with the images found in `dataset` and include their category.
    47. 用dataset中的图像填充一个TFRecord文件,并将其类别包含进来
    48. Parameters
    49. 参数
    50. ----------
    51. dataset : dict(list)
    52. Dictionary with each key being a label for the list of image filenames of its value.
    53. 这个字典的键对应于其值中文件名列表对应的标签
    54. record_location : str
    55. Location to store the TFRecord output.
    56. 存储TFRecord输出的路径
    57. """
    58. writer = None
    59. # Enumerating the dataset because the current index is used to breakup the files if they get over 100
    60. # images to avoid a slowdown in writing.
    61. # 枚举dataset,因为当前索引用于对文件进行划分,每个100幅图像,训练样本的信息就被写入到一个新的TFRecord文件中,以加快写操作的速度
    62. current_index = 0
    63. for breed, images_filenames in dataset.items():
    64. # print(breed) n02085620-Chihuahua...
    65. # print(image_filenames) ['./imagenet-dogs\\n02085620-Chihuahua\\n02085620_10074.jpg', ...]
    66. for image_filename in images_filenames:
    67. if current_index%100 == 0: # 如果记录了100个文件的话,write就关闭
    68. if writer:
    69. writer.close()
    70. # 否则开始记录write文件
    71. # record_Location表示当前的目录
    72. # current_index初始值为0,随着文件记录逐渐增加
    73. record_filename = "{record_location}-{current_index}.tfrecords".format(
    74. record_location=record_location,
    75. current_index=current_index)
    76. # format是格式化字符串操作,通过format(){}函数将文件名保存到record_filename中
    77. writer = tf.python_io.TFRecordWriter(record_filename)
    78. current_index += 1
    79. image_file = tf.read_file(image_filename)
    80. # In ImageNet dogs, there are a few images which TensorFlow doesn't recognize as JPEGs. This
    81. # try/catch will ignore those images.
    82. # 在ImageNet的狗的图像中,有少量无法被Tensorflow识别为JPEG的图像,利用try/catch可将这些图像忽略
    83. try:
    84. image = tf.image.decode_jpeg(image_file)
    85. except:
    86. print(image_filename)
    87. continue
    88. # Converting to grayscale saves processing and memory but isn't required.
    89. # 将其转化为灰度图片的类型,虽然这并不是必需的,但是可以减少计算量和内存占用,
    90. grayscale_image = tf.image.rgb_to_grayscale(image)
    91. resized_image = tf.image.resize_images(grayscale_image, (250, 151)) # 并将图片修改为长250宽151的图片类型
    92. # tf.cast is used here because the resized images are floats but haven't been converted into
    93. # image floats where an RGB value is between [0,1).
    94. # 这里之所以使用tf.cast,是因为 尺寸更改后的图像的数据类型是浮点数,但是RGB值尚未转换到[0,1)的区间之内
    95. image_bytes = sess.run(tf.cast(resized_image, tf.uint8)).tobytes()
    96. # Instead of using the label as a string, it'd be more efficient to turn it into either an
    97. # integer index or a one-hot encoded rank one tensor.
    98. # https://en.wikipedia.org/wiki/One-hot
    99. # 将标签按照字符串存储较为高效,推荐的做法是将其转换成整数索引或独热编码的秩1张量
    100. image_label = breed.encode("utf-8")
    101. example = tf.train.Example(features=tf.train.Features(feature={
    102. 'label': tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_label])),
    103. 'image': tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_bytes]))
    104. }))
    105. writer.write(example.SerializeToString()) # 将其序列化为二进制字符串
    106. writer.close()
    107. write_records_file(testing_dataset, "./output/testing-images/testing-image")
    108. write_records_file(training_dataset, "./output/training-images/training-image")
    109. filename_queue = tf.train.string_input_producer(tf.train.match_filenames_once("./output/training-images/*.tfrecords"))
    110. # 生成文件名队列
    111. reader = tf.TFRecordReader()
    112. _, serialized = reader.read(filename_queue)
    113. # 通过阅读器读取value值并将其保存为serialized
    114. # 模板化的代码,将label和image分开
    115. features = tf.parse_single_example(
    116. serialized,
    117. features={
    118. 'label': tf.FixedLenFeature([], tf.string),
    119. 'image': tf.FixedLenFeature([], tf.string),
    120. })
    121. record_image = tf.decode_raw(features['image'], tf.uint8)
    122. # tf.decode_raw()函数将字符串的字节重新解释为一个数字的向量
    123. # Changing the image into this shape helps train and visualize the output by converting it to
    124. # be organized like an image.
    125. # 修改图像的形状有助于训练和输出的可视化
    126. image = tf.reshape(record_image, [250, 151, 1])
    127. label = tf.cast(features['label'], tf.string)
    128. min_after_dequeue = 10 # 当一次出列操作完成后,队列中元素的最小数量,往往用于定义元素的混合级别.
    129. batch_size = 3 # 批处理大小
    130. capacity = min_after_dequeue + 3*batch_size # 批处理容量
    131. image_batch, label_batch = tf.train.shuffle_batch(
    132. [image, label], batch_size=batch_size, capacity=capacity, min_after_dequeue=min_after_dequeue, num_threads=4)
    133. # 通过随机打乱的方式创建数据批次
    134. # Converting the images to a float of [0,1) to match the expected input to convolution2d
    135. # 将图像转换为灰度值位于[0, 1)的浮点类型,以与convlution2d期望的输入匹配
    136. float_image_batch = tf.image.convert_image_dtype(image_batch, tf.float32)
    137. # 第一个卷积层
    138. conv2d_layer_one = tf.contrib.layers.conv2d(
    139. float_image_batch,
    140. num_outputs=32, # 生成的滤波器的数量
    141. kernel_size=(5, 5), # 滤波器的高度和宽度
    142. activation_fn=tf.nn.relu,
    143. weights_initializer=tf.random_normal_initializer, # 设置weight的值是正态分布的随机值
    144. stride=(2, 2), # 对image_batch和imput_channels的跨度值
    145. trainable=True)
    146. # shape(3, 125, 76,32)
    147. # 3表示批处理数据量是3,
    148. # 125和76表示经过卷积操作后的宽和高,这和滤波器的大小还有步长有关系
    149. # 第一个混合/池化层,输出降采样
    150. pool_layer_one = tf.nn.max_pool(conv2d_layer_one,
    151. ksize=[1, 2, 2, 1],
    152. strides=[1, 2, 2, 1],
    153. padding='SAME')
    154. # shape(3, 63,38,32)
    155. # 混合层ksize,1表示选取一个批处理数据,2表示在宽的维度取2个单位,2表示在高的取两个单位,1表示选取一个滤波器也就数选择一个通道进行操作.
    156. # strides步长表示其分别在四个维度上的跨度
    157. # Note, the first and last dimension of the convolution output hasn't changed but the
    158. # middle two dimensions have.
    159. # 注意卷积输出的第一个维度和最后一个维度没有发生变化,但是中间的两个维度发生了变化
    160. # 第二个卷积层
    161. conv2d_layer_two = tf.contrib.layers.conv2d(
    162. pool_layer_one,
    163. num_outputs=64, # 更多输出通道意味着滤波器数量的增加
    164. kernel_size=(5, 5),
    165. activation_fn=tf.nn.relu,
    166. weights_initializer=tf.random_normal_initializer,
    167. stride=(1, 1),
    168. trainable=True)
    169. # shape(3, 63,38,64)
    170. pool_layer_two = tf.nn.max_pool(conv2d_layer_two,
    171. ksize=[1, 2, 2, 1],
    172. strides=[1, 2, 2, 1],
    173. padding='SAME')
    174. # shape(3, 32, 19,64)
    175. # 由于后面要使用softmax,因此全连接层需要修改为二阶张量,张量的第1维用于区分每幅图像,第二维用于对们每个输入张量的秩1张量
    176. flattened_layer_two = tf.reshape(
    177. pool_layer_two,
    178. [
    179. batch_size, # image_batch中的每幅图像
    180. -1 # 输入的其他所有维度
    181. ])
    182. # 例如,如果此时一批次有三个数据的时候,则每一行就是一个数据行,然后每一列就是这个图片的数据,
    183. # 这里的-1参数将最后一个池化层调整为一个巨大的秩1张量
    184. # 全连接层1
    185. hidden_layer_three = tf.contrib.layers.fully_connected(
    186. flattened_layer_two,
    187. 512,
    188. weights_initializer=tf.truncated_normal_initializer(stddev=0.1),
    189. activation_fn=tf.nn.relu
    190. )
    191. # 对一些神经元进行dropout操作.每个神经元以0.1的概率决定是否放电
    192. hidden_layer_three = tf.nn.dropout(hidden_layer_three, 0.1)
    193. # The output of this are all the connections between the previous layers and the 120 different dog breeds
    194. # available to train on.
    195. # 输出是前面的层与训练中可用的120个不同品种的狗的品种的全连接
    196. # 全连接层2
    197. final_fully_connected = tf.contrib.layers.fully_connected(
    198. hidden_layer_three,
    199. 120, # ImageNet Dogs 数据集中狗的品种数
    200. weights_initializer=tf.truncated_normal_initializer(stddev=0.1)
    201. )
    202. """
    203. 由于每个标签都是字符串类型,tf.nn.softmax无法直接使用这些字符串,所以需要将这些字符创转换为独一无二的数字,
    204. 这些操作都应该在数据预处理阶段进行
    205. """
    206. import glob
    207. # Find every directory name in the imagenet-dogs directory (n02085620-Chihuahua, ...)
    208. # 找到位于imagenet-dogs路径下的所有文件目录名
    209. labels = list(map(lambda c: c.split("/")[-1].split("\\")[1], glob.glob("./imagenet-dogs/*")))
    210. # Match every label from label_batch and return the index where they exist in the list of classes
    211. # 匹配每个来自label_batch的标签并返回它们在类别列表的索引
    212. # 将label_batch作为参数l传入到匿名函数中tf.map_fn函数总体来讲和python中map函数相似,map_fn主要是将定义的函数运用到后面集合中每个元素中
    213. train_labels = tf.map_fn(lambda l: tf.where(tf.equal(labels, l))[0, 0:1][0], label_batch, dtype=tf.int64)
    214. # setup-only-ignore
    215. loss = tf.reduce_mean(
    216. tf.nn.sparse_softmax_cross_entropy_with_logits(
    217. logits=final_fully_connected, labels=train_labels))
    218. global_step = tf.Variable(0) # 相当于global_step,是一个全局变量,在训练完一个批次后自动增加1
    219. # 学习率使用退化学习率的方法
    220. # 设置初始学习率为0.01,
    221. learning_rate = tf.train.exponential_decay(learning_rate=0.01, global_step=global_step, decay_steps=120,
    222. decay_rate=0.95, staircase=True)
    223. optimizer = tf.train.AdamOptimizer(learning_rate, 0.9).minimize(loss, global_step=global_step)
    224. # 主程序
    225. init_op = tf.group(tf.global_variables_initializer(), tf.local_variables_initializer())
    226. sess.run(init_op)
    227. coord = tf.train.Coordinator()
    228. # 线程控制管理器
    229. threads = tf.train.start_queue_runners(sess=sess, coord=coord)
    230. # 训练
    231. training_steps = 1000
    232. for step in range(training_steps):
    233. sess.run(optimizer)
    234. if step % 10 == 0:
    235. print("loss:", sess.run(loss))
    236. train_prediction = tf.nn.softmax(final_fully_connected)
    237. # setup-only-ignore
    238. filename_queue.close(cancel_pending_enqueues=True)
    239. coord.request_stop()
    240. coord.join(threads)
    241. sess.close()

    新手指南,函数参考

    Glob

    glob是python自己带的一个文件操作相关模块,用它可以查找符合自己目的的文件,就类似于Windows下的文件搜索,支持通配符操作,,?,[]这三个通配符,
    代表0个或多个字符,?代表一个字符,[]匹配指定范围内的字符,如[0-9]匹配数字。它的主要方法就是glob,该方法返回所有匹配的文件路径列表,
    该方法需要一个参数用来指定匹配的路径字符串(本字符串可以为绝对路径也可以为相对路径),其返回的文件名只包括当前目录里的文件名,不包括子文件夹里的文件。
    glob.glob(r'c:*.txt')
    我这里就是获得C盘下的所有txt文件
    glob.glob(r'E:\pic**.jpg')
    获得指定目录下的所有jpg文件
    使用相对路径:
    glob.glob(r'../*.py')

    group

    groupby(iterable[, keyfunc])
    返回:按照keyfunc函数对序列每个元素执行后的结果分组(每个分组是一个迭代器), 返回这些分组的迭代器
    例子:

    1. from itertools import *
    2. a = ['aa', 'ab', 'abc', 'bcd', 'abcde']
    3. for i, k in groupby(a, len):#按照字符串的长度对a的每个元素进行分组
    4. for m in k:
    5. print m,
    6. print i
    7. 输出:
    8. aa ab 2
    9. abc bcd 3
    10. abcde 5

    defaultdict对象

    class collections.defaultdict([default_factory[, ...]])
    返回一个新的类似字典的对象。defaultdict是内置dict类的子类。它覆盖一个方法,并添加一个可写的实例变量。其余的功能与dict类相同,这里就不再记录。
    第一个参数提供default_factory属性的初始值;它默认为None。所有剩余的参数都视为与传递给dict构造函数的参数相同,包括关键字参数。
    defaultdict对象除了支持标准的dict操作,还支持以下方法:

    missing ( key )
    如果default_factory属性为None,则以key作为参数引发KeyError异常。
    如果default_factory不为None,则不带参数调用它以用来给key提供默认值,此值将插入到字典中用于key,并返回。
    如果调用default_factory引发异常,则该异常会保持原样传播。
    当未找到请求的key时,此方法由dict类的__getitem__()方法调用;getitem()将返回或引发它返回或引发的。
    请注意,除了__getitem__()之外的任何操作,都不会调用__missing__()。这意味着get()会像正常的字典一样返回None作为默认值,而不是使用default_factory。
    defaultdict对象支持以下实例变量:
    default_factory
    此属性由__missing__()方法使用;如果构造函数的第一个参数存在,则初始化为它,如果不存在,则初始化为None。

    defaultdict示例

    1. 使用list作为default_factory,可以很容易地将一系列键值对分组为一个列表字典:
    2. >>>
    3. >>> s = [('yellow', 1), ('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]
    4. >>> d = defaultdict(list)
    5. >>> for k, v in s:
    6. ... d[k].append(v)
    7. ...
    8. >>> sorted(d.items())
    9. [('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

    当每个键第一次遇到时,它不在映射中;因此使用返回空list的default_factory函数自动创建一个条目。然后,list.append()操作将值附加到新列表。当再次遇到这个键时,查找正常继续(返回该键的列表),并且list.append()操作向列表中添加另一个值。这种技术比使用等效的dict.setdefault()技术更简单和更快:

    1. >>>
    2. >>> d = {}
    3. >>> for k, v in s:
    4. ... d.setdefault(k, []).append(v)
    5. ...
    6. >>> sorted(d.items())
    7. [('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]

    将default_factory设置为int可使defaultdict用于计数(如其他语言的bag或multiset):

    1. >>>
    2. >>> s = 'mississippi'
    3. >>> d = defaultdict(int)
    4. >>> for k in s:
    5. ... d[k] += 1
    6. ...
    7. >>> sorted(d.items())
    8. [('i', 4), ('m', 1), ('p', 2), ('s', 4)]

    当一个字母第一次遇到时,映射中缺少该字母,因此default_factory函数调用int()以提供默认计数零。增量操作然后建立每个字母的计数。
    始终返回零的函数int()只是常量函数的特殊情况。创建常量函数的更快和更灵活的方法是使用lambda函数,它可以提供任何常量值(不只是零):

    1. >>>
    2. >>> def constant_factory(value):
    3. ... return lambda: value
    4. >>> d = defaultdict(constant_factory(''))
    5. >>> d.update(name='John', action='ran')
    6. >>> '%(name)s %(action)s to %(object)s' % d
    7. 'John ran to '

    将default_factory设置为set可使defaultdict有助于构建集合字典:

    1. >>>
    2. >>> s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
    3. >>> d = defaultdict(set)
    4. >>> for k, v in s:
    5. ... d[k].add(v)
    6. ...
    7. >>> sorted(d.items())
    8. [('blue', {2, 4}), ('red', {1, 3})]

    Lambda

    lambda的一般形式是关键字lambda后面跟一个或多个参数,紧跟一个冒号,以后是一个表达式。lambda是一个表达式而不是一个语句。它能够出现在python语法不允许def出现的地方。作为表达式,lambda返回一个值(即一个新的函数)。lambda用来编写简单的函数,而def用来处理更强大的任务。

    1. 1. f = lambda x,y,z : x+y+z
    2. 2. print f(1,2,3)
    3. 3.
    4. 4. g = lambda x,y=2,z=3 : x+y+z
    5. 5. print g(1,z=4,y=5)
    6. 输出
    7. 1. 6
    8. 2. 10

    Split

    Python中有split()和os.path.split()两个函数,具体作用如下:
    split():拆分字符串。通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(list)
    os.path.split():按照路径将文件名和路径分割开

    一、函数说明
    1、split()函数
    语法:str.split(str="",num=string.count(str))[n]
    参数说明:
    str:表示为分隔符,默认为空格,但是不能为空('')。若字符串中没有分隔符,则把整个字符串作为列表的一个元素
    num:表示分割次数。如果存在参数num,则仅分隔成 num+1 个子字符串,并且每一个子字符串可以赋给新的变量
    [n]:表示选取第n个分片
    注意:当使用空格作为分隔符时,对于中间为空的项会自动忽略

    2、os.path.split()函数
    语法:os.path.split('PATH')
    参数说明:
    1.PATH指一个文件的全路径作为参数:
    2.如果给出的是一个目录和文件名,则输出路径和文件名
    3.如果给出的是一个目录名,则输出路径和为空文件名

    二、分离字符串
    string = "www.gziscas.com.cn"
    1.以'.'为分隔符
    print(string.split('.'))
    ['www', 'gziscas', 'com', 'cn']

    2.分割两次
    print(string.split('.',2))
    ['www', 'gziscas', 'com.cn']

    3.分割两次,并取序列为1的项
    print(string.split('.',2)[1])
    gziscas

    4.分割两次,并把分割后的三个部分保存到三个文件
    u1, u2, u3 =string.split('.',2)
    print(u1)—— www
    print(u2)—— gziscas
    print(u3) ——com.cn

    三、分离文件名和路径
    import os
    print(os.path.split('/dodo/soft/python/'))
    ('/dodo/soft/python', '')

    print(os.path.split('/dodo/soft/python'))
    ('/dodo/soft', 'python')

    四、实例
    str="hello boy<[www.baidu.com]>byebye"
    print(str.split("[")[1].split("]")[0])
    www.baidu.com

    filter

    filter()函数包括两个参数,分别是function和list。该函数根据function参数返回的结果是否为真来过滤list参数中的项,最后返回一个新列表,如下例所示

    1. >>>a=[1,2,3,4,5,6,7]
    2. >>>b=filter(lambda x:x>5, a)
    3. >>>print b
    4. >>>[6,7]
    5. 如果filter参数值为None,就使用identity()函数,list参数中所有为假的元素都将被删除。如下所示:
    6. >>>a=[0,1,2,3,4,5,6,7]
    7. b=filter(None, a)
    8. >>>print b
    9. >>>[1,2,3,4,5,6,7]

    map

    map()的两个参数一个是函数名,另一个是列表或元组。

    1. >>>map(lambda x:x+3, a) #这里的a同上
    2. >>>[3,4,5,6,7,8,9,10]
    3. #另一个例子
    4. >>>a=[1,2,3]
    5. >>>b=[4,5,6]
    6. >>>map(lambda x,y:x+y, a,b)
    7. >>>[5,7,9]

    reduce

    1. reduce 函数按照指定规则递归求值
    2. >>>reduce(lambda x,y:x*y, [1,2,3,4,5])
    3. >>>120
    4. >>>reduce(lambda x,y:x*y, [1,2,3], 10)
    5. >>>60 # ((1*2)*3)*10

    enumerate

    enumerate(iteration, start):返回一个枚举的对象。迭代器(iteration)必须是另外一个可以支持的迭代对象。初始值默认为零,也就是你如果不输入start那就代表从零开始。迭代器的输入可以是列表,字符串,集合等,因为这些都是可迭代的对象。返回一个对象,如果你用列表的形式表现出来的话那就是一个列表,列表的每个元素是一个元组,元祖有两个元素,第一个元素代表编号,也就是第几个元素的意思,第二个元素就是迭代器的对应的元素,这是在默认start为零的情况下。如果不为零,那就是列表的第一个元组的第一个元素就是start的值,后面的依次累加,第二个元素还是一样的意思。
    例如:

    1. 1. str1 = 'lplplp' # string
    2. 2. list1 = [1, 5, 6] # list
    3. 3. tuple1 = (5, 8, 4, 2) # 元组
    4. 4. set1 = {'kl', 'lk'} # 集合
    5. 5.
    6. 6. print list(enumerate(str1))
    7. 7. print list(enumerate(str1, start=2))
    8. 8.
    9. 9. print list(enumerate(list1))
    10. 10. print list(enumerate(list1, start=2))
    11. 11.
    12. 12. print list(enumerate(tuple1))
    13. 13. print list(enumerate(tuple1, start=2))
    14. 14.
    15. 15. print list(enumerate(set1))
    16. 16. print list(enumerate(set1, start=2))
    17. 输出:
    18. [(0, 'l'), (1, 'p'), (2, 'l'), (3, 'p'), (4, 'l'), (5, 'p')]
    19. [(2, 'l'), (3, 'p'), (4, 'l'), (5, 'p'), (6, 'l'), (7, 'p')]
    20. [(0, 1), (1, 5), (2, 6)]
    21. [(2, 1), (3, 5), (4, 6)]
    22. [(0, 5), (1, 8), (2, 4), (3, 2)]
    23. [(2, 5), (3, 8), (4, 4), (5, 2)]
    24. [(0, 'lk'), (1, 'kl')]
    25. [(2, 'lk'), (3, 'kl')]

    tf.train.shuffle_batch

    tf.train.shuffle_batch(tensor_list, batch_size, capacity, min_after_dequeue, num_threads=1, seed=None, enqueue_many=False, shapes=None, name=None)

    Creates batches by randomly shuffling tensors.
    通过随机打乱张量的顺序创建批次.

    简单来说就是读取一个文件并且加载一个张量中的batch_size行

    This function adds the following to the current Graph:
    这个函数将以下内容加入到现有的图中.

    A shuffling queue into which tensors from tensor_list are enqueued.
    一个由传入张量组成的随机乱序队列
    A dequeue_many operation to create batches from the queue.
    从张量队列中取出张量的出队操作
    A QueueRunner to QUEUE_RUNNER collection, to enqueue the tensors
    from tensor_list.
    一个队列运行器管理出队操作.

    If enqueue_many is False, tensor_list is assumed to represent a
    single example. An input tensor with shape [x, y, z] will be output
    as a tensor with shape [batch_size, x, y, z].
    If enqueue_many is True, tensor_list is assumed to represent a
    batch of examples, where the first dimension is indexed by example,
    and all members of tensor_list should have the same size in the
    first dimension. If an input tensor has shape [*, x, y, z], the
    output will have shape [batch_size, x, y, z].

    'enqueue_many’主要是设置tensor中的数据是否能重复,如果想要实现同一个样本多次出现可以将其设置为:“True”,如果只想要其出现一次,也就是保持数据的唯一性,这时候我们将其设置为默认值:"False"
    The capacity argument controls the how long the prefetching is allowed to grow the queues.
    容量控制了预抓取操作对于增加队列长度操作的长度.
    For example:

    Creates batches of 32 images and 32 labels.

    image_batch, label_batch = tf.train.shuffle_batch(
    [single_image, single_label],
    batch_size=32,
    num_threads=4,
    capacity=50000,
    min_after_dequeue=10000)
    Args:

    tensor_list: The list of tensors to enqueue.
    入队的张量列表
    batch_size: The new batch size pulled from the queue.
    表示进行一次批处理的tensors数量.
    capacity: An integer. The maximum number of elements in the queue.
    容量:一个整数,队列中的最大的元素数.
    这个参数一定要比min_after_dequeue参数的值大,并且决定了我们可以进行预处理操作元素的最大值.
    推荐其值为:
    capacity=(min_after_dequeue+(num_threads+a small safety margin∗batchsize)

    min_after_dequeue: Minimum number elements in the queue after a
    dequeue(出列), used to ensure a level of mixing of elements.
    当一次出列操作完成后,队列中元素的最小数量,往往用于定义元素的混合级别.
    定义了随机取样的缓冲区大小,此参数越大表示更大级别的混合但是会导致启动更加缓慢,并且会占用更多的内存
    num_threads: The number of threads enqueuing tensor_list.
    设置num_threads的值大于1,使用多个线程在tensor_list中读取文件,这样保证了同一时刻只在一个文件中进行读取操作(但是读取速度依然优于单线程),而不是之前的同时读取多个文件,这种方案的优点是:
    避免了两个不同的线程从同一文件中读取用一个样本
    避免了过多的磁盘操作
    seed: Seed for the random shuffling within the queue.
    打乱tensor队列的随机数种子
    enqueue_many: Whether each tensor in tensor_list is a single example.
    定义tensor_list中的tensor是否冗余.
    shapes: (Optional) The shapes for each example. Defaults to the
    inferred shapes for tensor_list.
    用于改变读取tensor的形状,默认情况下和直接读取的tensor的形状一致.
    name: (Optional) A name for the operations.
    Returns:

    A list of tensors with the same number and types as tensor_list.
    默认返回一个和读取tensor_list数据和类型一个tensor列表.

    tf.where

    tf.where(condition, x=None, y=None, name=None)

    功能:若x,y都为None,返回condition值为True的坐标;
    若x,y都不为None,返回condition值为True的坐标在x内的值,condition值为False的坐标在y内的值

    输入:condition:bool类型的tensor

    1. a = tf.constant([True, False, False, True])
    2. x = tf.constant([1, 2, 3, 4])
    3. y = tf.constant([5, 6, 7, 8])
    4. z = tf.where(a)
    5. z2 = tf.where(a, x, y)
    6. sess = tf.Session()
    7. print(sess.run(z))
    8. print(sess.run(z2))
    9. sess.close()
    10. # z==>[[0]
    11. # [3]]
    12. # z2==>[ 1 6 7 4]

    环境

    tensorflow 1.2.1 CPU版本
    python 3.5.0
    windows 10(特别注意,linux系统和windows系统对于文件名表示的区别)

    参考资料

    面向机器智能的Tensorflow实践

  • 相关阅读:
    Guava中ImmutableList的copyOf使用-将map转化为list方便遍历
    Sentinel链路模式规则无效
    高被引论文有什么特征?
    数据存储和内存对齐
    关于nuxt.js和seo的实践我有话要说
    【单调栈】496. 下一个更大元素 I
    彻底解决 WordPress cURL error 28 错误
    使用autoIt 上传文件
    SQLite vs MySQL vs PostgreSQL对比总结
    实战计算机网络02——物理层
  • 原文地址:https://blog.csdn.net/G11176593/article/details/127652659