经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
手写数字图片识别——DL 入门案例
来源:cnblogs  作者:Mysticbinary  时间:2024/4/3 9:20:50  对本文有异议

Deep Learning Demo of Primary

下面介绍一个入门案例,如何使用TensorFlow和Keras构建一个CNN模型进行手写数字识别,以及如何使用该模型对自己的图像进行预测。尽管这是一个相对简单的任务,但它涵盖了深度学习基本流程,包括:

  • 数据准备
  • 模型构建
  • 模型训练
  • 模型预测

输入:

  1. import tensorflow as tf
  2. from tensorflow import keras
  3. import numpy as np
  4. from PIL import Image
  5. # 加载MNIST数据集(用于训练模型)
  6. # 这部分代码加载了MNIST数据集,这是一个广泛使用的手写数字图像数据集,包含60,000个训练样本和10,000个测试样本。
  7. # 我们将像素值除以255.0,将它们归一化到0-1的范围内,这是神经网络输入的标准做法。
  8. mnist = keras.datasets.mnist
  9. (train_images, train_labels), (test_images, test_labels) = mnist.load_data()
  10. # 规范化像素值
  11. train_images, test_images = train_images / 255.0, test_images / 255.0
  12. # 构建CNN模型
  13. # 这部分代码构建了一个卷积神经网络(CNN)模型。我们使用Keras的Sequential API,它允许我们按顺序堆叠不同的层。
  14. # 我们添加了两个卷积层和两个最大池化层,用于从图像中提取特征。
  15. # 然后,我们添加了一个展平层,将特征映射到一个一维向量。
  16. # 最后,我们添加了两个全连接层,第一个具有128个神经元,第二个具有10个神经元,用于对手写数字进行分类。
  17. # 最后一层使用softmax激活函数输出每个数字的概率。
  18. model = keras.Sequential([
  19. keras.layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)),
  20. keras.layers.MaxPooling2D((2, 2)),
  21. keras.layers.Conv2D(64, (3, 3), activation='relu'),
  22. keras.layers.MaxPooling2D((2, 2)),
  23. keras.layers.Flatten(),
  24. keras.layers.Dense(128, activation='relu'),
  25. keras.layers.Dense(10, activation='softmax')
  26. ])
  27. # 编译模型
  28. # 这部分代码构建了一个卷积神经网络(CNN)模型。我们使用Keras的Sequential API,它允许我们按顺序堆叠不同的层。
  29. # 我们添加了两个卷积层和两个最大池化层,用于从图像中提取特征。然后,我们添加了一个展平层,将特征映射到一个一维向量。
  30. # 最后,我们添加了两个全连接层,第一个具有128个神经元,第二个具有10个神经元,用于对手写数字进行分类。
  31. # 最后一层使用softmax激活函数输出每个数字的概率。
  32. model.compile(optimizer='adam',
  33. loss='sparse_categorical_crossentropy',
  34. metrics=['accuracy'])
  35. # 训练模型
  36. model.fit(train_images, train_labels, epochs=5)
  37. # 函数:预测手写数字图像
  38. # 在构建模型之后,我们需要编译它。
  39. # 我们指定了使用Adam优化器,稀疏分类交台熵损失函数(适用于整数标签),并监控准确率指标。
  40. # 然后,我们使用model.fit函数在训练数据上训练模型,迭代5个epoch。
  41. def predict_digit(img_path):
  42. # 加载图像
  43. img = Image.open(img_path).convert('L')
  44. img = img.resize((28, 28))
  45. img_array = np.array(img) / 255.0
  46. img_array = np.expand_dims(img_array, axis=-1)
  47. img_array = np.expand_dims(img_array, axis=0)
  48. # 进行预测
  49. predictions = model.predict(img_array)
  50. predicted_digit = np.argmax(predictions)
  51. return predicted_digit
  52. # 测试
  53. # 这个 predict_digit 函数用于预测手写数字图像。它接受一个图像文件路径作为输入。
  54. # 首先,它使用PIL库加载图像,将其转换为灰度模式,并调整大小为28x28像素。
  55. # 然后,它将图像转换为NumPy数组,并进行与训练数据相同的归一化处理。
  56. # 由于CNN模型需要一个4D张量作为输入(batch_size, height, width, channels),
  57. # 我们需要使用 np.expand_dims 在最后两个维度上扩展数组形状。
  58. #
  59. # 接下来,我们使用训练好的模型的 predict 方法对预处理后的图像数据进行预测,得到一个包含10个概率值的列表,每个值对应一个数字(0-9)的概率。
  60. # 我们使用 np.argmax 找到概率值最大的索引,即模型预测的数字。
  61. # 最后,函数返回预测的数字。
  62. digit = predict_digit('image-8.png')
  63. print(f'预测的数字是: {digit}')

输出:
预测的数字是: 8

但是完全不知道程序都做了什么...,那就学习它的流程吧。

Process:

  1. 首先,我们加载内置的MNIST数据集,并将像素值归一化到0-1之间。
  2. 然后,我们使用Keras的Sequential API构建一个CNN模型。该模型包含两个卷积层、两个最大池化层、一个展平层和两个全连接层。
    最后一层使用softmax激活函数输出10个数字的概率。
  3. 我们使用稀疏分类交叉熵损失函数和Adam优化器编译模型。
  4. 接下来,我们使用训练数据train_images和train_labels训练模型5个epoch。
  5. 我们定义了一个predict_digit函数,用于预测手写数字图像。这个函数接受一个图像文件路径作为输入。
  6. 在predict_digit函数中,我们首先使用Pillow库加载图像,并将其转换为灰度模式和28x28大小。
    然后,我们将图像数据转换为Numpy数组,并进行相同的归一化处理。
    由于模型的输入维度为(批次大小, 高度, 宽度, 通道数),我们需要使用np.expand_dims在最后两个维度上扩展数组形状。
  7. 接下来,我们使用训练好的模型的predict方法对预处理后的图像数据进行预测,得到一个包含10个概率值的列表,每个值对应一个数字(0-9)的概率。
    我们使用np.argmax找到概率值最大的索引,即模型预测的数字。
  8. 最后,我们调用predict_digit函数,传入你自己的图像文件路径,并打印预测结果。

原文链接:https://www.cnblogs.com/mysticbinary/p/18110725

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号