网站管理员登陆不了,邯郸网站建设信息,网站改版是什么意思,房产咨询律师免费咨询pytorch实现多层感知机对Fashion-MNIST数据集进行分类#xff08;手动定义模型#xff09;
多层感知机#xff1a; 多层感知机在单层神经网络的基础上引入了一到多个隐藏层#xff08;hidden layer#xff09;。隐藏层位于输入层和输出层之间。 输入和输出个数分别为4和…pytorch实现多层感知机对Fashion-MNIST数据集进行分类手动定义模型
多层感知机 多层感知机在单层神经网络的基础上引入了一到多个隐藏层hidden layer。隐藏层位于输入层和输出层之间。 输入和输出个数分别为4和3中间的隐藏层中包含了5个隐藏单元输入层不涉及计算多层感知机的层数为2隐藏层中的神经元和输入层中各个输入完全连接输出层中的神经元和隐藏层中的各个神经元也完全连接。因此多层感知机中的隐藏层和输出层都是全连接层。 多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。 多层感知机按以下方式计算输出
导入所需模块
import torch
import numpy as np
import sys读取数据集
mnist_train torchvision.datasets.FashionMNIST(root~/Datasets/FashionMNIST, trainTrue, downloadTrue, transformtransforms.ToTensor())
mnist_test torchvision.datasets.FashionMNIST(root~/Datasets/FashionMNIST, trainFalse, downloadTrue, transformtransforms.ToTensor())
batch_size 256
if sys.platform.startswith(win):num_workers 0 # 0表示不用额外的进程来加速读取数据
else:num_workers 4
train_iter torch.utils.data.DataLoader(mnist_train, batch_sizebatch_size, shuffleTrue, num_workersnum_workers)
test_iter torch.utils.data.DataLoader(mnist_test, batch_sizebatch_size, shuffleFalse, num_workersnum_workers)定义模型的参数
num_inputs, num_outputs, num_hiddens 784, 10, 256W1 torch.tensor(np.random.normal(0, 0.01, (num_inputs, num_hiddens)), dtypetorch.float)
b1 torch.zeros(num_hiddens, dtypetorch.float)
W2 torch.tensor(np.random.normal(0, 0.01, (num_hiddens, num_outputs)), dtypetorch.float)
b2 torch.zeros(num_outputs, dtypetorch.float)params [W1, b1, W2, b2]
for param in params:param.requires_grad_(requires_gradTrue)定义模型
def relu(X): # 激活函数return torch.max(inputX, othertorch.tensor(0.0))# 使用基础的max函数来实现ReLU而非直接调用relu函数def net(X): # 定义模型结构X X.view((-1, num_inputs)) # view函数将每张原始图像改成长度为num_inputs的向量H relu(torch.matmul(X, W1) b1)return torch.matmul(H, W2) b2loss torch.nn.CrossEntropyLoss() # 损失函数训练模型
num_epochs, lr 5, 100.0
def evaluate_accuracy(data_iter, net):acc_sum, n 0.0, 0for X, y in data_iter:acc_sum (net(X).argmax(dim1) y).float().sum().item()n y.shape[0]return acc_sum / ndef train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size,paramsNone, lrNone, optimizerNone):for epoch in range(num_epochs):train_l_sum, train_acc_sum, n 0.0, 0.0, 0for X, y in train_iter:y_hat net(X)l loss(y_hat, y).sum()# 梯度清零if optimizer is not None:optimizer.zero_grad() # 这里我们用到优化器所以直接对优化器行梯度清零elif params is not None and params[0].grad is not None:for param in params:param.grad.data.zero_()l.backward()if optimizer is None:sgd(params, lr, batch_size)else:optimizer.step() # 用到优化器这里train_l_sum l.item()train_acc_sum (y_hat.argmax(dim1) y).sum().item()n y.shape[0] test_acc evaluate_accuracy(test_iter, net)print(epoch %d, loss %.4f, train acc %.3f, test acc %.3f% (epoch 1, train_l_sum / n, train_acc_sum / n, test_acc))train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr)