pytorch-day03

Created2025-08-27|Updated2025-09-16

|Post Views:

Text data Modeling Example

IMDB数据集的目标是预测评论的情感标签

数据预处理

这里似乎只用了一个简单的构建词表，然后hard code每一个词？没有用到任何word-embedding。我很好奇这真的有用吗

这里我们定义了一个类用来处理数据

class ImdbDataset(Dataset):
    def __init__(self,df):
        self.df = df
    def __len__(self):
        return len(self.df)
    def __getitem__(self,index):
        text = self.df["text"].iloc[index]
        label = torch.tensor([self.df["label"].iloc[index]]).float()
        tokens = torch.tensor(text_pipeline(text)).int() 
        return tokens,label

使用这种模板是一种不错的选择，可以构建适用于每个不同task的dataloader

Define the model

~~使用的疑似是一维的因果卷积？~~ 是一个简单的1D 卷积
1D conv用于特征提取而因果卷积用于时序建模

训练代码同前，不是我喜欢的直接不学

Author: Adam Chen

Link: https://517adam.github.io/blog/2025/08/27/pytorch-day03/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 3.0 CN unless otherwise stated.

Related Articles

写在一开始被同学拉着一起学，那就正式学习一下pytorch. 择日不如撞日.* 代码部分放在colab上，这里总结一点主要/延申知识Day 1 Structured Data Modeling Example Using Titanic dataset. The goal is to predict whether a passenger is surived. The dataset contains 10 features,within them: 4 valued feature 4 categorical feature 2 other feauture(ticket number & name) Among the features, some of them has missing values The tutorial then do the data preprocessing, building a MLP with one hidden layer, and write the training function. About the O...

张量的数据类型张量的数据类型与 numpy.array 基本一一对应，除了不支持str类型一般的神经网络用的是torch.float32类型如果要显示指定数据类型，可以使用torch.tensor(data,dtype = torch.type) 也可以使用特定的构造函数123i = torch.Inttensor() #构造数据类型为 int 的张量x = torch.Tensor() # 构造数据类型为 float 的张量b = torch.BoolTensor() #构造数据类型为 bool 的张量此外，还可以对不同类型的张量进行转化1234i = torch.tensor(1) # 构建类型为int64的张量x = i.float() # 调用float方法转换为float类型y = i.type(torch.float) # 使用type函数转换为浮点类型z = i.type_as(x) # 使用type_as 方法转化为与某个Tensor相同类型的张量张量的维度张量的尺寸可以使用shape属性或者size() 方法查看张量在每一维的长度可以...

Image data Modeling examplePrepare dataset Using cifr-2 as an example Import necessary pakcage12345import torch from torch import nnfrom torch.utils.data import Dataset,DataLoaderfrom torchvision import transforms as Tfrom torchvision import datasets 1234567891011121314151617# define helper functiontransform_img = T.Compose( [T.ToTensor()])def transform_label(x): return torch.tensor([x]).float()# load dataset using Imagefolderds_train = datasets.ImageFolder("./eat_pytorch_datasets...

由没有可以tran的optimization课，下学期可能要去上一门time series，这里正好就看到了，也许是天意呢。通过继承torch.utils.data.Dataset 实现自定义时间序列数据集1torch.utils.data.Dataset 这是一个抽象类，我们只需继承这个类，并且复写其中两个方法即可 __len__: 实现len(dataset)返回整个数据集的大小 __getitem__: 用来获取一些索引的数据，使dataset[i] 返回数据集中第 i 个样本注意：如果不复写的话会直接返回错误12345678910WINDOW_SIZE = 8class Covid19Dataset(Dataset): def __len__(self): return len(dfdiff) - WINDOW def __getitem___(self,i) x = dfdiff.loc[i:i+WINDOW_SIZE-1,;] feature = torch.tensor(x.values) y...

Auto-gradient 自动微分pytorch 通过反向传播 backward 方法，实现梯度计算。该方法求得的梯度将存在对应自变量张量的grad属性下。此外也可以使用 torch.autograd.grad函数来实现求梯度计算使用backward方法求导数 backward方法通常在一个标量张量上调用，如果非标量，则要传入一个和它同形状的gradient参数张量。相当于用该gradient参数张量与调用张量作向量点乘，得到的标量结果再反向传播. 标量的反向传播1234567891011121314import numpy as np import torch # f(x) = a*x**2 + b*x + c的导数x = torch.tensor(0.0,requires_grad = True) # x需要被求导a = torch.tensor(1.0)b = torch.tensor(-2.0)c = torch.tensor(1.0)y = a*torch.pow(x,2) + b*x + c y.backward()dy_dx = x.gradprint(...

动态计算图 Pytorch 中的计算图是动态图计算图的正向传播立即执行，无需等待完整的图创建完毕计算图在反向传播后立即销毁，下次调用需要重新构建计算图。如果使用backward方法或者torch.autograd.grad 方法计算了梯度，创建的梯度会被立即销毁，释放储存空间。1234567891011121314#计算图在反向传播之后立即销毁import torch w = torch.tensor([[3.0,1.0]],requires_grad=True)b = torch.tensor([[3.0]],requires_grad=True)X = torch.randn(10,2)Y = torch.randn(10,1)Y_hat = X@w.t() + b # Y_hat定义后其正向传播被立即执行，与其后面的loss创建语句无关loss = torch.mean(torch.pow(Y_hat-Y,2))#计算图在反向传播后立即销毁，如果需要保留计算图, 需要设置retain_graph = Trueloss.backward() #loss.backwar...