mixup: Beyond Empirical Risk Minimization on ShortScience.org

arxiv.org
arxiv-vanity.com
scholar.google.com

mixup: Beyond Empirical Risk Minimization
Hongyi Zhang and Moustapha Cisse and Yann N. Dauphin and David Lopez-Paz
arXiv e-Print archive - 2017 via Local arXiv
Keywords: cs.LG, stat.ML
more

Summaries/Notes 1

[link] Summary by daisukelab 7 years ago

Very efficient data augmentation method. Linear-interpolate training set x and y randomly at every epoch.
```python
for (x1, y1), (x2, y2) in zip(loader1, loader2):
    lam = numpy.random.beta(alpha, alpha)
    x = Variable(lam * x1 + (1. - lam) * x2)
    y = Variable(lam * y1 + (1. - lam) * y2)
    optimizer.zero_grad()
    loss(net(x), y).backward()
    optimizer.step()
```
- ERM (Empirical Risk Minimization) is $\alpha = 0$ version of mixup, i.e. not using mixup.
- Reduces the memorization of corrupt labels.
- Increases robustness to adversarial examples.
- Stabilizes the training of GAN.

Your comment: