optim_adahessian

R implementation of the Adahessian optimizer proposed
by Yao et al.(2020). The original implementation is available at
https://github.com/amirgholami/adahessian.

Optimizers for 'torch' deep learning library. These
functions include recent results published in the literature and are
not part of the optimizers offered in 'torch'. Prospective users
should test these optimizers with their data, since performance
depends on the specific problem being solved. The packages includes
the following optimizers: (a) 'adabelief' by Zhuang et al (2020),
<arXiv:2010.07468>; (b) 'adabound' by Luo et al.(2019),
<arXiv:1902.09843>; (c) 'adahessian' by Yao et al.(2021)
<arXiv:2006.00719>; (d) 'adamw' by Loshchilov & Hutter (2019),
<arXiv:1711.05101>; (e) 'madgrad' by Defazio and Jelassi (2021),
<arXiv:2101.11075>; (f) 'nadam' by Dozat (2019),
<https://openreview.net/pdf/OM0jvwB8jIp57ZJjtNEZ.pdf>; (g) 'qhadam' by
Ma and Yarats(2019), <arXiv:1810.06801>; (h) 'radam' by Liu et al.
(2019), <arXiv:1908.03265>; (i) 'swats' by Shekar and Sochee (2018),
<arXiv:1712.07628>; (j) 'yogi' by Zaheer et al.(2019),
<https://papers.nips.cc/paper/8186-adaptive-methods-for-nonconvex-optimization>.

Gilberto Camara

torchopt

Advanced Optimizers for Torch

Rolf Simoes

Daniel Falbel

Felipe Souza

optim_adahessian function

<dl><dt>params</dt>
<dd>Iterable of parameters to optimize.</dd>
<dt>lr</dt>
<dd>Learning rate (default: 0.15).</dd>
<dt>betas</dt>
<dd>Coefficients for computing
running averages of gradient
and is square(default: (0.9, 0.999)).</dd>
<dt>eps</dt>
<dd>Term added to the denominator to improve
numerical stability (default: 1e-4).</dd>
<dt>weight_decay</dt>
<dd>L2 penalty (default: 0).</dd>
<dt>hessian_power</dt>
<dd>Hessian power (default: 1.0).</dd></dl>

Arguments

Rolf Simoes, <a href="/link/rolf.simoes%40inpe.br?package=torchopt&version=0.1.4" data-mini-rdoc="torchopt::rolf.simoes@inpe.br">rolf.simoes@inpe.br</a>
Felipe Souza, <a href="/link/lipecaso%40gmail.com?package=torchopt&version=0.1.4" data-mini-rdoc="torchopt::lipecaso@gmail.com">lipecaso@gmail.com</a>
Alber Sanchez, <a href="/link/alber.ipia%40inpe.br?package=torchopt&version=0.1.4" data-mini-rdoc="torchopt::alber.ipia@inpe.br">alber.ipia@inpe.br</a>
Gilberto Camara, <a href="/link/gilberto.camara%40inpe.br?package=torchopt&version=0.1.4" data-mini-rdoc="torchopt::gilberto.camara@inpe.br">gilberto.camara@inpe.br</a>

Author

Adahessian optimizer — optim_adahessian

<dl>

<dt>params</dt>
<dd>Iterable of parameters to optimize.</dd>


<dt>lr</dt>
<dd>Learning rate (default: 0.15).</dd>


<dt>betas</dt>
<dd>Coefficients for computing
running averages of gradient
and is square(default: (0.9, 0.999)).</dd>


<dt>eps</dt>
<dd>Term added to the denominator to improve
numerical stability (default: 1e-4).</dd>


<dt>weight_decay</dt>
<dd>L2 penalty (default: 0).</dd>


<dt>hessian_power</dt>
<dd>Hessian power (default: 1.0).</dd>

</dl>

Rolf Simoes, <a href='mailto:rolf.simoes@inpe.br'>rolf.simoes@inpe.br</a>
Felipe Souza, <a href='mailto:lipecaso@gmail.com'>lipecaso@gmail.com</a>
Alber Sanchez, <a href='mailto:alber.ipia@inpe.br'>alber.ipia@inpe.br</a>
Gilberto Camara, <a href='mailto:gilberto.camara@inpe.br'>gilberto.camara@inpe.br</a>

optim_adahessian: Adahessian optimizer

Description

Usage

Value

Arguments

Author

References