When would you use GD over SDG, and vice-versa?

priyanka-gaikwad-9f6e5281 · 11 August 2020 12:06

Use of GD over SDG and vice versa

ruble-joseph · 14 August 2020 08:11

GD theoretically minimizes the error function better than SGD. However, SGD converges much faster once the dataset becomes large.

That means GD is preferable for small datasets while SGD is preferable for larger ones.

In practice, however, SGD is used for most applications because it minimizes the error function well enough while being much faster and more memory efficient for large datasets.