Количество обучаемых параметров в современных нейронных сетях давно перевалило за миллиард и именно в пространствах такой размерности сегодня люди с разным успехом пытаются искать минимум функции потерь. Существует очень простой способ спроецировать пространство сколько угодно высокой размерности так, чтобы на него можно было взглянуть.
Представьте, что у вас есть набор весов вашей нейронной сети θ (пусть он будет стотыщмерным, как на примере ниже).
Так вот если вы сгенерируете случайный вектор такого же размера w₁ и будете считать значения функции потерь вдоль случайно выбранного направления
L(θ + α w₁),
то сможете построить график L(α), где α - скалярная переменная из наперед заданного отрезка. Это будет называться проекция на случайно выбранное одномерное пространство.
Ниже пример проекции функции потерь простенькой сверточной нейронной сети, обученной на датасете FashionMNIST. Здесь, например, видно, что одна и та же сеть, обученная с дропаутом в одинаковых услових даёт наглядно меньшее различие между train и test. Мы надеемся, что в исходном пространстве большей размерности дела обстоят примерно так же (гарантий нет, но есть кеки, об этом дальше)