Wann soll die L1- und L2-Regularisierung verwendet werden?

Wann soll die L1- und L2-Regularisierung verwendet werden?
Wann soll die L1- und L2-Regularisierung verwendet werden?
Anonim

Aus praktischer Sicht neigt L1 dazu, die Koeffizienten auf Null zu verkleinern, während L2 dazu neigt, die Koeffizienten gleichmäßig zu verkleinern. L1 ist daher nützlich für die Merkmalsauswahl, da wir alle Variablen, die mit Koeffizienten verbunden sind, die gegen Null gehen, weglassen können. L2 hingegen ist nützlich, wenn Sie kollineare/koabhängige Merkmale haben.

Wozu dient die Regularisierung Was sind L1- und L2-Regularisierung?

L1-Regularisierung gibt die Ausgabe in binären Gewichtungen von 0 bis 1 für die Features des Modells und wird verwendet, um die Anzahl der Features in einem riesigen dimensionalen Datensatz zu verringern. Die L2-Regularisierung verteilt die Fehlerterme auf alle Gewichtungen, was zu genaueren angepassten endgültigen Modellen führt.

Was sind die Unterschiede zwischen L1- und L2-Regularisierung?

Der wichtigste intuitive Unterschied zwischen der L1- und L2-Regularisierung besteht darin, dass die L1-Regularisierung versucht, den Median der Daten zu schätzen, während die L2-Regularisierung versucht, den Mittelwert der Daten zu schätzen, um eine Überanpassung zu vermeiden. … Dieser Wert ist mathematisch gesehen auch der Median der Datenverteilung.

Was ist L1- und L2-Regularisierung beim Deep Learning?

L2-Regularisierung ist auch als Gewichtszerfall bekannt, da sie die Gewichte dazu zwingt, gegen Null (aber nicht genau Null) zu zerfallen. In L1 haben wir: Dabei bestrafen wir den absoluten Wert der Gewichte. Im Gegensatz zu L2 können hier die Gewichte auf Null reduziert werden. Daher ist es sehr nützlich, wenn wir versuchen zu komprimierenunser Modell.

Wie funktioniert die Regularisierung von L1 und L2?

Ein Regressionsmodell, das die L1-Regularisierungstechnik verwendet, heißt Lasso-Regression, und ein Modell, das L2 verwendet, heißt Ridge-Regression. Der Hauptunterschied zwischen diesen beiden ist die Strafzeit. Die Ridge-Regression fügt der Verlustfunktion die „quadratische Größe“des Koeffizienten als Strafterm hinzu.