Wann sollten Daten normalisiert oder standardisiert werden?

Wann sollten Daten normalisiert oder standardisiert werden?
Wann sollten Daten normalisiert oder standardisiert werden?
Anonim

Normalisierung ist nützlich, wenn Ihre Daten unterschiedliche Maßstäbe haben und der von Ihnen verwendete Algorithmus keine Annahmen über die Verteilung Ihrer Daten macht, wie z. B. k-nächste Nachbarn und künstliche Neuralfunktion Netzwerke. Bei der Standardisierung wird davon ausgegangen, dass Ihre Daten eine Gaußsche Verteilung (Glockenkurve) aufweisen.

Wann sollten wir Daten normalisieren?

Die Daten sollten normalisiert oder standardisiert werden, um alle Variablen ins Verhältnis zueinander zu bringen. Wenn beispielsweise eine Variable (im Durchschnitt) 100-mal größer ist als eine andere, verhält sich Ihr Modell möglicherweise besser, wenn Sie die beiden Variablen so normalisieren/standardisieren, dass sie ungefähr gleichwertig sind.

Was ist der Unterschied zwischen Normalisierung und Standardisierung?

Normalisierung bedeutet normalerweise, dass die Werte in einen Bereich von [0, 1] neu skaliert werden. Standardisierung bedeutet in der Regel, dass Daten neu skaliert werden, sodass sie einen Mittelwert von 0 und eine Standardabweichung von 1 (Einheitsvarianz) haben.

Wann und warum brauchen wir Datennormalisierung?

Einfach ausgedrückt stellt die Normalisierung sicher, dass alle Ihre Daten in allen Datensätzen gleich aussehen und gelesen werden. Die Normalisierung standardisiert Felder wie Firmennamen, Kontaktnamen, URLs, Adressinformationen (Straßen, Bundesländer und Städte), Telefonnummern und Berufsbezeichnungen.

Wie wählen Sie Normalisierung und Standardisierung?

In der Geschäftswelt bedeutet "Normalisierung" typischerweise, dass die Bandbreite der Werte ist"normalisiert auf 0,0 bis 1,0". "Standardisierung" bedeutet normalerweise, dass der Wertebereich "standardisiert" ist, um zu messen, wie viele Standardabweichungen der Wert von seinem Mittelwert entfernt ist.