Normalisierung wird verwendet, um redundante Daten zu eliminieren und stellt sicher, dass qualitativ hochwertige Cluster erzeugt werden, die die Effizienz von Clustering-Algorithmen verbessern können. Daher wird sie zu einem wesentlichen Schritt vor dem Clustering als euklidische Distanz reagiert sehr empfindlich auf Veränderungen in den Unterschieden[3].
Müssen wir Daten für K-Means-Clustering normalisieren?
Wie beim k-NN-Verfahren müssen die zur Clusterbildung verwendeten Merkmale in vergleichbaren Einheiten gemessen werden. In diesem Fall spielen Einheiten keine Rolle, da alle 6 Merkmale auf einer 5-Punkte-Skala ausgedrückt werden. Normierung oder Standardisierung ist nicht erforderlich.
Wie bereiten Sie Daten vor dem Clustering vor?
Datenaufbereitung
Um eine Clusteranalyse in R durchzuführen, sollten die Daten im Allgemeinen wie folgt aufbereitet werden: Zeilen sind Beobachtungen (Individuen) und Sp alten sind Variablen. Jeder fehlende Wert in den Daten muss entfernt oder geschätzt werden. Die Daten müssen standardisiert (d. h. skaliert) werden, um Variablen vergleichbar zu machen.
Sollen Daten für Clustering skaliert werden?
Beim Clustering berechnen Sie die Ähnlichkeit zwischen zwei Beispielen, indem Sie alle Merkmalsdaten für diese Beispiele zu einem numerischen Wert kombinieren. Das Kombinieren von Merkmalsdaten erfordert, dass die Daten denselben Maßstab haben.
Warum ist es wichtig, Features vor dem Clustering zu normalisieren?
Standardisierung ist ein wichtiger Schritt der DatenVorverarbeitung.
Wie in diesem Artikel erläutert, minimiert der k-Mittelwert die Fehlerfunktion unter Verwendung des Newton-Algorithmus, d. h. eines Gradienten-basierten Optimierungsalgorithmus. Normalisierung der Daten verbessert die Konvergenz solcher Algorithmen.