Normalisatie wordt gebruikt om overtollige gegevens te elimineren en zorgt ervoor dat clusters van goede kwaliteit worden gegenereerd die de efficiëntie van clusteringalgoritmen kunnen verbeteren. Het wordt dus een essentiële stap voor clustering als Euclidische afstand is erg gevoelig voor de veranderingen in de verschillen[3].
Moeten we gegevens normaliseren voor K-means clustering?
Net als bij de k-NN-methode moeten de kenmerken die worden gebruikt voor clustering in vergelijkbare eenheden worden gemeten. In dit geval zijn eenheden geen probleem aangezien alle 6 kenmerken worden uitgedrukt op een 5-puntsschaal. Normalisatie of standaardisatie is niet nodig.
Hoe bereidt u gegevens voor voordat u gaat clusteren?
Gegevensvoorbereiding
Om een clusteranalyse in R uit te voeren, moeten de gegevens in het algemeen als volgt worden voorbereid: Rijen zijn observaties (individuen) en kolommen zijn variabelen. Elke ontbrekende waarde in de gegevens moet worden verwijderd of geschat. De gegevens moeten worden gestandaardiseerd (d.w.z. geschaald) om variabelen vergelijkbaar te maken.
Moeten gegevens worden geschaald voor clustering?
Bij clustering bereken je de overeenkomst tussen twee voorbeelden door alle feature data voor die voorbeelden te combineren tot een numerieke waarde. Het combineren van feature data vereist dat de data dezelfde schaal hebben.
Waarom is het belangrijk om functies te normaliseren voorafgaand aan clustering?
Standaardisatie is een belangrijke stap van Datapreprocessing.
Zoals uitgelegd in dit artikel, minimaliseert de k-means de foutfunctie met behulp van het Newton-algoritme, d.w.z. een op gradiënten gebaseerd optimalisatie-algoritme. Het normaliseren van de gegevens verbetert de convergentie van dergelijke algoritmen.