Wanneer gegevens normaliseren of standaardiseren?

Inhoudsopgave:

Wanneer gegevens normaliseren of standaardiseren?
Wanneer gegevens normaliseren of standaardiseren?
Anonim

Normalisatie is handig wanneer uw gegevens verschillende schalen hebben en het algoritme dat u gebruikt geen aannames doet over de distributie van uw gegevens, zoals k-nearest buren en kunstmatige neurale netwerken. Standaardisatie gaat ervan uit dat uw gegevens een Gaussische (belcurve) distributie hebben.

Wanneer moeten we gegevens normaliseren?

De gegevens moeten worden genormaliseerd of gestandaardiseerd om alle variabelen met elkaar in proportie te brengen. Als de ene variabele bijvoorbeeld 100 keer groter is dan de andere (gemiddeld), kan uw model zich beter gedragen als u de twee variabelen normaliseert/standaardiseert zodat ze ongeveer gelijkwaardig zijn.

Wat is het verschil tussen normalisatie en standaardisatie?

Normaliseren betekent meestal dat de waarden worden geschaald naar een bereik van [0, 1]. Standaardisatie betekent meestal dat gegevens worden geschaald zodat ze een gemiddelde van 0 hebben en een standaarddeviatie van 1 (eenheidsvariantie).

Wanneer en waarom hebben we gegevensnormalisatie nodig?

In eenvoudiger bewoordingen zorgt normalisatie ervoor dat al uw gegevens er in alle records op dezelfde manier uitzien en lezen. Normalisatie standaardiseert velden, waaronder bedrijfsnamen, contactnamen, URL's, adresinformatie (straten, staten en steden), telefoonnummers en functietitels.

Hoe kies je normalisatie en standaardisatie?

In de zakenwereld betekent 'normalisatie' meestal dat het bereik van waarden is"genormaliseerd van 0,0 tot 1,0". "Standaardisatie" betekent meestal dat het waardenbereik "gestandaardiseerd" is om te meten hoeveel standaarddeviaties de waarde van het gemiddelde afwijkt.

Aanbevolen: