Gemiddelde toerekening vervormt relaties tussen variabelen Maar gemiddelde toerekening verstoort ook multivariate relaties en beïnvloedt statistieken zoals correlatie. De volgende aanroep van PROC CORR berekent bijvoorbeeld de correlatie tussen de variabele Orig_Height en de variabelen Gewicht en Leeftijd.
Waarom is het een slecht idee om een middel te gebruiken voor ontbrekende gegevens?
Gemiddelde vermindert een variantie van de gegevens Als we dieper in de wiskunde gaan, leidt een kleinere variantie tot een smaller betrouwbaarheidsinterval in de kansverdeling[3]. Dit leidt tot niets anders dan het introduceren van een vooroordeel in ons model.
Waarom zijn ontbrekende waarden een probleem?
Ontbrekende gegevens leveren verschillende problemen op. Ten eerste vermindert de afwezigheid van gegevens de statistische power, wat verwijst naar de kans dat de test de nulhypothese verwerpt wanneer deze onwaar is. Ten tweede kunnen de verloren gegevens leiden tot vertekening in de schatting van parameters. Ten derde kan het de representativiteit van de monsters verminderen.
Waarom is gemene toerekening slecht?
Probleem 1: Gemiddelde imputatie behoudt de relaties tussen variabelen niet. Toegegeven, door het gemiddelde toe te rekenen, blijft het gemiddelde van de waargenomen gegevens behouden. Dus als de gegevens volledig willekeurig ontbreken, blijft de schatting van het gemiddelde onbevooroordeeld.
Moet u ontbrekende gegevens vervangen door het gemiddelde?
Outliers-gegevenspunten zullen een significante invloed hebben op het gemiddelde en daarom wordt in dergelijke gevallen niet aanbevolen om het gemiddelde te gebruiken voor het vervangen van de ontbrekende waarden. Het gebruik van gemiddelde waarden voor het vervangen van ontbrekende waarden creëert mogelijk geen geweldig model en wordt daarom uitgesloten.