Excel CORREL -funktion - Beregn statistisk korrelation

Download eksempel på projektmappe

Download eksemplet på projektmappe

Denne vejledning viser, hvordan du bruger Excel CORREL -funktion i Excel for at beregne korrelationen.

CORREL Funktionsoversigt

CORREL -funktionen Beregner korrelationen mellem to talrækker.

Hvis du vil bruge CORREL Excel -regnearksfunktionen, skal du markere en celle og skrive:

(Bemærk hvordan formelindgangene vises)

CORREL -funktion Syntaks og input:

1 = CORREL (array1, array2)

array1 - Opstillinger af tal.

Hvad er CORREL -funktionen?

Excel CORREL -funktionen returnerer korrelationskoefficienten (Pearson's r) af to dataområder.

Hvad er korrelationskoefficienten?

Korrelationskoefficienten, normalt omtalt som Pearsons r (opkaldt efter Karl Pearson, personen der udviklede den), er en statistik, der fortæller dig, hvor stærkt to variabler hænger sammen.

Pearson's r er et tal mellem -1 og 1, hvilket kan føre til tre mulige fortolkninger: en positiv korrelation, en negativ korrelation og ingen korrelation.

Positiv sammenhæng

En positiv sammenhæng (r > 0) betyder, at når de to variabler er i tandem - når du observerer en høj score i den ene variabel, har du en tendens til også at observere en høj score i den anden. På samme måde, når den ene variabel er lav, har den anden også en tendens til at være lav.

For eksempel har højde og vægt en positiv sammenhæng. Se nedenstående diagram, der viser højden og vægten af ​​en lille prøve baseballspillere:

Det r af denne lille prøve er 0,73 - en meget stærk positiv korrelation. Dette giver logisk mening - højere mennesker har en gennemsnitlig tendens til at være tungere, da den ekstra højde består af knogler og muskler og andet væv, der alle vejer noget.

Men korrelationen er ikke perfekt (i en perfekt sammenhæng med en r af 1, ville alle scoringer falde på trendlinjen). Nogle kortere mennesker kan være tungere - måske har de lidt ekstra fedt på eller træner i fitnesscentret. På samme måde kan nogle høje mennesker være meget tynde og faktisk veje mindre end mange kortere mennesker.

Korrelationen her er sandsynligvis så høj, fordi vi har med atleter at gøre, den ville være lavere i den samlede befolkning. Husk at huske dette, når du bruger CORREL - the r du får, er ikke endegyldig - du skal tænke over, hvad dine data er, og hvordan du fik det, når du foretager dine fortolkninger.

Negativ korrelation

En negativ korrelation (r <0) betyder, at når du observerer en høj score i en variabel, har du en tendens til at observere en lav score i den anden variabel og omvendt.

For eksempel er elevernes testresultater og antallet af fravær, de havde fra skolen, negativt korreleret. Det vil sige, at jo flere dage de går glip af, desto lavere har deres score en tendens til at være. Jo færre dage de går glip af, jo højere scoringer plejer at være:

Igen er sammenhængen ikke perfekt (som de næsten aldrig er). Vi har en elev her, der gik glip af 5 dage, men alligevel formåede at score 85%. Vi har også en, der scorede 52%, på trods af kun at mangle to dage.

Vi har stadig en klar negativ tendens. Men der er stadig stor variation i testresultater, der ikke kan forklares med fravær alene. Dette kan skyldes andre variabler, f.eks. Egnethed, motivation, sundhed og mange andre potentielle faktorer.

Så når du bruger CORREL, skal du huske på, at der er et større billede, som dine data muligvis ikke forklarer fuldt ud.

Ingen sammenhæng

Ingen sammenhæng (r = 0 eller er tæt på 0) betyder, at du ikke kan forudsige score for en variabel baseret på en anden. Hvis du plotter dataene, vil du ikke se nogen synlig trend, og trendlinjen vil være flad eller næsten flad.

Her er nogle data om ringfingerenes længde og IQ:

Som du kan se, er der ingen forbindelse mellem disse to variabler i denne prøve, så vi kan antage, at de ikke er relaterede.

I praksis er det usandsynligt, at du får en r på nøjagtigt 0. Husk, at når der indsamles data, er der ofte en vis variation på grund af fejl, måske i måling eller rapportering. Så bare fordi din r ikke ligefrem 0, betyder ikke, at du har fundet noget.

Korrelation er ikke årsagssammenhæng

Det er vigtigt at huske på, at CORREL ikke kan fortælle dig, hvilken variabel der påvirker den anden - eller endda hvis der overhovedet er en årsagssammenhæng mellem variabler. For eksempel er der fundet en sammenhæng mellem følgende variabler:

  • Mængden af ​​is, der sælges, og mængden af ​​voldelig kriminalitet
  • Hvor glad du er, og hvor succesrig du er i din karriere
  • Antallet af mennesker, der druknede i en pool og antallet af film, Nicolas Cage dukkede op om året

Det første eksempel er tredje variabel problem. Is gør ikke mennesker voldelige, og det at udøve vold udløser heller ikke trang til frossen mælk og sukker. Den tredje variabel er vejret. I varmt vejr går folk simpelthen mere ud - der er mere kontakt mellem mennesker og dermed større chance for, at der opstår en konflikt. I varmt vejr køber folk også mere is. Så issalg og voldelig kriminalitet korrelerer kun, fordi de begge er knyttet til en tredje variabel.

Det andet kunne være et eksempel på dobbelt kausalitet. At få succes på arbejdet kan være godt for din lykke - du tjener flere penge og vil generelt have mere kontrol over, hvilket arbejde du udfører, og hvem du gør det med. Men lykke kan også være en fordel for succes, måske er lykkeligere mennesker lettere at komme sammen med og udvikle stærkere arbejdsforhold, eller måske er de mere mentalt modstandsdygtige over for tilbageslag. I dette tilfælde påvirker begge variabler hinanden.

Det tredje er simpelthen et falsk korrelation. Bare fordi to variabler korrelerer i dine data, betyder det ikke, at de interagerer alligevel i virkeligheden.

Konklusionen er, en korrelation kan ikke fortælle dig, om to variabler er årsagssammenhængende.

Sådan bruges CORREL

Brug Excel CORREL -funktionen på følgende måde:

1 = HØJRE (B3: B15, C3: C15)

Med CORREL definerer du to argumenter - de to dataområder, du vil korrelere.

Her er et par vigtige punkter at huske på med CORREL:

  • Tekst, boolsk (SAND/FALSK) og tomme celler ignoreres.
  • Begge dataområder skal have et lige antal datapunkter, ellers får du en #N/A fejl
  • Hvis et af dataområderne er tomt, hvis der slet ikke er nogen variation i dataene (dvs. hvis alle datapunkter er det samme tal), får du en #DIV/0! Fejl

CORREL -funktion i Google Sheets

CORREL -funktionen fungerer nøjagtig det samme i Google Sheets som i Excel:

Ekstra Noter

CORREL Eksempler i VBA

Du kan også bruge CORREL -funktionen i VBA. Type:
application.worksheetfunction.correl (array1, array2)
For funktionsargumenterne (array1 osv.) Kan du enten indtaste dem direkte i funktionen eller definere variabler, der skal bruges i stedet.

Tilbage til listen over alle funktioner i Excel

wave wave wave wave wave