## R Ue3.6 twoyear ## USA, n=6763 ## lwage ... log(wage) ## jc ... Ausbilung in Jahren in einem 2-year College ## univ ... Ausbilung in Jahren in einem 4-year College ## exper ... Berufserfahrung in Jahren ## etc. require(LearningStats) require(misty) #setwd("C:/MH/WU/LV/OEKONOMETRIE_BA/Oe1_WS23/Chp3/EXERCISES/") setwd("C:/Users/hoersaal/Downloads/") # Daten einlesen (nicht ganz einfach) dat <- read.table("twoyear.csv", sep=";", dec=",", header=TRUE, na.strings = "#NV", fill = TRUE, comment.char="") # Daten anschauen head(dat) tail(dat) dim(dat) # Querschnittsdaten n=6763 k=23 (Variablen) names(dat) # Namen der Variablen ## Wir schauen uns nur lwage, jc, univ, exper an. lwage=log(wage) ! ## Univariate Statistiken source("BasicStatistics_R.txt") # Liest bereits geschriebene R-Scipts ein # log(wage) bzw lwage basic_stats(dat$lwage) hist(dat$lwage) # Histogramm # zum Vergleich wage = exp(lwage) wage <- exp(dat$lwage) basic_stats( exp(wage) ) hist( exp(wage) ) # jc basic_stats(dat$jc) hist(dat$jc) # jcJaNein = 0 ... kein College jcJaNein = 1 ... Collegebesuch jcJaNein <- dat$jc; jcJaNein[dat$jc > 0] <- 1; Djc <- jcJaNein # Dummy jc hist(jcJaNein, breaks=2) freq.table(jcJaNein, cont=FALSE)$tab # discrete data # relative & kumulierte Häufigkeiten # univ basic_stats(dat$univ) hist(dat$univ) # univJaNein = 0 ... keine Uni univJaNein = 1 ... Uni-Besuch univJaNein <- dat$univ; univJaNein[dat$univ > 0] <- 1; Duniv <- univJaNein # Dummy univ hist(univJaNein, breaks=2) freq.table(jcJaNein, cont=FALSE)$tab # exper basic_stats(dat$exper) hist(dat$exper) hist(log(dat$exper)) ## definitiv die falsche Transformation der Daten ## Ziel wäre: mehr Symmetrie ## Bivariate Statistiken df_jc_univ <- data.frame(Djc, Duniv) crosstab(df_jc_univ, print="total") ## 36.7% waren nicht auf College od Uni plot(dat$univ, dat$lwage) ## univ kein Einfluss auf lwage? plot(dat$jc, dat$lwage) ## jc kein Einfluss auf lwage? plot(dat$exper, dat$lwage) cor(dat$exper, dat$lwage) # Korrelation (Pearson) cor.test(dat$exper, dat$lwage) # Test für den Korrelationskoeffizienten # H0: corr = 0 H1: corr < 0 < corr ## Regression ## Schaetzen des Modelle log(wage) = b0 + b1 jc + b2 univ + b3 exper + u # mod <- lm(dat$lwage ~ dat$jc + dat$univ + dat$exper + 1) ... kuerzer als mod <- lm(lwage ~ jc + univ + exper + 1, data=dat) summary(mod) ## Interpretieren sie die Koeffizienten. ## Beurteilen sie den Fit / Anpassung des Modells an die Daten.