In pl90/RTutorAirports: RTutor problem set Airports

user.name = '' # set to your user name

library(RTutor)
check.problem.set('Airports', ps.dir, ps.file, user.name=user.name, reset=FALSE)

# Run the Addin 'Check Problemset' to save and check your solution

Problem Set Airports

Willkommen

Willkommen zu diesem interaktiven RTutor Problem Set, welches Teil meiner Masterarbeit bei Herrn Prof. Kranz an der UniversitÃ¤t Ulm war. Dieses Problem Set ist mit Hilfe des Papers "History and Industry Location: Evidence from German Airports" von Stephen J. Redding, Daniel M. Sturm und Nikolaus Wolf entwickelt, welches im August 2011 im "The Review of Economics and Statistics" verÃ¶ffentlicht wurde. Sowohl das Paper als auch die Stata Codes kÃ¶nnen unter folgendem Link heruntergeladen werden:

https://dataverse.harvard.edu/dataset.xhtml?persistentId=hdl:1902.1/17402.

EinfÃ¼hrung

Als die Alliierten im Zweiten Weltkrieg japanische StÃ¤dte bombardierten und damit komplett zerstÃ¶rten wurde mit Ãœberraschen festgestellt, dass die BevÃ¶lkerung recht schnell wieder in ihre StÃ¤dte zurÃ¼ckkehrte und die wirtschaftliche AktivitÃ¤t sich dort schnell wieder erholte. Selbst ein groÃŸer Schock wie diese ZerstÃ¶rung, fÃ¼hrte also nicht zu einer Standortverlagerung der dort ansÃ¤ssigen Industrien. Das bestÃ¤tigt verschiedene Theorien, welche besagen, dass es fÃ¼r Branchen- und Industriestandorte einen eindeutigen Gleichgewichtspunkt (Steady State), herbeigefÃ¼hrt durch wirtschaftliche Rahmenbedingungen, gibt. Selbst nach einer vorÃ¼bergehenden Verlagerung der AktivitÃ¤ten aufgrund eines Schocks werden sich die Standorte nach einer gewissen Zeit wieder zum Steady State begeben (vgl. Davis und Weinstein (2002, S. 1269-1289) und Redding, Sturm und Wolf (2011, S. 814)).

Im Gegensatz dazu gibt es die These (vgl. Marshall (1920) und Krugman (1991, S. 483-499)), dass Branchen- und Industriestandorte nicht eindeutig von wirtschaftlichen Rahmenbedingungen bestimmt werden und multiple Steady States fÃ¼r Standorte existieren. Welcher dieser Steady States gewÃ¤hlt wird, hÃ¤ngt von Anfangsbedingungen und vergangenen Schocks ab. Erfahrungen haben gezeigt, dass kleine, zeitlich begrenzte Schocks groÃŸe, dauerhafte Auswirkungen haben kÃ¶nnen. Standorte kÃ¶nnen von einem Steady State zu einem anderen verschoben werden.

In diesem Problem Set wollen wir die These von Marshall (1920) am Beispiel deutscher FlughÃ¤fen untermauern. Besonders interessant hierfÃ¼r sind fÃ¼r uns der Zweite Weltkrieg mit der Teilung Deutschlands und die Wiedervereinigung im Jahre 1990 als exogene Einflussfaktoren. Dieses sogenannte "natÃ¼rliche Experiment" beinhaltet einige vorteilhafte Eigenschaften fÃ¼r uns. Die Teilung Deutschlands hat einen groÃŸen exogenen Schock verursacht, welcher erhebliche Auswirkungen auf die AttraktivitÃ¤t von Standorten hatte. Deutschland war Ã¼ber 40 Jahre geteilt und man musste davon ausgehen, dass dieser Zustand von Dauer ist. Dies hatte groÃŸen Einfluss auf die Wahl von Standorten. Die Wiedervereinigung fÃ¼hrte zu einem zweiten Schock, der die Wahl von Standorten beeinflussen sollte und teilweise den Auswirkungen der Teilung Deutschlands entgegenwirkte. Mit Hilfe dieser zwei Schocks wollen wir nun untersuchen, ob die Teilung Deutschlands zu einer dauerhaften Verlagerung von Wirtschaftsstandorten zwischen zwei Steady States gefÃ¼hrt hat. Wir fokussieren uns dabei auf Luftverkehrsknotenpunkte (air hubs). Als Luftverkehrsknotenpunkt oder Luftfahrt-Drehkreuz werden FlughÃ¤fen bezeichnet, die zahlreiche UmsteigemÃ¶glichkeiten bieten. Die Wahl von Luftverkehrsknotenpunkten zur Untersuchung unserer Theorie bietet uns den Vorteil, dass es sehr viele historische, aber auch aktuelle Daten und Statistiken zu FlughÃ¤fen und Passagieren gibt, die wir fÃ¼r unsere Berechnungen gut gebrauchen kÃ¶nnen (vgl. Redding, Sturm und Wolf (2011, S. 814)).

Exercise Content

Es ist nicht zwingend notwendig das Problem Set in der gegebenen Reihenfolge zu bearbeiten, wird aber aufgrund des aufeinander aufbauenden Inhaltes empfohlen. Innerhalb einer Aufgabe mÃ¼ssen alle Ãœbungen der Reihe nach bearbeitet werden. Im oberen Bereich dieser Seite findest du verschiedene Reiter: Content, 1, 2, ... . Hier kannst du die verschiedenen Aufgaben anklicken. Auf dem Reiter rechts von "Data Explorer" kannst du jederzeit nachschauen wie viel Prozent des Problem Sets du bereits bearbeitet hast und wie viel Programmieraufgaben du korrekt gelÃ¶st hast.

Das Problem Set ist wie folgt gegliedert:

Entwicklung der Fluggastanteile
Die Wahl zugunsten Frankfurts

2.1 Zusatzaufgabe ggplot

Internationaler Vergleich - Marktanteil

3.1. Internationaler Vergleich - Flugverbindungen

Difference in Difference SchÃ¤tzer - Beispiel

4.1 SchÃ¤tzer fÃ¼r die Teilung Deutschlands

4.2 SchÃ¤tzer fÃ¼r die Wiedervereinigung

Die Marktanbindung

5.1 Aufteilung der Abflugzahlen

Regionale wirtschaftliche AktivitÃ¤ten und lokale FlÃ¼ge

6.1 Zerlegung der Passagieranteile

6.2 Beziehung zwischen lokalen FlÃ¼gen und der regionalen wirtschaftlichen AktivitÃ¤t

6.3 Regionale wirtschaftliche AktivitÃ¤t

Zusammenfassung
Quellen

Exercise 1 -- Entwicklung der Fluggastanteile

Hier eine kleines Quiz zum AufwÃ¤rmen. In den folgenden Aufgaben werden immer wieder Quiz auftauchen, um dein VerstÃ¤ndnis zu Ã¼berprÃ¼fen. Solltest du eine Frage falsch beantworten, wird dir RTutor das zeigen und du kannst eine andere Antwort auswÃ¤hlen. Die Antworten mÃ¼ssen immer auf Deutsch mit korrekter GroÃŸ- und Kleinschreibung gegeben werden.

Aufgabe: LÃ¶se das folgende Quiz

Frage:

! addonquizFrage1

Frage:

! addonquizFrage2

Frage:

! addonquizFrage3

In dieser Aufgabe wollen wir uns nÃ¤her mit dem in Frage 1 und Frage 3 erwÃ¤hnten Passagieraufkommen und dessen Entwicklung beschÃ¤ftigen.

Zu Beginn wollen wir untersuchen, welchen Anteil an FluggÃ¤sten die zehn grÃ¶ÃŸten deutschen FlughÃ¤fen in den Jahren von 1927 bis 2002 hatten. HierfÃ¼r lesen wir unsere erste Datei ein. Um eine Datei einzulesen benutzen wir den Befehl read.dta. Schau dir in der InfoBox an, wie dieser Befehl genutzt wird.

info("read.dta") # Run this line (Strg-Enter) to show info

Zu Beginn jeder Aufgabe muss einmal der edit Button gedrÃ¼ckt werden, danach kannst du deinen Code eingeben. DrÃ¼cke danach check um den Code laufen zu lassen. Solltest du nicht weiter wissen, kannst du dir mit hint einen Hinweis oder direkt die LÃ¶sung anzeigen lassen indem du solution anklickst.

Um einen Befehl aus einem Package zu verwenden, mÃ¼ssen wir dieses zuerst laden.

Aufgabe: Lade das Package foreign, indem du library(foreign) in das Programmierfenster eingibst. DrÃ¼cke danach auf check.

Sehr gut, du hast nun erfolgreich das Package foreign geladen und wir kÃ¶nnen jetzt alle Befehle nutzen, die in diesem Package enthalten sind.

Aufgabe: Lies nun die Datei airports-time-series.dta ein und speichere sie unter der AbkÃ¼rzung atsf. LÃ¶sche dazu das #- Zeichen und ersetze die ???

#???=read.dta("???")

Wenn du auf data drÃ¼ckst, kommst du in den Data Explorer den du auch oben in der Inhaltsangabe als letzten Reiter finden kannst. Hier kannst du dir unsere eingelesenen DatensÃ¤tze anschauen. Schaue dir den Datensatz atsf an und kehre dann zurÃ¼ck zu Aufgabe 1.

Geben wir atsf in das Programmfenster ein, zeigt uns RTutor die ersten 25 Zeilen unserer Datei atsf. Dies ist eine gute MÃ¶glichkeit um sich einen ersten Ãœberblick Ã¼ber die Datei zu verschaffen.

Aufgabe: Lasse dir die Datei atsf anzeigen

Die Tabelle besteht aus den sieben Spalten: airport, iata, year, depart, arrival, f_depart und f_arrival. Die Spalte airport beschreibt den Standort des jeweiligen Flughafens. iata ist ein KÃ¼rzel fÃ¼r den jeweiligen Flughafen. In year kÃ¶nnen wir ablesen, in welchem Jahr unsere Daten aufgezeichnet wurden. Die Spalten depart und arrival geben an wie viele Personen im jeweiligen Jahr vom jeweiligen Flughafen gestartet bzw. gelandet sind. Die Spalten f_arrival und f_depart beschreiben die Fracht in Tonnen, die im jeweiligen Jahr angekommen bzw. abgeflogen ist. Unsere Daten reichen vom Jahr 1927 bis ins Jahr 2002. Aufgrund des Zweiten Weltkriegs gibt es keine verfÃ¼gbaren Daten von 1939-1949. Die Daten aus den Jahren 1927-1938 stammen vom Statistischen Jahrbuch des Deutschen Reiches. Die Daten von 1950-2002 stammen aus dem Statistischen Jahrbuch fÃ¼r die Bundesrepublik Deutschland, verÃ¶ffentlicht vom Statistischen Bundesamt (verschiedene Jahre).

Frage:

! addonquizBerlin_1950

Da wir nur den Passagierbetrieb untersuchen, sind die Spalten f_depart und f_arrival fÃ¼r uns irrelevant und wir wollen diese aus unserem Datensatz entfernen. Hierzu eignet sich der Befehl select aus dem Package dplyr. Mit diesem Befehl kÃ¶nnen wir bestimmte Spalten einer Tabelle auswÃ¤hlen. Du kannst wieder in der InfoBox genaueres Ã¼ber den Befehl select nachlesen.

info("select()") # Run this line (Strg-Enter) to show info

Ãœberschreibe die Tabelle atsf indem du nur die Spalten airport,year,depart und arrival auswÃ¤hlst. Lasse dir die Datei atsf im Anschluss wieder anzeigen.

Aufgabe: Entferne das #-Zeichen und ersetze die ???

#library(dplyr)
#atsf=select(???)
#atsf

Jetzt haben wir die Spalten f_depart und f_arrival aus der Tabelle atsf entfernt.

Da wir im Folgenden nur mit den zehn grÃ¶ÃŸten deutschen FlughÃ¤fen rechnen wollen, mÃ¼ssen wir noch die FlughÃ¤fen Dresden, Erfurt, Leipzig, MÃ¼nster und SaarbrÃ¼cken aus unserer Tabelle entfernen. Von diesen sind keine vollstÃ¤ndigen Daten vorhanden. HierfÃ¼r ist der Befehl filter() aus dem Package dplyr hilfreich. Schau dir in der InfoBox an wie der Befehl genutzt wird.

info("filter()") # Run this line (Strg-Enter) to show info

Wir kÃ¶nnten nun den folgenden Code verwenden um die oben genannten FlughÃ¤fen aus unserer Datei atsf zu lÃ¶schen: atsf=filter(atsf,atsf$airport!="Dresden" & atsf$airport!="Erfurt" & atsf$airport!="MÃ¼nster"& atsf$airport!="SaarbrÃ¼cken"& atsf$airport!="Leipzig"). Einfacher und Ã¼bersichtlicher geht es aber mit der sogenannten "Pipe"-Schreibweise:

Aufgabe: Ersetze die Fragezeichen im Code und lÃ¶sche # um ALLE oben genannten FlughÃ¤fen aus unserer Datei zu entfernen

#atsf=atsf %>% filter(!airport %in% c("???","???","MÃ¼nster","SaarbrÃ¼cken","Leipzig"))

Wir werden spÃ¤ter etwas mehr Ã¼ber die "Pipe"-Schreibweise lernen.

Unser Datensatz ist nun vollstÃ¤ndig bereinigt und fÃ¼r unsere erste Berechnung bereit. Zur Erinnerung: Wir wollen untersuchen, welchen Anteil an FluggÃ¤sten die zehn grÃ¶ÃŸten deutschen FlughÃ¤fen in den Jahren von 1927 bis 2002 jeweils hatten.

info("summarise() und group_by()") # Run this line (Strg-Enter) to show info

Zu Beginn wollen wir unsere Datei mit dem Befehl summarise aus dem Package dplyr zusammenfassen. Dieser wird Ã¼blicherweise mit dem Befehl group_by() aus dem selben Package verwendet. Schau dir in der InfoBox an wie dies funktioniert. Berechne jetzt die Gesamtanzahl der Passagiere, die fÃ¼r die jeweiligen Jahre 1927 bis 2002 von allen FlughÃ¤fen zusammen abgeflogen sind.

Aufgabe: Entferne das #-Zeichen und ersetze die ???

#summarise(group_by(???,year),sum_depart=sum(???))

Wir haben eine neue Tabelle erstellt, in der fÃ¼r jedes Jahr die Anzahl der AbflÃ¼ge in der Spalte "sum_depart" steht. Wir sehen aber auch, dass wir unter anderem die Spalten airport und depart verloren haben. Wir kÃ¶nnten jetzt unsere neue Tabelle mit atsf pro Jahr zusammenfÃ¼gen. Dies wÃ¼rde mit dem Befehl left_join aus dem Package dplyr funktionieren.

Einfacher geht es jedoch, indem wir die Befehle mutate und group_by verbinden. mutate fÃ¼gt einem Datensatz eine neue Variable hinzu. Schau dir in der InfoBox an wie dies funktioniert.

info("mutate() und transmute()") # Run this line (Strg-Enter) to show info

Wir erzeugen also eine neue Spalte sum_depart, die fÃ¼r jedes Jahr die Gesamtzahl der Passagiere beinhaltet, die von einem der zehn FlughÃ¤fen abgeflogen sind.

Aufgabe: Ersetze die Fragezeichen sinnvoll und lasse dann den folgenden Code laufen

#atsf=mutate(group_by(atsf,???),sum_depart=sum(???))

Nun wollen wir in einer neuen Spalte pshare den Fluggastanteil mit folgender Formel berechnen:

$\textrm{pshare}=\frac{\textrm{depart}}{\textrm{sum_depart}}*100$

FÃ¼ge dem Datensatz atsf eine neue Spalte pshare hinzu, in der du den prozentualen Anteil aller FluggÃ¤ste berechnest.

Aufgabe: Ersetze die ??? und entferne #

#atsf=mutate(???,pshare=(???)*100)

Wir wollen jetzt die Fluggastanteile fÃ¼r jeden Flughafen fÃ¼r die Jahre 1927 bis 2002 in eine Graphik plotten. Das machen wir zunÃ¤chst mit Standardbefehlen wie plot() und lines().

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

year=filter(atsf,airport=="Berlin")$year
plot(filter(atsf,airport=="Berlin")$year,filter(atsf,airport=="Berlin")$pshare,type="b",main="Passagieranteile",ylab="Passagieranteile in %", xlab="Jahr",  ylim=c(0,50),pch=16,col="black")
abline(v =1939)
abline(v =1949)
lines(year,filter(atsf,airport=="Frankfurt")$pshare, type="b",pch=17,lty=1,col="grey")
lines(year,filter(atsf,airport=="MÃ¼nchen")$pshare, type="b",pch=0,lty=1)
lines(year,filter(atsf,airport=="DÃ¼sseldorf")$pshare, type="b",pch=4,lty=3)
lines(year,filter(atsf,airport=="Hamburg")$pshare, type="b",pch=3,lty=3)
lines(year,filter(atsf,airport=="Bremen")$pshare, type="l",lty=2)
lines(year,filter(atsf,airport=="Hannover")$pshare, type="l",lty=2)
lines(year,filter(atsf,airport=="Stuttgart")$pshare, type="l",lty=2)
lines(year,filter(atsf,airport=="KÃ¶ln")$pshare, type="l",lty=2)
lines(year,filter(atsf,airport=="NÃ¼rnberg")$pshare, type="l",lty=2)

legend("topright", c("Berlin","Frankfurt","MÃ¼nchen"), pch = c(16,17,0),bty = 'n',xpd=TRUE)

Frage:

! addonquizGap

Frage:

! addonquizAusschlag

Wir wollen noch das Package ggplot2 kennenlernen, mit welchem wir die Graphik optisch ansprechender darstellen kÃ¶nnen.

ggplot2

Zum Abschluss dieser Aufgabe wollen wir noch kurz das Package ggplot2 kennenlernen. ggplot2 ist sehr mÃ¤chtig wenn es darum geht, verschiedene Arten von Graphiken zu plotten. Als Einstieg wollen wir die Graphik von oben mit ggplot2 plotten. Der Code wirkt auf den ersten Blick sehr kompliziert, ist aber bei nÃ¤herer Betrachtung sehr strukturiert aufgebaut. FÃ¼r eine ausfÃ¼hrliche Anleitung vgl. Wickham (2009) oder Teutonico (2015).

info("ggplot2()") # Run this line (Strg-Enter) to show info

Der Hintergrund der Graphik wird mit dem Befehl ggplot erzeugt. ggplot benÃ¶tigt als Input den Datensatz data und unter aes(x=...,y=...) unsere Werte fÃ¼r die x- und y-Achse. colour=airport ist optional und lÃ¤sst unsere FlughÃ¤fen gleich in unterschiedlichen Farben erscheinen. Danach kann die Graphik beliebig erweitert oder bearbeitet werden. Dies geschieht ganz einfach mit einem +. Wir starten also mit ggplot() und fÃ¼gen bspw. zuerst unsere Fluggastanteile mit +geom_line() hinzu und Ã¤ndern dann unsere Achsenbeschriftung mit +labs().

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

ggplot(data=atsf,aes(x=year, y=pshare, colour=airport)) +
  geom_line() +
  labs(x="Jahr",y="Passagieranteil in %",title="Passagieranteile deutscher FlughÃ¤fen",colour="Flughafen")

Um den Bereich 1938 bis 1950 auszublenden, fÃ¼gen wir mittels +annotate() einen weiÃŸen Balken ein. Mit +theme_bw() kann das Aussehen einer Graphik geÃ¤ndert werden. So kÃ¶nnen wir Graphiken zum Beispiel Ã¤hnlich denen eines wissenschaftlichen Journals aussehen lassen.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

ggplot(data=atsf,aes(x=year, y=pshare, colour=airport)) +
  geom_line() +
  labs(x="Jahr",y="Passagieranteil in %",title="Passagieranteile deutscher FlughÃ¤fen",colour="Flughafen") +
  scale_x_log10(breaks=c(1925, 1935,1945, 1955, 1965, 1975, 1985, 1995, 2005)) +
  theme_bw() +
  annotate("rect", fill = "white", xmin = 1938, xmax = 1950,   ymin = -Inf, ymax = Inf) +
  geom_vline(xintercept = c(1938,1950), color = "black", size=0.5)

Die einzelnen Trends lassen sich in diesem Plot schwer auseinanderhalten, deshalb machen wir noch einen weiteren Plot. Mit +facet_wrap(~airport) erzeugen wir fÃ¼r jeden Flughafen einen eigenen Plot.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

ggplot(data=atsf,aes(x=year, y=pshare, colour=airport)) +
  geom_line() +
  labs(x="Jahr",y="Passagieranteil in %",title="Passagieranteile deutscher FlughÃ¤fen",colour="Flughafen") +
  scale_x_log10(breaks=c(1925, 1935,1945, 1955, 1965, 1975, 1985, 1995, 2005)) +
  theme_bw() +
  annotate("rect", fill = "white", xmin = 1938, xmax = 1950,   ymin = -Inf, ymax = Inf) +
  geom_vline(xintercept = c(1938,1950), color = "black", size=0.5) +
  facet_wrap(~airport) + 
  theme(axis.text.x = element_text(angle = 60, vjust = 0.5, hjust=0.5))

Frage:

! addonquizFrankfurt_beginn

Frage:

! addonquizleader

Wie der Graphik zu entnehmen ist, war Berlin vor dem Zweiten Weltkrieg der mit groÃŸem Abstand meistgenutzte Flughafen in Deutschland. Der Passagieranteil von Berlin im Jahr 1927 betrug fast 30% und war damit mehr als doppelt so groÃŸ wie der Passagieranteil des Frankfurter Flughafens. Vor 1938 waren die FlughÃ¤fen Frankfurt, MÃ¼nchen, Hamburg und KÃ¶ln auf den PlÃ¤tzen zwei bis fÃ¼nf. Alle hatten einen Marktanteil von ungefÃ¤hr 10% (vgl. Redding, Sturm und Wolf (2011, S. 819)).

WÃ¤hrend Berlin im Jahr 1950 immer noch den grÃ¶ÃŸten Flughafen Deutschlands hatte, war Frankfurt bereits mit deutlichem Vorsprung der zweitgrÃ¶ÃŸte Flughafen. Im Jahr 1960 wurde Berlin von Frankfurt als grÃ¶ÃŸter deutscher Flughafen abgelÃ¶st. WÃ¤hrend Berlins Marktanteil in den 1980ern auf unter 10% fiel, konnte Frankfurt zu dieser Zeit einen Marktanteil von 35 bis 40% verzeichnen. Der kleine Anstieg von Berlins Fluggastanteil im Jahr 1990 ist der Tatsache geschuldet, dass wir die Daten der FlughÃ¤fen Tempelhof und Tegel in Westberlin und SchÃ¶nefeld in Ostberlin ab diesem Jahr aufgrund der Widervereinigung zusammengerechnet haben. Abgesehen von dieser kleinen ErhÃ¶hung ist der Marktanteil von Berlin seit der Wiedervereinigung im Jahr 1990 stetig gefallen und Frankfurt hat sich klar als bedeutendster deutscher Flughafen etabliert (vgl. Redding, Sturm und Wolf (2011, S. 819 f)).

Auf Grundlage aller Daten, die wir bis hierhin haben, gibt es keine Anzeichen die darauf hindeuten, dass Berlin eines Tages wieder der grÃ¶ÃŸte deutsche Flughafen werden kÃ¶nnte. Dies ist ein erstes Anzeichen dafÃ¼r, dass die Verlagerung von Berlin nach Frankfurt eine dauerhafte Verlagerung des Luftverkehrsknotenpunkts zwischen multiple Steady States ist. Dies wÃ¼rde der These von Davis und Weinstein (2002) widersprechen, die besagt, dass ein eindeutiger Steady State existiert.

Exercise 2 -- Die Wahl zugunsten Frankfurts

WÃ¤hrend die Ergebnisse aus Aufgabe 1 andeuten, dass Deutschlands Luftverkehrsknotenpunkt zwischen zwei Steady States gewechselt hat, wÃ¤re eine alternative ErklÃ¤rung, dass der Standortwechsel von Deutschlands grÃ¶ÃŸtem Flughafen auf einen Wechsel von wirtschaftliche Rahmenbedingungen zurÃ¼ckzufÃ¼hren ist. In diesem und den folgenden Aufgaben werden wir aber zeigen, dass es sich tatsÃ¤chlich um einen Wechsel zwischen zwei Steady States handelt.

In Aufgabe 1 haben wir gelernt, dass Deutschlands Luftverkehrsknotenpunkt nach der Teilung Deutschlands von Berlin nach Frankfurt gezogen ist. Doch warum gerade Frankfurt? Warum nicht ein anderer Flughafen? Vor der Teilung Deutschlands gab es dafÃ¼r keine Anzeichen. Die FlughÃ¤fen Frankfurt, KÃ¶ln, MÃ¼nchen und Hamburg hatten alle in etwa das gleiche Passagieraufkommen, wie wir unserer Graphik aus Aufgabe 1 entnehmen kÃ¶nnen.

Um diese Frage zu beantworten lohnt sich ein Blick auf die deutsche Geschichte.

Geschichtlicher Hintergrund

Da die Teilung und Wiedervereinigung Deutschlands eine wichtige Rolle fÃ¼r unser RTutorium spielen, mÃ¶chte ich hier eine kleine geschichtliche Zusammenfassung geben:

In der Folge des Zweiten Weltkrieges (1939-1945) und zu Beginn des Kalten Krieges war Deutschland in zwei ungefÃ¤hr gleich groÃŸe Teile aufgeteilt und durch den sogenannten "Eisernen Vorhang" in Ost- und Westdeutschland geteilt. Ostdeutschland war von der Sowjetunion besetzt, Westdeutschland wurde in eine britische, franzÃ¶sische und amerikanische Zone (siehe Abb. 1) aufgeteilt (vgl. Redding, Sturm und Wolf (2011, S. 816)).

Abb. 1 - Besatzungszonen Deutschland nach Ende des Zweiten Weltkriegs. Quelle: http://www.geschichtsatlas.de/~gf5/neuheim.html

Berlin lag ungefÃ¤hr 200 Kilometer Ã¶stlich der Grenze zwischen West- und Ostdeutschland, also in der Sowjetischen Zone. Da Berlin als Hauptstadt jedoch eine besondere Rolle fÃ¼r die Alliierten spielte, wurde Berlin ebenfalls in vier Sektoren geteilt.

Im August 1961 wurde Berlin durch die Berliner Mauer in zwei Teile geteilt. Westberlin beinhaltete die Sektoren von Frankreich, GroÃŸbritannien und den USA. Ostberlin gehÃ¶rte zum Sowjetischen Sektor.

Westberlin lag also mitten in der Sowjetischen Zone, was sich als groÃŸes Problem herausstellen sollte. Es gab Anfangs zwar eine Vereinbarung zwischen den Alliierten und der Sowjetunion Ã¼ber Zugangsrouten von Westdeutschland nach Westberlin, diese wurden ab 1948 aber von der Sowjetunion blockiert. WÃ¤hrend dieser Blockade wurde Westberlin fÃ¼r Ã¼ber ein Jahr per LuftbrÃ¼cke mit HilfsgÃ¼tern und Nahrungsmitteln beliefert, bis man sich wieder auf Verkehrsrouten am Boden einigen konnte.

1985 startete der Prozess zur Wiedervereinigung von Deutschland. 1989 fiel die Mauer in Folge von starken Demonstrationen in Ostdeutschland und bereits im Oktober 1990 war Deutschland offiziell wiedervereinigt (vgl. Loth (1988) und Redding, Sturm und Wolf (2011, S. 816)).

Frage:

! addonquizBesatzungszonen

Frage:

! addonquizWiedervereinigung

Wir haben nun etwas Ã¼ber die deutsche Geschichte gelernt. Lasse jetzt den folgenden Code laufen um dir auf Google Maps anzuschauen, wo genau unsere 15 deutschen TransitflughÃ¤fen liegen. Wenn du auf die roten Kegel klickst erscheint der Name des jeweiligen Flughafens. Danach beantworte die darauffolgende Frage. Der Code ist nicht wichtig fÃ¼r uns und muss deshalb nicht nachvollzogen werden.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen. Vergiss nicht: bei der ersten Aufgabe eines Kapitels muss zuerst edit gedrÃ¼ckt werden.

Karte <- gvisMap(mutate(summarise(group_by(read.dta("Gravity2002.dta"),expname),nlatitude_e=mean(nlatitude_e),nlongitude_e=mean(nlongitude_e),deppass=sum(deppass)),LatLong=paste(nlatitude_e,":",nlongitude_e,sep="")), "LatLong" ,"expname", options=list(showTip=TRUE, showLine=TRUE, enableScrollWheel=TRUE,mapType='terrain', useMapTypeControl=TRUE))

print(Karte, tag="chart")

Frage:

! addonquizFrankfurt_Zone

Die Antwort auf die oben stehende Frage ist laut Redding, Sturm und Wolf (2011, S. 822 f) der Grund dafÃ¼r, dass Frankfurt und nicht KÃ¶ln oder Hamburg heute den Hauptflughafen von Deutschland stellt. Die USA haben Frankfurt 1948 zu ihrem EuropÃ¤ischen Hauptflughafen gemacht, fast der komplette militÃ¤rische Transport flog Ã¼ber Frankfurt. Deshalb war Frankfurt auch der Hauptflughafen von dem aus die Berliner LuftbrÃ¼cke gestartet wurde. Dies war auch der Grund warum der Frankfurter Flughafen zu dieser Zeit nochmals ausgebaut und vergrÃ¶ÃŸert wurde. Obwohl Frankfurt bereits 1950 der zweitgrÃ¶ÃŸte deutsche Flughafen war, dauerte es noch eine ganze Zeit bis Frankfurt endlich Berlin eingeholt hatte. Wir stellen fest: WÃ¤hrend es einen groÃŸen Schock wie die Teilung Deutschlands benÃ¶tigte um die wirtschaftliche AktivitÃ¤t von einem bestehenden Steady State zu entfernen, genÃ¼gte ein verhÃ¤ltnismÃ¤ÃŸig kleiner Schock, wie die Wahl Frankfurts zum Hauptflughafen der US-StreitkrÃ¤fte in Europa, um einen neuen mÃ¶glichen Steady State zu wÃ¤hlen (vgl. Redding, Sturm und Wolf (2011, S. 822 f)).

Wir haben in dieser Aufgabe gelernt, warum gerade Frankfurt zum grÃ¶ÃŸten deutschen Flughafen nach der Teilung Deutschlands aufgestiegen ist.

Exercise 2.1 -- Zusatzaufgabe ggplot

In dieser Aufgabe lernen wir etwas mehr Ã¼ber ggplot und geben einen kleinen Ausblick darauf, welche MÃ¶glichkeiten dieses Package bietet. Diese Aufgabe ist nicht Teil des Papers und kann bei Bedarf Ã¼bersprungen werden.

In Aufgabe 1 haben wir bereits ein wenig Ã¼ber ggplot2 erfahren. An dieser Stelle mÃ¶chten wir noch eine Graphik mit ggplot2 erzeugen. Wir wollen eine Karte von Deutschland erstellen, in der die Standorte unserer FlughÃ¤fen markiert werden.

FÃ¼hre zunÃ¤chst folgenden Code aus. Der Befehl get_map erlaubt es uns verschiedene Landkarten zu laden. In unserem Fall laden wir die Karte von Deutschland.

Aufgabe: DrÃ¼cke check und lasse den folgenden Code laufen

p <- ggmap(get_map(location = "Germany", zoom =6) ) 
p

Wir haben also eine Karte von Deutschland erzeugt und diese unter p gespeichert. Um die Standorte unserer FlughÃ¤fen zu erzeugen benÃ¶tigen wir deren LÃ¤ngen- und Breitengrade.

Lade dazu zunÃ¤chst die Datei Gravity2002.dta, und speichere sie unter Gravity.

Aufgabe: Lade die Datei Gravity2002.dta und speichere sie unter Gravity.

Den genauen Inhalt von Gravity werde ich in Aufgabe 5 erklÃ¤ren, wenn wir uns ausfÃ¼hrlicher mit dem Datensatz beschÃ¤ftigen. Im Moment ist fÃ¼r uns nur wichtig, dass wir unter nlatitude_e den Breitengrad und unter nlongitude_e den LÃ¤ngengrad des Flughafens expname finden kÃ¶nnen. Diese Angaben entstammen der Homepage http://worldaerodata.com/. Benutze die Homepage um folgende Frage zu beantworten.

Frage:

! addonquizworldaerodata

Im Feld deppass befinden sich die PassagierabflÃ¼ge des jeweiligen Flughafens. Wir gruppieren unseren Datensatz Gravity also nach den FlughÃ¤fen.

Aufgabe: DrÃ¼cke check und lasse den folgenden Code laufen

temp=summarise(group_by(Gravity,expname),
               nlatitude_e=mean(nlatitude_e),
               nlongitude_e=mean(nlongitude_e),
               deppass=sum(deppass))
temp

Wir wollen der Karte p nun die Standpunkte der FlughÃ¤fen hinzufÃ¼gen. Mit +geom_point() kÃ¶nnen wir Punkte einfÃ¼gen. Der y-Wert soll der Breitengrad nlatitude_e sein, der x-Wert dementsprechend der LÃ¤ngengrad. Die GrÃ¶ÃŸe des Punktes soll deppass/1000000 betragen. Mit +geom_text() kÃ¶nnen wir die Punkte beschriften und mit +labs() beschriften wir die Achsen und geben der Graphik einen Titel.

Aufgabe: Entferne die Kommentarfunktion und ersetze die Fragezeichen

#p <- p + geom_point(data=temp, aes(y=???, x=???, size=???), color="red") +geom_text(data=temp,aes(y=nlatitude_e, x=nlongitude_e,label=expname), color="red",hjust=0.5, vjust=1.4,size=5) +labs(size="AbflÃ¼ge in Mio",title="Lage deutscher FlughÃ¤fen",x="LÃ¤ngengrad",y="Breitengrad")
#p

Wir haben also eine Deutschlandkarte mit den jeweiligen Standpunkten unserer FlughÃ¤fen erstellt, wobei die GrÃ¶ÃŸe des Punktes der Abflugzahl der Passagiere entspricht.

Exercise 3 -- Internationaler Vergleich - Marktanteil

In dieser Aufgabe wollen wir einen weiteren Beleg dafÃ¼r erbringen, dass es sich beim Wechsel des Luftverkehrsknotenpunkts von Berlin nach Frankfurt tatsÃ¤chlich um einen Wechsel zwischen zwei Steady States handelt und dass der Standortwechsel nicht mit VerÃ¤nderungen von wirtschaftlichen Rahmenbedingungen erklÃ¤rbar ist. HierfÃ¼r betrachten wir in dieser Aufgabe und in Aufgabe 3.1 die internationale Lage. Konkret wollen wir dabei Deutschland mit anderen europÃ¤ischen LÃ¤ndern vergleichen und zeigen, dass fÃ¼r gewÃ¶hnlich eine hohe BestÃ¤ndigkeit fÃ¼r den grÃ¶ÃŸten Flughafen des Landes herrscht.

Aufgabe: Lese die Datei internationaltable.dta ein und speichere sie unter int. Lasse dir den Datensatz anschlieÃŸend anzeigen

Die Tabelle beinhaltet die 15 EU LÃ¤nder (ausgenommen Luxemburg, da kein Flughafen vor dem Zweiten Weltkrieg) mit der Schweiz und Norwegen und ihre jeweils grÃ¶ÃŸten FlughÃ¤fen in den Jahren 1937 bzw. 2002. In der Spalte first_air_37 finden wir den Flughafen mit dem grÃ¶ÃŸten Marktanteil des Landes country im Jahr 1937. Das Selbe gilt fÃ¼r first_air_02 fÃ¼r das Jahr 2002. Die Daten fÃ¼r das Jahr 1937 stammen vom Revue Aeronautique Internationale (1938), die Daten fÃ¼r das Jahr 2002 entstammen dem "Worldwide Airport Traffic Report 2002" (vgl. Airports Council International (2002)).

Frage:

! addonquizEinhundert

Frage:

! addonquizDeutschland

Damit ist Deutschland das einzige Land in dem die grÃ¶ÃŸten FlughÃ¤fen der Jahre 1937 und 2002 voneinander abweichen. TatsÃ¤chlich ist Berlin im Jahr 2002 nur noch auf Platz vier der grÃ¶ÃŸten FlughÃ¤fen Deutschlands (siehe Aufgabe 1). In allen anderen LÃ¤ndern ist der grÃ¶ÃŸte Flughafen im Jahr 2002 noch der selbe wie im Jahr 1937 (vgl. Redding, Sturm und Wolf (2011, S. 822)).

Wir wollen an dieser Stelle eine neue Schreibweise fÃ¼r Befehle aus dem Package dplyr kennenlernen. Hier werden Befehle mit sogenannten "Pipes" (%>%) voneinander getrennt. Dies ist vor allem dann nÃ¼tzlich, wenn wir mehrere Befehle verschachteln mÃ¼ssen. Wollen wir z.B. den Marktanteil von Paris aus dem Jahr 2002 herausfinden, wÃ¼rden wir folgenden Befehl wÃ¤hlen um uns das Ergebnis anzeigen zu lassen: filter(select(int,first_air_02,mshare_02),first_air_02=="Paris"). Mit der "Pipe"-Schreibweise sieht der selbe Befehl wie folgt aus: int %>% filter(first_air_02=="Paris") %>% select(first_air_02,mshare_02). Wir mÃ¼ssen also die Befehle nicht verschachteln sondern kÃ¶nnen beliebig viele mittels %>% aneinanderreihen.

Aufgabe: Berechne mit der Pipe-Schreibweise den Marktanteil von Oslo im Jahr 2002. Ersetze dazu die ??? und entferne #

#??? %>% filter(??? ) %>% select(first_air_02,???)

Der Datensatz int gibt uns also den grÃ¶ÃŸten Flughafen des jeweiligen Landes im Jahr 1937 sowie seine Marktanteile im Jahr 1937 bzw. 2002 an. Was wir jetzt zeigen wollen ist, dass die Marktanteile von 1937 qualitativ gute SchÃ¤tzer fÃ¼r die Marktanteile im Jahr 2002 sind.

Aufgabe: Erstelle zunÃ¤chst einen Plot indem du die Werte von mshare_37 auf der x-Achse und die Werte von mshare_02 auf der y-Achse plottest. Mit dem $ Zeichen kannst du dir bestimmte Spalten eines Datensatzes ausgeben lassen

#plot(int$???,int$???)

Lineare Regression mit lm()

Uns interessiert, ob eine linearer Zusammenhang zwischen mshair_02 und mshare_37 besteht. Um das herauszufinden fÃ¼hren wir eine lineare Regression zwischen der abhÃ¤ngigen Variablen (mshair_02) und der unabhÃ¤ngigen Variable (mshare_37) durch. Mathematisch sieht das wie folgt aus: [ \textrm{mshair_02}= \beta*\textrm{mshair_37} ]

Nun wollen wir einen Koeffizienten $\hat \beta$ schÃ¤tzen. Dieser gibt die Steigung der Geraden an. Sind die Marktanteile perfekt korreliert, sollte die Steigung $\hat \beta =1$ betragen. Eine lineare Regression kÃ¶nnen wir in R mit lm() durchfÃ¼hren. Da wir keinen intercept (Achsenabschnitt) haben wollen, dies wÃ¼rde die Steigung der Geraden beeinflussen, fÃ¼gen wir -1 ans Ende der Gleichung. FÃ¼hre nun eine lineare Regression mit lm() durch und schaue dir das Ergebnis anschlieÃŸend mit summary() an, indem du folgenden Code laufen lÃ¤sst.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

lm=lm(mshare_02~mshare_37-1,data=int)
summary(lm)

Unter Estimate kannst du den SchÃ¤tzer $\hat \beta$ finden. Der Wert $Pr(>|t|)$ gibt den zugehÃ¶rigen p-Wert an. Der p-Wert ist als Wahrscheinlichkeit definiert. Ist der p-Wert kleiner oder gleich dem vorgegebenen Signifikanzniveau $\alpha$, so wird die vorher definierte Nullhypothese $H_0$ verworfen (vgl. Fahrmeir, Heumann, KÃ¼nstler, Pigeot und Tutz (2016, S. 420)). Die Sterne geben das Signifikanzniveau an. Bei einem p-Wert von $\leq 10 \%$ spricht man von einem signifikanten (ein Stern), bei einem Wert von $\leq 5 \%$ spricht man von einem sehr signifikanten (zwei Sterne) und bei einem Wert von $\leq 1 \%$ spricht man von einem hoch signifikanten (drei Sterne) Ergebnis.

Frage:

! addonquizbeta

In Zukunft wollen wir unsere Ergebnisse aber nicht mit summary() anzeigen lassen, sondern mit dem Befehl stargazer() aus dem gleichnamigen Package. Dieser liefert uns schÃ¶ne, Ã¼bersichtliche Ergebnistabellen, wie wir sie aus wissenschaftlichen Artikeln oder BÃ¼chern kennen.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

library(stargazer)
stargazer(lm,type="html")

Der Wert R^2 gibt das sogenannte BestimmtheitsmaÃŸ an. Wir erhalten hier einen Wert von 0.911, was fÃ¼r einen sehr hohen linearen Zusammenhang spricht. 91% der Variation der abhÃ¤ngigen Variable kann durch die unabhÃ¤ngige Variable erklÃ¤rt werden. Mehr dazu findest du in der InfoBox.

info("BestimmtheitsmaÃŸ") # Run this line (Strg-Enter) to show info

Um zu veranschaulichen was wir berechnet haben, wollen wir die Regressionsgerade jetzt in unsere Graphik plotten. HierfÃ¼r kÃ¶nnen wir den Befehl abline() verwenden.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

plot(int$mshare_37,int$mshare_02)
abline(lm)

Die Autoren des Papers gehen hier von heteroskedastischen StÃ¶rgrÃ¶ÃŸen aus. Das bedeutet, dass die Streuung der Punkte um die Gerade nicht konstant ist und sich die Varianz der StÃ¶rgrÃ¶ÃŸen somit signifikant unterscheiden. Mehr dazu findest du in der InfoBox.

info("HeteroskedastizitÃ¤t") # Run this line (Strg-Enter) to show info

Da bei unserer Graphik nicht eindeutig auf HeteroskedastizitÃ¤t geschlossen werden kann, wollen wir noch die Residuen gegen die vorhergesagten Werte (fitted values) plotten, dies ist ein Ã¼bliches Vorgehen um StÃ¶rgrÃ¶ÃŸen auf HeteroskedastizitÃ¤t zu untersuchen. Als vorhergesagte Werte werden die y-Werte bezeichnet, die wir aufgrund unserer Regressionsanalyse fÃ¼r unsere Datenpunkte bestimmt haben. Residuen werden die AbstÃ¤nde der y-Werte von den empirischen Daten zu den vorhergesagten Werten genannt (vgl. WollschlÃ¤ger (2017, S. 199 f)). Du kannst dir also einfach eine senkrechte Linie von jedem Datenpunkt zur Regressionsgerade vorstellen. Die lÃ¤nge dieser Linien entspricht den Residuen.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

plot(fitted(lm),residuals(lm))
abline(h=0)

Wir untersuchen wieder die Streuung der Punkte um die Gerade und kÃ¶nnen auch hier keine eindeutige Aussage Ã¼ber die Art der StÃ¶rgrÃ¶ÃŸen machen. Wir kommen am Ende dieser Aufgabe darauf zurÃ¼ck.

Lineare Regression mit felm()

Wir haben nun den Befehl lm() kennengelernt. In den verbleibenden Aufgaben werden wir aber mit dem Befehl felm() aus dem Package lfe arbeiten. felm() bietet sehr viel mehr MÃ¶glichkeiten und erlaubt uns jede Art von Regression durchzufÃ¼hren. Um zu sehen wie felm() angewendet wird, schaue dir die folgende InfoBox an.

info("felm()") # Run this line (Strg-Enter) to show info

Wir fÃ¼hren jetzt die oben beschriebene Regression mit felm() durch und vergleichen sie anschlieÃŸend mit dem Befehl stargazer() mit unserem Ergebnis fÃ¼r lm().

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

felm=felm(mshare_02~mshare_37-1,data=int)
stargazer(felm,lm, type="html")

felm() und lm() liefern uns also dieselben Ergebnisse.

Wie oben bereits erwÃ¤hnt mÃ¼sste die Steigung bei perfekter Korrelation zwischen den Marktanteilen von 1937 und 2002 genau eins sein. Um zu testen ob solch eine statistisch signifikante Korrelation besteht, fÃ¼hren wir einen Waldtest durch. Der Waldtest ist ein statistischer Hypothesentest mit dem die Hypothesen

[ H_0: \theta=\theta_0 \textrm{ gegen } H_1: \theta \not= \theta_0 ] getestet werden (vgl. Kennedy (2008, S.56 f)).

Wir benutzen nun den Befehl waldtest() aus dem Package lfe.

info("waldtest()") # Run this line (Strg-Enter) to show info

In unserem Fall wollen wir testen, ob der SchÃ¤tzer $\hat \beta=1$ ist. Der waldtest() aus dem Package lfe berechnet $H_0: R*beta=r$, weshalb wir $r=1$ und $R=1$ Ã¼bergeben. Mit type="robust" nehmen die Autoren heteroskedastische StÃ¶rgrÃ¶ÃŸen an, damit der Test weniger sensibel auf AusreiÃŸer reagiert.

Aufgabe: FÃ¼hre einen Waldtest durch um zu testen ob unsere Lineare Regression die Steigung 1 hat. Entferne dazu # und ersetze die ???

#waldtest(felm,r=???,R=???,type="robust")

FÃ¼r die F-Statistik erhalten wir einen p-Wert von 0,162. Dieser Wert ist grÃ¶ÃŸer als das von uns gewÃ¤hlte Signifikanzniveau von 10%. Daraus schlieÃŸen wir, dass es eine statistisch signifikante Korrelation zwischen den vergangenen und den aktuellen Marktanteilen gibt. Somit verwerfen wir die Nullhypothese, dass der Koeffizient fÃ¼r den Marktanteil von 1937 eins ist, nicht (vgl. Redding, Sturm und Wolf (2011, S. 822)).

Da wir weiter oben festgestellt haben, dass wir keine genaue Aussage Ã¼ber die Art der StÃ¶rgrÃ¶ÃŸen machen kÃ¶nnen, wollen wir den Waldtest zusÃ¤tzlich noch fÃ¼r homoskedastische StÃ¶rgrÃ¶ÃŸen berechnen.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

waldtest(felm,r=1,R=1)

Auch hier liegt der p-Wert Ã¼ber dem Signifikanzniveau von 10% und wir verwerfen die Nullhypothese nicht. Die Wahl der StÃ¶rgrÃ¶ÃŸen hat in diesem Fall also keine groÃŸe Auswirkung auf unser Ergebnis.

Die Marktanteile von 1937 sind also statistisch gute SchÃ¤tzer fÃ¼r die Marktanteile von 2002. Die auÃŸergewÃ¶hnliche BestÃ¤ndigkeit fÃ¼r den Standort des grÃ¶ÃŸten Flughafens eines Landes zeigt uns laut Redding, Sturm und Wolf (2011, S. 822), dass der Wechsel des Luftverkehrsknotenpunkts von Berlin nach Frankfurt ein Einzelfall ist.

Exercise 3.1 -- Internationaler Vergleich - Flugverbindungen

Nachdem wir die Korrelation der Marktanteile in Aufgabe 3 untersucht haben, wollen wir in dieser Aufgabe untersuchen, wie sich der Anteil der direkten Verbindungen der FlughÃ¤fen Ã¼ber die Jahre entwickelt hat.

Aufgabe: Lade hierzu den Datensatz directconnections1930s.dta und speichere ihn unter der Variable dir. Schau dir den Datensatz anschlieÃŸend unter data kurz an.

In diesem Datensatz kann man genau ablesen welche zwei europÃ¤ischen Flughafen im Jahr 1935 eine direkte Flugverbindung hatten. Eine 1 im Feld $A_{ij}$ steht fÃ¼r eine direkte Verbindung von Flughafen $j$ nach Flughafen $i$.

Aufgabe: Benutze die filter Funktion um die darauffolgende Frage zu beantworten

Frage:

! addonquizbarcelona

Uns interessiert, wie viel Prozent aller europÃ¤ischen FlughÃ¤fen 1935 und 2002 von den FlughÃ¤fen Frankfurt und Berlin angeflogen wurden. Generiere nun einen neuen Datensatz temp, indem nur die Spalten destination, berlin und frankfurt enthalten sind. Lasse dir temp anschlieÃŸend anzeigen.

Aufgabe: Ersetzte die ??? und entferne das #-Zeichen

#temp=select(???)
#temp

Um zu berechnen, wie viel Prozent der europÃ¤ischen FlughÃ¤fen 1935 von Frankfurt aus angeflogen wurden, benutze folgende Formel: $(y/z)*100$ wobei y der Anzahl der Einsen in der Spalte frankfurt entspricht und z der Anzahl an Reihen insgesamt. Mit sum() kannst du die Summe einer Spalte berechnen. Mit length() kannst du die Gesamtanzahl der EintrÃ¤ge einer Spalte bestimmen.

Aufgabe: Berechne wie viel Prozent der europÃ¤ischen FlughÃ¤fen 1935 von Frankfurt aus angeflogen wurden. Ersetze dazu die ??? und entferne #

#sum(dir$???)/length(dir$???)*???

Aufgabe: FÃ¼hre die gleiche Berechnung fÃ¼r Berlin durch

Im Jahr 1935 war es also mÃ¶glich, 71% aller europÃ¤ischen FlughÃ¤fen von Berlin aus anzufliegen. Von Frankfurt aus wurden 31% der FlughÃ¤fen erreicht. Diese Werte wollen wir nun mit denen aus dem Jahr 2002 vergleichen.

Um zu berechnen, wie viel Prozent der europÃ¤ischen FlughÃ¤fen im Jahr 2002 von den FlughÃ¤fen Frankfurt und Berlin angeflogen wurden, benÃ¶tigen wir nun einen anderen Datensatz.

Aufgabe: Lade hierzu den Datensatz Gravity2002.dta und speichere ihn unter der Variable Gravity. Lasse ihn dir anschlieÃŸend anzeigen

Der Datensatz Gravity ist sehr umfÃ¤nglich. Die Daten stammen alle aus dem Jahr 2002. Wir kÃ¶nnen unter anderem ablesen wie viel Passagiere jeweils von einem deutschen Flughafen zu einem beliebigen internationalen Flughafen geflogen sind (Spalte deppass). Diese Daten entstammen dem Statistischen Bundesamt (2003). Der Datensatz gibt uns aber noch sehr viel mehr Informationen, wie z.B. die exakte Lage des Zielflughafens mit LÃ¤ngen- und Breitengraden, die Anzahl der lokalen FluggÃ¤ste und die Anzahl der DurchreisefluggÃ¤ste. Auch die Einwohnerzahl und das Bruttoinlandsprodukt der Stadt des Herkunftsflughafens kÃ¶nnen abgelesen werden. Wir werden fÃ¼r unsere Berechnungen nicht alle Spalten benÃ¶tigen. Was die einzelnen Spalten genau beschreiben werde ich genauer erlÃ¤utern, sobald wir diese benÃ¶tigen.

Aufgabe: Benutze die filter Funktion um herauszufinden wie viele FluggÃ¤ste 2002 von Hannover nach Rhodos geflogen sind

#filter(???,expname=="???",???)

Frage:

! addonquizrhodos

Wir erinnern uns an unser eigentliches Ziel: Wir wollen wissen, wie viel Prozent der europÃ¤ischen FlughÃ¤fen 2002 von den FlughÃ¤fen Frankfurt und Berlin angeflogen wurden. Da wir hier einen anderen Datensatz als fÃ¼r das Jahr 1935 vorliegen haben, mÃ¼ssen wir uns jetzt Ã¼berlegen wie wir dies berechnen kÃ¶nnen. Hilfreich ist an dieser Stelle die Funktion summarise().

Wir fassen den Datensatz Gravity zusammen und gruppieren ihn nach den ExportflughÃ¤fen (expname). Gleichzeitig fÃ¼gen wir eine neue Spalte mit dem Namen Anteil_2002 hinzu, in der wir die Summe aller Flughafen berechnen, in die mindestens ein Passagier geflogen ist (deppass>0). Diese Summe teilen wir durch 376 (Gesamtanzahl aller FlughÃ¤fen) und multiplizieren sie mit 100 um die Prozentangabe zu bekommen.

Aufgabe: Ersetze die Fragezeichen um das gewÃ¼nschte Ergebnis zu erhalten

#s=Gravity %>% group_by(???) %>% summarise(Anteil_2002=sum(???)/???*100)
#s

Wir haben eine Spalte Anteil_2002 erstellt, die uns fÃ¼r jeden deutschen Flughafen das gewÃ¼nschte Ergebnis anzeigt.

Frage:

! addonquiz2002

Wir wollen das Ergebnis veranschaulichen und verwenden ggplot um ein SÃ¤ulendiagramm fÃ¼r das Jahr 2002 zu erstellen.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

ggplot(s, aes(x=expname, y=Anteil_2002)) + 
  geom_bar(stat = "identity" ,color="black") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

Zusammenfassend lÃ¤sst sich sagen, dass Berlin 1935 72% aller FlughÃ¤fen angeflogen hat, die aus Deutschland angeflogen werden konnten und damit doppelt so viele wie Frankfurt (31%). Im Jahr 2002 hingegen hat Frankfurt 95% aller FlughÃ¤fen, die aus Deutschland angeflogen werden konnten, angeflogen, Berlin hingegen nur etwa 55%. Dies ist ein weiteres Indiz dafÃ¼r, dass Frankfurts Dominanz im Jahr 2002 mit der Dominanz von Berlin vor dem Zweiten Weltkrieg verglichen werden kann (vgl. Redding, Sturm und Wolf (2011, S. 822)). Berlin galt zu dieser Zeit als das Luftkreuz Europas (vgl. Weise (1928)). Desweiteren ist Deutschland aktuell das einzige Land in Europa, in dem sich der grÃ¶ÃŸte Flughafen nicht in der grÃ¶ÃŸten Stadt des Landes befindet.

Fassen wir die Ergebnisse aus Aufgabe 3 und Aufgabe 3.1 zusammen, bestÃ¤tigt sich die Vermutung, dass Deutschlands grÃ¶ÃŸter Flughafen heute in Berlin wÃ¤re, hÃ¤tte es den Zweiten Weltkrieg nicht gegeben. Es kann laut Redding, Sturm und Wolf (2011, S. 822) auch nicht ausgeschlossen werden, dass Berlin, auch heute noch ein mÃ¶glicher Steady State fÃ¼r deutschlands Luftverkehrsknotenpunkt wÃ¤re.

Zum Abschluss noch eine Interaktive Karte die ich mit googleVis erstellt habe. Hier kannst du dir anschauen welche FlughÃ¤fen weltweit im Jahr 2002 von Frankfurt aus erreicht werden konnten. Die Daten fÃ¼r die LÃ¤ngen- und Breitengrade der FlughÃ¤fen entstammen folgender Homepage: http://worldaerodata.com/. Mit einem Klick auf einen der roten Kegel wird dir der Standort des Flughafens angezeigt.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

Karte <- gvisMap(
  mutate(filter(read.dta("Gravity2002.dta"),expname=="Frankfurt"&deppass>0),LatLong=paste(nlatitude_i,":",nlongitude_i,sep="")),"LatLong" ,"impname", options=list(showTip=TRUE, showLine=TRUE, enableScrollWheel=TRUE,mapType='terrain', useMapTypeControl=TRUE))

print(Karte, tag="chart")

Frage:

! addonquizWeltkarte

Exercise 4 -- Difference in Difference SchÃ¤tzer- Beispiel

Nachdem wir die Regressionsanalyse kennen gelernt und die wichtigsten Ergebnisse der deutschen Geschichte ab 1930 eingeordnet haben, wollen wir nochmals einen Blick auf unsere Graphik aus Aufgabe 1 werfen.

Abb. 3 - Graphik aus Aufgabe 1. Quelle: Eigene Darstellung

Die Graphik lÃ¤sst vermuten, dass der Krieg und die Teilung Deutschlands groÃŸe Auswirkungen auf die Passagierverteilung der FlughÃ¤fen hatte. Betrachte hierzu die Linien links und rechts des weiÃŸen Balkens. Im Gegensatz dazu scheint die Wiedervereinigung Deutschlands (rote Linie) kaum Auswirkungen auf die Passagieranteile deutscher FlughÃ¤fen gehabt zu haben. Wir wollen versuchen diesen Sachverhalt mittels der Difference in Difference Methode zu belegen. Dies ist eine, vor allem in der Ã–konomie, Ã¼bliche Methode um Auswirkungen von Experimenten oder Ereignissen zu untersuchen.

Das Prinzip dieser Methode mÃ¶chte ich zunÃ¤chst an einem einfachen Beispiel (siehe Abb. 4) erklÃ¤ren: Wir betrachten Stadt A (6,2% DrogenabhÃ¤ngige) und Stadt B (4,7% DrogenabhÃ¤ngige). Stadt B fÃ¼hrt nun ein Projekt ein, das DrogenabhÃ¤ngigen helfen soll, von Drogen los zu kommen. Nach Abschluss dieses Projekts hat Stadt A noch 5,8% DrogenabhÃ¤ngige. Aus irgendwelchen GrÃ¼nden hat sich die Situation also gebessert obwohl in Stadt A nichts dafÃ¼r getan wurde. Stadt B verzeichnet noch 3% DrogenabhÃ¤ngige. Nun berechnen wir die Differenz von DrogenabhÃ¤ngigen vor bzw. nach der MaÃŸnahme. Stadt A: 6,2%-5,8%=0,4% Senkung. Stadt B: 4,7%-3%=1,7% Senkung. Wir kÃ¶nnen aber nicht davon ausgehen, dass die 1,7% ausschlieÃŸlich auf unsere Anti-DrogenmaÃŸnahme zurÃ¼ckzufÃ¼hren ist, da Stadt A auch eine Senkung der DrogenabhÃ¤ngigkeit vorweisen kann. Es kÃ¶nnten also auch andere Faktoren eine Rolle spielen. Wir gehen also davon aus, dass Stadt B auch ohne EinfÃ¼hrung der MaÃŸnahme eine Senkung von 0,4% hÃ¤tte aufweisen kÃ¶nnen. Deshalb berechnen wir nun die Differenz der Differenzen. In unserem Fall 1,7%-0,4%=1,3%. Der Anteil DrogenabhÃ¤ngiger ist also im Vergleich zu Stadt A um 1,3% gesunken, weshalb wir davon ausgehen, dass die MaÃŸnahme erfolgreich war. Wichtig hierbei ist, dass ein signifikanter Unterschied zu beobachten ist.

Abb. 4 - Bsp: Difference in Difference. Quelle: Eigene Darstellung

FÃ¼r unsere Berechnung benÃ¶tigen wir zwei vergleichbare Gruppen, eine Versuchsgruppe und eine Kontrollgruppe. Wir gehen davon aus, dass sich beide Gruppen ohne ein bestimmtes Ereignis oder Programm gleich entwickelt hÃ¤tten. Mathematisch lÃ¤sst sich der Difference in Difference SchÃ¤tzer $\delta$ wie folgt berechnen: [ \delta=(\bar y_{NE,A}- \bar y_{NE,B})-(\bar y_{VE,A}- \bar y_{VE,B}) ]

$\bar y_{NE,A}$ steht fÃ¼r den Durchschnittswert von Gruppe A nach dem Ereignis, $\bar y_{VE,B}$ fÃ¼r den Durchschnittswert von Gruppe B vor dem Ereignis (vgl. Wooldridge (2015, S.408 ff)).

Diese Methode wollen wir in Aufgabe 4.1 anwenden, um zu zeigen, dass die Teilung Deutschlands einen statistisch signifikanten Einfluss auf den Luftverkehrsknotenpunkt hatte. In Aufgabe 4.2 wollen wir dann zeigen, dass die Wiedervereinigung keinen nennenswerten Einfluss auf die Passagieranteile deutscher FlughÃ¤fen hatte.

Exercise 4.1 -- SchÃ¤tzer fÃ¼r die Teilung Deutschlands

Wir haben in Aufgabe 4 den Difference in Difference SchÃ¤tzer kennengelernt und wollen ihn nun in dieser Aufgabe auf die Teilung Deutschlands anwenden. In unserem speziellen Fall wollen wir untersuchen, wie sich die Passagieranteile von Frankfurt und Berlin vor und nach der Teilung Deutschlands entwickelt haben. DafÃ¼r machen wir zunÃ¤chst eine Regressionsanalyse, um das jÃ¤hrliche Wachstum der Passagieranteile von Frankfurt und Berlin vor bzw. nach der Teilung Deutschlands zu berechnen. Hierzu benutzen wir das folgende Regressionsmodell:

[ share_{at}=\sum_{a=1}^{A} \eta_{ap} + \sum_{a=1}^{A} \beta_{ap}time_{t} + u_{at} ]

Die abhÃ¤ngige Variable $share_{at}$ beschreibt den Passagieranteil von Flughafen $a$ zum Zeitpunkt $t$. $p$ beschreibt eine Periode. Wir unterteilen in drei Perioden: Vor der Teilung, nach der Teilung und nach der Wiedervereinigung. $\eta_{ap}$ beschreibt die Fixeffekte der FlughÃ¤fen in der Periode $p$. Der Koeffizient $\beta_{ap}$ ermÃ¶glicht es Trends fÃ¼r Passagieranteile von Flughafen $a$ in Periode $p$ zu bestimmen. $u_{at}$ ist der stochastische Fehlerterm (vgl. Redding, Sturm und Wolf (2011, S. 818)).

Wir berechnen also zunÃ¤chst das durchschnittliche jÃ¤hrliche Wachstum der Passagieranteile von Frankfurt und Berlin. Vergleiche hierzu die Regressionsgeraden in Abb. 5, die durch die roten Punkte bzw. die grÃ¼nen Dreiecke verlaufen. Die Steigung der jeweiligen Geraden entspricht gerade dem durchschnittlichen jÃ¤hrlichen Wachstum der Passagieranteile. Wir vergleichen dann mittels der Difference in Difference Methode das durchschnittliche Wachstum vor bzw. nach der Teilung Deutschlands um zu entscheiden ob diese Auswirkungen auf die Passagieranteile hatten.

Abb. 5 - Regression der Passagieranteile in AbhÃ¤ngigkeit von der Teilung Deutschlands. Quelle: Eigene Darstellung

Die Steigung der vier Regressionsgeraden aus Abb. 5 entspricht also genau den Werten $\bar y_{NE,A}$, $\bar y_{NE,B}$, $\bar y_{VE,A}$ und $\bar y_{VE,B}$

Wir wollen zunÃ¤chst das jÃ¤hrliche Wachstum der Passagieranteile von Berlin vor der Teilung Deutschlands berechnen, also die Steigung der Geraden die durch die roten Punkte in Abb. 5 verlÃ¤uft. ZunÃ¤chst brauchen wir hierfÃ¼r wieder den Datensatz airports-time-series.dta.

Aufgabe: Lade den Datensatz airports-time-series.dta und speichere ihn unter data

Mit dem folgenden Code wollen wir wieder die FlughÃ¤fen Dresden, Erfurt, MÃ¼nster, SaarbrÃ¼cken und Leipzig aus dem Datensatz entfernen.

Aufgabe: DrÃ¼cke check

atsf=data %>% filter(!airport %in% c("Dresden","Erfurt","MÃ¼nster","SaarbrÃ¼cken","Leipzig"))

1) Difference in Difference fÃ¼r die Teilung Deutschlands

In dem Datensatz atsf befinden sich nun Daten zu Abfluganteilen fÃ¼r die jeweiligen FlughÃ¤fen von 1927 bis 2002. Diese wollen wir wie folgt in drei Perioden aufteilen:

Periode 1: 1927-1938 (vor der Teilung)

Periode 2: 1950-1989 (nach der Teilung)

Periode 3: 1990-2002 (nach der Wiedervereinigung)

Wir fÃ¼gen dem Datensatz atsf nun die Spalte period hinzu, in der die jeweilige Periode stehen soll. Hierzu eignet sich der Befehl ifelse(). Dieser wird folgendermaÃŸen genutzt: Variablenname=ifelse(Bedingung, Ist-Wert, Sonst-Wert). Im folgenden Code verschachteln wir zwei ifelse Bedingungen um die Spalte period zu erstellen. Wir schreiben also, wenn year<1950, dann soll period=1 gelten. Sonst, wenn year zwischen 1950 und 1989 liegt, soll period=2 gelten, sonst gelte period=3.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

atsf=mutate(atsf,period=ifelse(year<1950,1,ifelse(year %in% 1950:1989,2,3)))

Unter data kannst du dir anschauen wie die Spalte period aussieht.

Da das $share_{t}$ dem Passagieranteil zum Zeitpunkt $t$ entspricht, benÃ¶tigen wir noch die Spalte pshare. Diese haben wir in Aufgabe 1 schon ausfÃ¼hrlich bestimmt. pshare lÃ¤sst sich auch schÃ¶n kurz mit einer Programmzeile bestimmen.

Aufgabe: DrÃ¼cke check

atsf=mutate(group_by(atsf,year),pshare=(depart/sum(depart))*100)

Jetzt haben wir unseren Datensatz in drei Perioden aufgeteilt und kÃ¶nnen die Steigung der Geraden durch die roten Punkte fÃ¼r Berlin bestimmen.

Aufgabe: Entferne die Kommentarfunktion und ersetze die ???

#lm=lm(???,data=filter(atsf,airport=="???"&period==???))
#stargazer(lm,type="html")

FÃ¼r die Geradensteigung erhalten wir einen hoch signifikanten Wert von 1,851. Das bedeutet, dass die Passagieranteile von Berlin im Schnitt um 1,851 Prozentpunkte gestiegen sind.

Berechne nun selbstÃ¤ndig die Steigung der Geraden in Periode 2.

Aufgabe: Entferne die Kommentarfunktion und ersetze die ???

#lm2=???
#stargazer(lm2,type="html")

Auf diese Art und Weise kÃ¶nnten wir alle vier Steigungen berechnen. Aber wie passt diese Rechnung mit der oben angegebenen Regressionsgleichung zusammen? Und lassen sich auch alle Steigungen in einer Regression berechnen?

Wir erinnern uns an unsere Regressionsgleichung von oben: [ share_{at}=\sum_{a=1}^{A} \eta_{ap} + \sum_{a=1}^{A} \beta_{ap}time_{t} + u_{at} ]

ZunÃ¤chst betrachten wir nur den Flughafen Berlin, also $a=Berlin$ was unsere Regressionsgleichung etwas einfacher und Ã¼bersichtlicher macht: [ share_{t}= \eta_{p} + \beta_{p}time_{t} + u_{t} ]

Aber was ist $time_{t}$? $time_{t}$ gibt einen Zeitpunkt an. Also $time_{1927}=1$, $time_{1928}=2$ usw. Da wir unseren Datensatz aber in drei Perioden aufgeteilt haben, brauchen wir drei $time$ Variablen. Es gelte also folgendes: In Periode 1 haben wir die Variable $time27$ die im Jahr 1927 mit eins beginnt und im Jahr 1938 den Wert zwÃ¶lf annimmt. In Periode 2 und 3 nimmt die Variable den Wert null an. In Periode 2 haben wir die Variable $time50$, diese beginnt im Jahr 1950 mit dem Wert eins und nimmt im Jahr 1989 den Wert 40 an, sonst hat sie den Wert null. $time90$ beginnt im Jahr 1990 mit dem Wert eins und nimmt im Jahr 2002 den Wert 13 an, sonst betrÃ¤gt sie null.

Und damit sieht unsere Regression wie folgt aus: [ share_{t}= \eta_{p} + \beta_{1}time_{27} + \beta_{2}time_{50} + \beta_{3}time_{90} + u_{t} ]

$\beta_{1}$ beschreibt dann das durchschnittliche jÃ¤hrliche Wachstum in Periode 1. Wir erstellen nun die drei Variablen time27, time50 und time90.

Aufgabe: DrÃ¼cke check

 atsf = atsf %>%
  mutate(time27=ifelse(period == 1,year-1926,0)) %>%
  mutate(time50=ifelse(period == 2,year-1949,0)) %>%
  mutate(time90=ifelse(period == 3,year-1989,0))

Nun wollen wir die Regression mit felm()durchfÃ¼hren.

Aufgabe: Ersetze ??? durch die Datei atsf, wobei wir nur die Zeilen mit airport=="Berlin" nutzen wollen

#stargazer(felm(pshare~ time27+time50+time90,data=???),type="html")

Wir haben jetzt Werte fÃ¼r $\beta_{1}$, $\beta_{2}$ und $\beta_{3}$ erhalten. Wenn wir das Ergebnis nun mit dem von oben vergleichen sehen wir, dass wir nicht die gleichen Parameter erhalten.

Frage:

! addonquizFixeffekte

Wir erinnern uns nochmal an unsere Regression: [ share_{t}= \eta_{p} + \beta_{1}time_{27} + \beta_{2}time_{50} + \beta_{3}time_{90} + u_{t} ] Wo sind nun die Fixeffekte $\eta_{p}$? Um der Regression Fixeffekte hinzuzufÃ¼gen, kÃ¶nnen wir einfach |period hinter die Gleichung schreiben. Wir fÃ¼hren die Regression von oben mit dem Faktor period durch. AnschlieÃŸend betrachten wir das Ergebnis mit stargazer. info("Fortgeschritten: felm()") # Run this line (Strg-Enter) to show info

Aufgabe: Entferne die # und ersetze die ???

#felmBerlin=felm(???~???|???,data=filter(atsf,airport=="Berlin"))
#stargazer(felmBerlin,type="html",covariate.labels=c("1927-1938","1950-1989","1990-2002"),align=TRUE)

Wir haben jetzt fÃ¼r $\beta_{1}$ und $\beta_{2}$ die gleichen Ergebnisse wie oben erhalten. Der SchÃ¤tzer $\beta_{1}$ beschreibt die Steigung der Geraden durch die roten Punkte (vgl. Abb. 5), $\beta_{2}$ die Steigung durch die grÃ¼nen Dreiecke und $\beta_{3}$ die Steigung durch die blauen Vierecke. Beachte, dass wir uns die Fixeffekte fÃ¼r die FlughÃ¤fen nicht anzeigen lassen, da sie im Moment nicht wichtig fÃ¼r uns sind. Wir werden aber in einer spÃ¤teren Aufgabe damit rechnen.

Frage:

! addonquizWachstum_Berlin

Die exakt gleiche Rechnung fÃ¼hren wir nun fÃ¼r Frankfurt durch, da wir diese Werte ja vergleichen wollen.

Aufgabe: Ersetze die ??? und entferne #

#felmFrankfurt=felm(pshare~time27+time50+time90|period,data=???)

Nun vergleichen wir die Werte mit stargazer die Werte fÃ¼r Berlin und Frankfurt.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

stargazer(felmBerlin,felmFrankfurt,type="html", column.labels=c("Berlin","Frankfurt"),covariate.labels=c("1927-1938","1950-1989","1990-2002"),align=T)

Wir erinnern uns an die Formel fÃ¼r unseren Difference in Difference SchÃ¤tzer: [ \delta=(\bar y_{NE,A}- \bar y_{NE,B})-(\bar y_{VE,A}- \bar y_{VE,B}) ]

$\bar y_{NE,A}$ steht fÃ¼r den Durchschnittswert von Gruppe A nach dem Ereignis, $\bar y_{VE,B}$ fÃ¼r den Durchschnittswert von Gruppe B vor dem Ereignis.

Mit coef(felm) kannst du auf die Ergebnisse der Regression felm zugreifen.

Aufgabe: DrÃ¼cke check

coef(felmBerlin)
coef(felmBerlin)[2]

Versuche mit diesem Wissen nun den Difference in Difference SchÃ¤tzer selbst zu berechnen.

Aufgabe: Berechne den Difference in Difference SchÃ¤tzer

#(???-???)-(???-???)

Die Differenz der Differenzen steigt jÃ¤hrlich im Schnitt um 3,072 Prozentpunkte. Leider lÃ¤sst sich so noch nichts Ã¼ber die Signifikanz dieses Wertes aussagen. Um zu zeigen, dass die 3,072 Prozentpunkte statistisch signifikant sind, benÃ¶tigen wir alle vier Werte in einer Regression.

HierfÃ¼r benÃ¶tigen wir die Variablen time27, time50 und time90 sowohl fÃ¼r Berlin als auch fÃ¼r Frankfurt, weshalb wir time27B, time27F, ... erzeugen. Auch der Faktor period muss fÃ¼r Frankfurt und Berlin getrennt betrachtet werden. Wir erzeugen deshalb die Variable nairera. Die Regression sieht nun wie folgt aus: [ share_{at}= \eta_{ap} + \beta_{a1}time_{27B} + \beta_{a2}time_{50B} + \beta_{a3}time_{90B} + \beta_{a1}time_{27F} + \beta_{a2}time_{50F} + \beta_{a3}time_{90F} + u_{at} ]

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

atsf = atsf %>%
  mutate(time27B=ifelse(period==1&airport=="Berlin",year-1926,0)) %>%
  mutate(time50B=ifelse(period==2&airport=="Berlin",year-1949,0)) %>%
  mutate(time90B=ifelse(period==3&airport=="Berlin",year-1989,0)) %>%
  mutate(time27F=ifelse(period==1&airport=="Frankfurt",year-1926,0)) %>%
  mutate(time50F=ifelse(period==2&airport=="Frankfurt",year-1949,0)) %>%
  mutate(time90F=ifelse(period==3&airport=="Frankfurt",year-1989,0)) 

atsf=mutate(atsf,nairera=paste(airport,"-",period))
felm=felm(pshare~ time27B+time50B+time90B+time27F+time50F+time90F|nairera,data=filter(atsf,airport=="Berlin"|airport=="Frankfurt"))
stargazer(felm,type="html")

Wir erhalten die selben Ergebnisse, die wir auch oben fÃ¼r die seperaten Regressionen erhalten haben. Nun wollen wir den Difference in Difference SchÃ¤tzer auf seine Signifikanz untersuchen. Wir wollen also die folgende Hypothese fÃ¼r den SchÃ¤tzer testen: time50F-time50B-time27F+time27B = 0. Eine MÃ¶glichkeit diese Hypothese zu testen, ist der Befehl glht() aus dem Package multcomp. Glht steht fÃ¼r "general linear hypothesis test". Eine weitere MÃ¶glichkeit diese Hypothese zu testen ist der waldtest() aus dem Package lfe. Allerdings ist der Output bei glht etwas schÃ¶ner und ausfÃ¼hrlicher.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

library(multcomp)
summary(glht(felm, linfct = c("time50F-time50B-time27F+time27B = 0")))

Unter Estimate bekommen wir wieder den SchÃ¤tzer von 3,072 Prozentpunkten heraus. Das gleiche Ergebnis haben wir weiter oben berechnet.

Frage:

! addonquizSignifikanz2

Wir beobachten also einen statistisch hoch signifikanten Einfluss der Teilung Deutschlands auf die Passagierzahlen der grÃ¶ÃŸten deutschen Flughafen (vgl. Redding, Sturm und Wolf (2011, S. 821)). Nun wollen wir noch untersuchen ob die Wiedervereinigung auch einen signifikanten Einfluss hatte.

Exercise 4.2 -- SchÃ¤tzer fÃ¼r die Wiedervereinigung

Wir haben in Aufgabe 4.1 gezeigt, dass die Teilung Deutschlands groÃŸe Auswirkungen auf die Passagierzahlen der FlughÃ¤fen von Berlin und Frankfurt hatte. Wir untersuchen nun in dieser Aufgabe ob sich auch fÃ¼r die Wiedervereinigung statistisch relevante Auswirkungen ergeben.

In Abb. 3 (Aufgabe 4) sehen wir laut Redding, Sturm und Wolf (2011, S. 821)), dass die Entwicklung der Passagierzahlen im GroÃŸteil der Periode 1950-1989 von der Teilung Deutschlands beeinflusst worden ist. Ab ca. 1980 haben sich die Passagieranteile dem Einfluss der Teilung angepasst. Deshalb betrachten wir nun ein etwas erweitertes Modell indem wir den Zeitraum von 1950-1989 in Dekaden aufteilen. Unsere Regressionsgleichung sieht dann wie folgt aus: [ share_{t}= \eta_{p} + \beta_{1}time_{27} + \beta_{2}dec_{50} + \beta_{3}dec_{60} + \beta_{4}dec_{70} + \beta_{5}dec_{80} + \beta_{6}time_{90} + u_{t} ]

ZunÃ¤chst benÃ¶tigen wir wieder den bearbeiteten Datensatz atsf aus Aufgabe 4.1. Lasse dazu folgenden Code laufen.

Aufgabe: DrÃ¼cke check

atsf=read.dta("airports-time-series.dta") %>%
  filter(!airport %in% c("Dresden","Erfurt","MÃ¼nster","SaarbrÃ¼cken","Leipzig"))  %>%
  mutate(period=ifelse(year<1950,1,ifelse(year %in% 1950:1989,2,3))) %>%
  group_by(year) %>%
  mutate(pshare=(depart/sum(depart))*100) %>%
  mutate(time27=ifelse(period == 1,year-1926,0)) %>%
  mutate(time50=ifelse(period == 2,year-1949,0)) %>%
  mutate(time90=ifelse(period == 3,year-1989,0)) %>%
  mutate(time27B=ifelse(period==1&airport=="Berlin",year-1926,0)) %>%
  mutate(time50B=ifelse(period==2&airport=="Berlin",year-1949,0)) %>%
  mutate(time90B=ifelse(period==3&airport=="Berlin",year-1989,0)) %>%
  mutate(time27F=ifelse(period==1&airport=="Frankfurt",year-1926,0)) %>%
  mutate(time50F=ifelse(period==2&airport=="Frankfurt",year-1949,0)) %>%
  mutate(time90F=ifelse(period==3&airport=="Frankfurt",year-1989,0))

Nun erstellen wir, vergleichbar zur Spalte period aus der letzten Aufgabe, die Spalte decade. Wir unterteilen unseren Zeitraum in sechs Dekaden: Dekade 1 (1927-1938), Dekade 2 (1950-1959), Dekade 3 (1960-1969), ..., Dekade 6 (1990-2002). Dekade 1 entspricht Periode 1 und Dekade 6 entspricht Periode 3 aus der vorigen Aufgabe.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

atsf=mutate(atsf,decade=ifelse(year<1950,1,
                        ifelse(year %in% 1950:1959,2,
                        ifelse(year %in% 1960:1969,3,
                        ifelse(year %in% 1970:1979,4,
                        ifelse(year %in% 1980:1989,5,
                        ifelse(year>=1990,6,0)))))))

Die Variablen $time27$ und $time90$ sind gleich definiert wie in der Aufgabe zuvor. $dec50$ hat im Jahr 1950 den Wert eins und im Jahr 1959 den Wert zehn, sonst nimmt sie den Wert null an. $dec60$ hat im Jahr 1960 den Wert eins usw..

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

atsf = atsf %>%
  mutate(dec50=ifelse(decade == 2,year-1949,0)) %>%
  mutate(dec60=ifelse(decade == 3,year-1959,0)) %>%
  mutate(dec70=ifelse(decade == 4,year-1969,0)) %>%
  mutate(dec80=ifelse(decade == 5,year-1979,0))

Abb. 6 - Regression der Passagieranteile in AbhÃ¤ngigkeit von der Wiedervereinigung Deutschlands. Quelle: Eigene Darstellung

Jetzt wollen wir die Steigung der Geraden durch die blauen Vierecke und die rosa Sterne vergleichen (vgl. Abb. 6).

Frage:

! addonquizDekade_Frankfurt

Aufgabe: Ersetze die ??? um die Regressionen durchzufÃ¼hren

#felmBerlin=felm(??? ,data=filter(atsf,airport=="Berlin"))
#felmFrankfurt=felm(??? ,data=filter(atsf,airport=="Frankfurt"))

Wir schauen uns die Ergebnisse fÃ¼r die fÃ¼r uns wichtigen Variablen wieder mit stargazer() an.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

stargazer(felmBerlin,felmFrankfurt,type="html", column.labels=c("Berlin","Frankfurt"),covariate.labels=c("1980-1989","1990-2002"),keep=c("time90","dec80"),align=T)

Frage:

! addonquizWachstum_Frankfurt

Die vier Werte entsprechen wieder den Steigungen der vier Geraden.

Berechne nun den Difference in Difference SchÃ¤tzer von Frankfurt und Berlin fÃ¼r die Wiedervereinigung Deutschlands.

Aufgabe: Ersetze die ???

#(???-???)-(???-???)

Da der Wert fÃ¼r den SchÃ¤tzer sehr gering ist, scheint die Wiedervereinigung Deutschlands keinen Einfluss auf die Steigung der Geraden zu haben. Ãœber die Signifikanz kÃ¶nnen wir aber erst etwas aussagen, wenn wir alle Ergebnisse in einer Regression vereint haben und die Hypothese time90F-time90B-dec80F+dec80B = 0 getestet haben. Wir legen also zunÃ¤chst wieder die Variablen dec50B, dec50F, ... an.

Aufgabe: DrÃ¼cke check

atsf = atsf %>%
  mutate(dec50B=ifelse(decade==2&airport=="Berlin", year-1949,0)) %>%
  mutate(dec60B=ifelse(decade==3&airport=="Berlin", year-1959,0)) %>%
  mutate(dec70B=ifelse(decade==4&airport=="Berlin", year-1969,0)) %>%
  mutate(dec80B=ifelse(decade==5&airport=="Berlin", year-1979,0)) %>%
  mutate(dec50F=ifelse(decade==2&airport=="Frankfurt", year-1949,0)) %>%
  mutate(dec60F=ifelse(decade==3&airport=="Frankfurt", year-1959,0)) %>%
  mutate(dec70F=ifelse(decade==4&airport=="Frankfurt", year-1969,0)) %>%
  mutate(dec80F=ifelse(decade==5&airport=="Frankfurt", year-1979,0))

atsf=mutate(atsf,nairdec=paste(airport,"-",decade))

Nun kÃ¶nnen wir die Regression durchfÃ¼hren und das Ergebnis betrachten.

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

felm=felm(pshare~ time27B+dec50B+dec60B+dec70B+dec80B+time90B+time27F+dec50F+dec60F+dec70F+dec80F+time90F|nairdec,data=filter(atsf,airport=="Berlin"|airport=="Frankfurt"))
stargazer(felm,type="html")

Wir Ã¼berprÃ¼fen unsere Nullhypothese time90F-time90B-dec80F+dec80B = 0 mit glht().

Aufgabe: DrÃ¼cke check um das Ergebnis anzeigen zu lassen

summary(glht(felm, linfct = c("time90F-time90B-dec80F+dec80B = 0")))

Der Difference in Difference SchÃ¤tzer, der die jÃ¤hrliche Wachstumsrate der Passagieranteile von Frankfurt und Berlin zwischen den zwei Dekaden vergleicht, ergibt -0,012 Prozentpunkte. Das ist ein vernachlÃ¤ssigbarer und statistisch nicht signifikanter Wert. Die Nullhypothese wird nicht verworfen. Daraus schlieÃŸen wir, dass die Wiedervereinigung Deutschlands im Jahr 1990 keine statistisch signifikante Auswirkung auf die Passagieranzahlen von Frankfurt und Berlin hatte (vgl. Redding, Sturm und Wolf (2011, S. 821)).

Es gibt also auch weiterhin keine Anzeichen dafÃ¼r, dass sich Berlin wieder zum deutschen Luftverkehrsknotenpunkt entwickeln kÃ¶nnte.

Exercise 5 -- Die Marktanbindung

In bisherigen Ãœbungen haben wir mit historischen Daten gearbeitet um zu zeigen, dass der Standortwechsel des deutschen Luftverkehrsknotenpunkts fÃ¼r Europa hÃ¶chst ungewÃ¶hnlich ist. AuÃŸerdem haben wir gezeigt, dass es basierend auf historischen Daten schwer vorherzusehen war, dass gerade Frankfurt zum neuen Luftverkehrsknotenpunkt Deutschlands wird.

In den verbleibenden Aufgaben nutzen wir zeitgemÃ¤ÃŸe Daten um die aktuelle Dominanz von Frankfurt in Deutschlands Personenflugverkehr zu erklÃ¤ren. Unser Modell beinhaltet zwei wirtschaftliche Rahmenbedingungen um die AttraktivitÃ¤t der Lage eines Flughafens zu bestimmen (vgl. Redding, Sturm und Wolf (2011, S. 823)):

1): NÃ¤he zu anderen FlughÃ¤fen (Marktanbindung)

2): Regionale wirtschaftliche AktivitÃ¤t

Die regionale wirtschaftliche AktivitÃ¤t behandeln wir in Aufgabe 6. In Aufgabe 5 und Aufgabe 5.1 wollen wir zeigen, dass sich Frankfurts Dominanz nicht durch die Marktanbindung erklÃ¤ren lÃ¤sst. Wir bestimmen die Marktanbindung indem wir eine Gravitationsgleichung schÃ¤tzen. Bekannt ist die Gravitationsgleichung aus der Physik, doch auch in der Ã–konomie findet sie hÃ¤ufig Anwendung um bilaterale HandelsstrÃ¶me zu erklÃ¤ren (vgl. BrÃ¶cker und Fritsch (2012, S.8 ff)).

Wir nutzen dafÃ¼r einen Datensatz, der bilaterale PassagierflÃ¼ge beinhaltet. Unsere Gravitationsgleichung sieht wie folgt aus: [ ln(A_{ij})=m_i+s_j+\varphi ln(T_{ij}) + u_{ij} ]

$A_{ij}$ beschreibt die Anzahl der AbflÃ¼ge von Stadt i nach Stadt j. $m_i$ sind Fixeffekte am Zielflughafen, $s_j$ beschreibt die Fixeffekte am Herkunftsflughafen, $T_{ij}$ beschreibt die Reisekosten und $u_{ij}$ den stochastischen Fehlerterm.

Um die Gravitationsgleichung zu schÃ¤tzen, benutzen wir den Datensatz Gravity, dieser beinhaltet bilaterale PassagierabflÃ¼ge der 15 deutschen FlughÃ¤fen von und zu allen FlughÃ¤fen weltweit im Jahr 2002 (vgl. Statistisches Bundesamt (2003)). Zu unseren bisherigen zehn FlughÃ¤fen betrachten wir jetzt zusÃ¤tzlich noch Daten Ã¼ber die FlughÃ¤fen in Dresden, Erfurt, Leipzig, MÃ¼nster und SaarbrÃ¼cken.

Aufgabe: Lade hierzu den Datensatz Gravity2002.dta und speichere ihn unter der Variable Gravity

Als MaÃŸ fÃ¼r die Reisekosten $T_{ij}$ dient die geographische Distanz zwischen zwei FlughÃ¤fen. Um andere ReisemÃ¶glichkeiten auszuschlieÃŸen, wollen wir fÃ¼r die folgende Regression nur diejenigen FlughÃ¤fen berÃ¼cksichtigen, welche mindestens 300 km vom nÃ¤chsten deutschen Flughafen entfernt sind. Deshalb wollen wir alle FlughÃ¤fen, die nÃ¤her an einem deutschen Flughafen sind, aus unserem Datensatz entfernen. Der Flughafen ZÃ¼rich ist zum Beispiel weniger als 300 km vom Flughafen Stuttgart entfernt und wird deshalb aus der Datei entfernt.

Wir berechnen mit dem Befehl summarise die minimale Distanz (dist) fÃ¼r jeden Importflughafen (importer).

Aufgabe: DrÃ¼cke check um die Spalte min_dist zu erstellen

Gravity= Gravity %>% group_by(importer) %>% mutate(min_dist=min(dist))

Aufgabe: WÃ¤hle mit dem Befehl filter alle FlughÃ¤fen aus, deren min_dist>300 ist und speichere die neue Datei wieder unter Gravity

#Gravity=???

Mit dem Befehl arrange() aus dem Package dplyr kÃ¶nnen wir DatensÃ¤tze nach Variablen sortieren. Benutze Google um herauszufinden wie arrange() funktioniert und sortiere dann Gravity alphabetisch nach exporter und importer.

Aufgabe: Ersetze ??? um Gravity zu sortieren

#Gravity=arrange(???)

Betrachten wir die aktuellen Forschungsergebnisse Ã¼ber internationalen Handel, mÃ¼ssen wir laut Redding, Sturm und Wolf (2011, S. 823) fÃ¼r unsere Regression auch Soziale Netzwerke und internationale Unternehmensnetzwerke berÃ¼cksichtigen (vgl. hierzu insbesondere Rauch (2001, S. 1177-1203) und Combes, Lafourcade und Mayer (2005, S. 1-29)). Als MaÃŸ fÃ¼r das Soziale Netzwerk dienen Daten zur Einwanderung und Auswanderung zwischen deutschen BundeslÃ¤ndern und anderen LÃ¤ndern (siehe Variable formig). Diese Daten entstammen dem Statistischen Jahrbuch der Bundesrepublik Deutschland. Als MaÃŸ fÃ¼r die AktivitÃ¤t von Unternehmensnetzwerken dient uns die Variable subsy. subsy beschreibt die Anzahl der Niederlassungen von deutschen Firmen, mit Hauptsitz in der Stadt des Herkunftsflughafens (expname), in einem fremden Land (country_i). Die Kennzahlen entstammen der Homepage von Bureau Van Dijk. Dort findet sich mit Orbis eine Datenbank mit weltweiten Unternehmensinformationen. Mit folgendem Link gelangst du auf die Homepage: https://www.bvdinfo.com/de-de/our-products/company-information/international-products/orbis. FÃ¼r die Variablen formig, subsy und deppass addieren wir jeweils den Wert eins bevor wir den Logarithmus anwenden.

Aufgabe: FÃ¼ge der Datei Gravity folgende Variablen mit mutate hinzu: ldeppass=log(1+deppass), lformig=log(1+formig), lsubsy=log(1+subsy) und ldist=log(dist)

Wir fÃ¼hren jetzt die Regression durch. Im ersten Schritt betrachten wir nur die Distanz als unabhÃ¤ngige Variable und die Fixeffekte am Zielflughafen impname als Faktorvariable, da uns die Ergebnisse fÃ¼r die Fixeffekte der ZielflughÃ¤fen nicht interessieren. Wir nehmen auÃŸerdem cluster-robuste Standardfehler fÃ¼r country_i an, da wir davon ausgehen, dass die Standardfehler innerhalb dieser Gruppe korreliert sind aber zwischen den Gruppen nicht. Schau dir dazu nochmals die InfoBox an.

info("Fortgeschritten: felm()") # Run this line (Strg-Enter) to show info

Bevor wir die Regression durchfÃ¼hren, kannst du das Ergebnis schÃ¤tzen.

Frage:

! addonquizSchätzfrage

Wir berechnen die Regression mit dem Befehl felm und betrachten die Ergebnisse mit stargazer().

Aufgabe: DrÃ¼cke check und schaue dir das Ergebnis an

fe1=felm(ldeppass~ldist+exporter|impname|0|country_i,data=Gravity)
stargazer(fe1,type="html")

Wir betrachten das Ergebnis genauer. Wir erhalten je einen SchÃ¤tzer fÃ¼r ldist und den Fixeffekt fÃ¼r jeden Herkunftsflughafen. Die Fixeffekte fÃ¼r die ZielflughÃ¤fen werden nicht angezeigt. Als SchÃ¤tzer fÃ¼r ldist erhalten wir einen statistisch hoch signifikanten Wert von -1,6522. Das bedeutet, dass eine einprozentige ErhÃ¶hung der Flugdistanz zu geschÃ¤tzt 1,65% weniger Passagieren fÃ¼hrt.

Frage:

! addonquizldist

Als nÃ¤chsten Schritt wollen wir zusÃ¤tzlich Soziale Netzwerke in unserer Regression berÃ¼cksichtigen. Wir fÃ¼gen also die Variable lformig ein. Damit alles schÃ¶n Ã¼bersichtlich bleibt, blenden wir das Ergebnis der Fixeffekte fÃ¼r die HerkunftsflughÃ¤fen fÃ¼r die nÃ¤chsten Berechnungen aus.

Aufgabe: DrÃ¼cke check und schaue dir das Ergenbis an

fe2=felm(ldeppass~ldist+lformig+exporter|impname|0|country_i,data=Gravity)
stargazer(fe2,type="html",keep=c("ldist","lformig"))

Frage:

! addonquizsignifikanz3

Dieses Ergebnis interpretieren wir weiter unten. Als nÃ¤chsten Schritt schÃ¤tzen wir ldeppass mit den Variablen ldist und lsubsy.

Aufgabe: Ersetze die Fragezeichen und entferne #

# fe3=felm(???)

Als letzten Schritt schÃ¤tzen wir ldeppass mit den Variablen ldist, lformig und lsubsy.

Aufgabe: FÃ¼hre die Regression durch und speichere sie unter fe4

Diese ganzen Ergebnisse lassen sich Ã¼bersichtlich mit dem Befehl stargazer als Tabelle anzeigen. Wir werden nur die Werte fÃ¼r ldist, lsubsy und lformig angezeigen, da in dieser Aufgabe nur diese Variablen von Bedeutung sind. Die Werte fÃ¼r die Fixeffekte der verschiedenen HerkunftsflughÃ¤fen werden wir in Aufgabe 6 behandeln.

Aufgabe: DrÃ¼cke check um ein Ã¼bersichtliches Ergebnis der vier Regressionen zu erhalten

stargazer(fe1,fe2,fe3,fe4,title="Determinants of Bilateral Passenger Departures",type = "html",covariate.labels=c("Logarithm of distance","Logarithm of foreign migration","Logarithm of subsidiaries"),keep = c("ldist","lsubsy","lformig"),align=TRUE)

Unsere vier Regressionen sind nun von links nach rechts in den verschiedenen Spalten aufgelistet. Der Koeffizient fÃ¼r die geographische Distanz bleibt in allen FÃ¤llen negativ und statistisch hoch signifikant. FÃ¼r die Regressionen (3) - (4) besitzen die MaÃŸe fÃ¼r Soziale Netzwerke und Unternehmensnetzwerke eine positive Beziehung zu den Abflugzahlen (vgl. Redding, Sturm und Wolf (2011, S. 824)).

Frage:

! addonquizlformig

Die Ergebnisse von Spalte 4 benÃ¶tigen wir fÃ¼r Aufgabe 5.1.

Exercise 5.1 -- Aufteilung der Abflugzahlen

In dieser Aufgabe wollen wir Abweichungen der Abflugzahlen in die BeitrÃ¤ge Marktanbindung und Fixeffekte der HerkunftsflughÃ¤fen unterteilen, um deutlich zu machen, dass sich die Dominanz von Frankfurt nicht durch die Marktanbindung erklÃ¤ren lÃ¤sst (vgl. Redding, Sturm und Wolf (2011, S. 823)).

ZunÃ¤chst erinnern wir uns an die Gravitationsgleichung aus Aufgabe 5:

[ ln(A_{ij})=m_i+s_j+\varphi ln(T_{ij}) + u_{ij} ]

Wobei wieder gilt: $A_{ij}$ beschreibt die Anzahl der AbflÃ¼ge von Stadt i nach Stadt j. $m_i$ sind Fixeffekte am Zielflughafen, $s_j$ beschreibt die Fixeffekte am Herkunftsflughafen, $T_{ij}$ beschreibt die Reisekosten und $u_{ij}$ den Stochastischen Fehlerterm.

Wenn wir nun die vorhergesagten Werte (fitted values) dieser Regression nehmen, diese exponenzieren und Ã¼ber die ZielflughÃ¤fen summieren erhalten wir folgende Gleichung:

[ \widehat{A_j} = \sum_{i} \widehat{A_{ij}} = \left[ \sum_{i} T_{ij}^{\hat{\varphi}} \widehat{M_{i}} \right] \widehat{S_j} \equiv \widehat{MA_j} \widehat{S_j} ]

Diese Gleichung kÃ¶nnen wir nun nutzen um die Abweichung der AbflÃ¼ge eines Flughafens in die Variablen $MA_j$ (Marktanbindung) und $S_j$ (Fixeffekte des Herkunftsflughafens) zu unterteilen. Die HÃ¼te Ã¼ber den Variablen stehen fÃ¼r SchÃ¤tzer und es gilt: $M_i \equiv exp(m_i)$ und $S_i \equiv exp(s_i)$.

Die Marktanbindung entspricht also der gewichteten Summe der Reisekosten multipliziert mit den Fixeffekten der ZielflughÃ¤fen weltweit und beschreibt damit die NÃ¤he eines Flughafens zu den ZielflughÃ¤fen weltweit.

Wir wÃ¤hlen nun einen Flughafen als Basis und berechnen die prozentuale Abweichung der Gesamtabflugzahlen als Summe der prozentualen Abweichungen der Marktanbindung und der Fixeffekte der HerkunftsflughÃ¤fen.

\begin{equation} ln \left(\frac{\hat A_j}{\widehat A_b}\right)=ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right)+ln \left( \frac{ \widehat S_j}{ \widehat S_b}\right) \end{equation}

Das $b$ steht hier fÃ¼r unseren Basisflughafen. Als diesen wÃ¤hlen wir Berlin.

Um die Aufteilung zu berechnen, benÃ¶tigen wir die Regression fe4 aus Aufgabe 5. Mit folgendem Code wird die Datei Gravity analog zu Aufgabe 5 bearbeitet und anschlieÃŸend fe4 erzeugt. Schau dir das Ergebnis nochmals an.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

Data=read.dta("Gravity2002.dta")
Gravity=as.data.frame(filter(mutate(group_by(Data,importer),min_dist=min(dist)),min_dist>300))
Gravity=mutate(Gravity,
               ldeppass=log(1+deppass),
               lformig=log(1+formig),
               lsubsy=log(1+subsy),
               ldist=log(dist)
               )
fe4=felm(ldeppass~ldist+lformig+lsubsy+exporter|impname|0|country_i,data=Gravity)

stargazer(fe4,type="html")

Die Variablen exporterCGN bis exporterTXL stehen fÃ¼r die Fixeffekte der HerkunftsflughÃ¤fen.

Fixeffekte des Herkunftsflughafens

Wir wollen zuerst die prozentuale Abweichung der Fixeffekte der HerkunftsflughÃ¤fen zu Berlin berechnen, also den Teil:

\begin{equation} ln \left( \frac{ \widehat S_j}{ \widehat S_b}\right) \end{equation}

Zum besseren VerstÃ¤ndnis warum dies der Abweichung entspricht. Folgendes gilt: \begin{equation} ln \left( \frac{ \widehat S_j}{ \widehat S_b}\right)=ln \left( \frac{ exp(\widehat s_j)}{ exp(\widehat s_b)}\right)=\widehat s_j- \widehat s_b \end{equation}

Aufgabe: Lade hierzu den Datensatz airport_coef.dta und speichere ihn unter der Variable data. Lasse dir dann die Datei mit data anzeigen

Die Datei besteht aus den 15 FlughÃ¤fen und der Spalte lsc, in die ich die zugehÃ¶rigen Fixeffekte aus der Regression fe4 geschrieben habe. Die Werte in lsc entsprechen also unserem $s_i$. Da gilt $S_i \equiv exp(s_i)$ mÃ¼ssen wir den Exponenten nehmen um auf $S_i$ zu gelangen. AuÃŸerdem fehlt uns noch $S_b \equiv exp(s_b)$.

Aufgabe: Finde den Wert $s_b$ in der Tabelle data und speichere ihn unter der Variablen s_b

Aufgabe: DrÃ¼cke check um dem Datensatz data die Variable lsa mit unserem Ergebnis hinzuzufÃ¼gen

data=mutate(data,lsa=log(exp(lsc)/exp(s_b)))
data

Frage:

! addonquizlsa

Marktanbindung

Nun fehlen noch die prozentualen Abweichungen der Marktanbindungen zu der Marktanbindung von Berlin, also: \begin{equation} ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right) \end{equation}

Unser Vorgehen wird dabei wie folgt sein: $ln(\widehat{A_{ij}})$ entspricht den vorhergesagten Werten aus der Regression fe4 und ist deshalb gegeben. Wenn wir die Exponentialfunktion darauf anwenden, erhalten wir $\widehat{A_{ij}}$. Wir summieren Ã¼ber die FlughÃ¤fen $i$ um $\widehat{A_j} = \sum_{i} \widehat{A_{ij}}$ zu erhalten. Da [ \widehat{A_j} = \sum_{i} \widehat{A_{ij}} = \widehat{MA_j} \widehat{S_j} ] gilt, mÃ¼ssen wir nur noch durch $\widehat{S_j}$ teilen um [ \widehat{MA_j}=\frac{\widehat{A_j}}{\widehat{S_j} } ] zu erhalten. Damit berechnen wir dann die gesuchte Abweichung \begin{equation} ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right) \end{equation}

Zu Beginn mÃ¼ssen wir die vorhergesagten Werte $\widehat{A_{ij}}$ bestimmen. HierfÃ¼r eignet sich der Befehl predict.felm() aus dem Package regtool.

Aufgabe: Lade zunÃ¤chst das Package regtool und speichere dann die vorhergesagten Werte unter fit_ldp

#???
#???=predict.felm(fe4,Gravity)

fit_ldp ist ein Zahlenvektor mit den 5130 vorhergesagten Werten fÃ¼r die 5130 Zeilen der Gravity Tabelle. Es gilt nun $A_{ij}=exp(\text{fit_ldp})$.

Aufgabe: Erstelle eine Tabelle A in der du der Tabelle Gravity die Spalte A_ij hinzufÃ¼gst

#???=transmute(Gravity,expname,???)

Als nÃ¤chsten Schritt summieren wir Ã¼ber die FlughÃ¤fen $i$ um $\widehat{A_j} = \sum_{i} \widehat{A_{ij}}$ zu erhalten.

Aufgabe: Gruppiere die Tabelle A nach expname und berechne A_j=sum(A_ij)

#A_sum=A %>% group_by(exporter) %>% summarise(???)

Wir haben $\widehat{A_{j}}$ berechnet und mÃ¼ssen dies nun durch $\widehat{S_j}$ teilen. Wir erinnern uns, dass $\widehat{S_j}=exp(\widehat{s_j})$ gilt. Wobei $\widehat{s_j}$ den Fixeffekten der HerkunftsflughÃ¤fen entspricht. Diese finden wir wie oben, in der Tabelle data. Um die Berechnung nun durchfÃ¼hren zu kÃ¶nnen fÃ¼gen wir der Tabelle data die Spalte A_j aus der Tabelle A_sum hinzu.

Aufgabe: LÃ¶sche die Kommentarfunktion und lasse folgenden Code laufen

#data2=mutate(data,A_j=A_sum$A_j)
#data2

Nun berechnen wir $\widehat{MA_j}=\frac{\widehat{A_j}}{exp(\widehat{s_j}) }$.

Aufgabe: Berechne die neue Variable $\widehat{MA_j}$ und speichere sie unter MA

#data=mutate(data2,MA=???)

Wir haben jetzt die Werte fÃ¼r $\widehat{MA_j}$ berechnet und wollen die Abweichung zu Berlin bestimmen, also: \begin{equation} ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right) \end{equation}

Aufgabe: Finde den Wert fÃ¼r $\widehat{MA_b}$

#filter(???,expname=="???")

Aufgabe: Berechne den Wert $ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right)$ und speichere ihn unter lma

#data2=transmute(data,exporter,expname,lsa,lma=???)
#data2

\begin{equation} ln \left(\frac{\hat A_j}{\widehat A_b}\right)=ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right)+ln \left( \frac{ \widehat S_j}{ \widehat S_b}\right) \end{equation} Wir haben nun die Werte $lma=ln \left( \frac{ \widehat{MA_j} }{ \widehat{MA_b}}\right)$ und $lsa=ln \left( \frac{ \widehat S_j}{ \widehat S_b}\right)$ bestimmt und wollen das ganze graphisch veranschaulichen. Um diesen Plot mit ggplot durchzufÃ¼hren, mÃ¼ssen wir zuerst unsere Tabelle in eine etwas andere Form bringen. HierfÃ¼r verwenden wir den Befehl gather() aus dem Package tidyr. Wir schauen uns zunÃ¤chst die transformierte Tabelle an, um zu sehen was gather() genau macht.

info("tidyr") # Run this line (Strg-Enter) to show info

Aufgabe: DrÃ¼cke check und lasse den Code laufen

library(tidyr)
data=data2 %>% gather(type, value, lma:lsa)
arrange(data,expname)

Unsere Tabelle hat jetzt mehr Zeilen als vorher. Wir haben eine neue Spalte type erhalten, in der lma oder lsa steht. In der Spalte value steht der zugehÃ¶rige Wert. Nun haben wir unsere Tabelle in der passenden Form um ggplot anwenden zu kÃ¶nnen.

Aufgabe: DrÃ¼cke check und lasse den Code laufen

ggplot(data, aes(x=expname, y=value, fill=type)) + 
  geom_bar(position="dodge",stat = "identity") + 
  coord_cartesian( ylim=c(-3,6)) +
  scale_fill_discrete(name="",breaks=c("lma", "lsa"), labels=c("Marktanbindung", "Fixeffekte Herkunftsflughafen")) +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) + 
  labs(title = "Die Rolle der Marktanbindung", x="",y="Logarithmische Abweichung vom Wert fÃ¼r Berlin")

Wir haben die logarithmischen Abweichungen der Marktanbindung und den Fixeffekten der HerkunftsflughÃ¤fen zu den entsprechenden Werten von Berlin berechnet. Deutlich zu beobachten ist, dass die Marktanbindung zwischen den FlughÃ¤fen zwar variiert, ihr Beitrag zu den Gesamtabflugzahlen aber im Vergleich zu den Fixeffekten sehr klein ist. Das ist laut Redding, Sturm und Wolf (2011, S. 824) ein Indiz dafÃ¼r, dass in verhÃ¤ltnismÃ¤ÃŸig kleinen LÃ¤ndern wie Deutschland (Vergleich zu den USA, Russland, China oder Australien), die FlughÃ¤fen ausreichend nahe zusammenliegen, sodass die Marktanbindung keinen groÃŸen Einfluss auf die Abflugzahlen hat. Beispielsweise betrÃ¤gt die Flugstrecke von Frankfurt nach San Francisco 9142 km, die Flugstrecke von Berlin nach San Francisco 9105 km. Die Differenz ist zu gering um Auswirkungen auf die Flugzahlen zu haben. Die durchschnittliche Flugstrecke von Frankfurt zu allen Flugzielen aus unserer Regression betrÃ¤gt 3818 km, die entsprechende Flugstrecke von Berlin 3838 km. Deshalb lÃ¤sst sich die Dominanz des frankfurter Flughafens nicht durch die Marktanbindung erklÃ¤ren.

Wir verdeutlichen diesen Sachverhalt durch ein sogenanntes Scatter-Boxplot.

Aufgabe: DrÃ¼cke check und lasse den Code laufen

qplot(data=filter(Gravity,expname=="Frankfurt"|expname=="Berlin"),x=expname,y=dist,geom=c("boxplot","jitter"),fill=expname) +
  stat_summary(fun.y=mean,geom="point",shape=20,size=5,color="red") +
  theme_bw() +
  labs(x="",y="Distanz in km",fill="Flughafen",title="Distanz zu den FlughÃ¤fen weltweit")

Dieses Scatter-Boxplot stellt die Distanz der FlughÃ¤fen Berlin und Frankfurt zu allen FlughÃ¤fen, die aus Deutschland angeflogen werden, dar. Wir sehen deutlich, dass sich der Mittelwert (roter Punkt) und der Median (waagrechte schwarze Linie) praktisch gar nicht voneinander unterscheiden.

Wir erzeugen zum Abschluss noch einen sogenannten Violinplot.

Aufgabe: DrÃ¼cke check und lasse den Code laufen

ggplot(Gravity,aes(expname,dist)) +
  geom_violin(aes(fill=expname)) +
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
  labs(x="",y="Distanz in km",fill="Flughafen",title="Distanz zu den FlughÃ¤fen weltweit")

Hier wird die Verteilung der Distanzen dargestellt. Das heiÃŸt, je mehr FlughÃ¤fen die gleiche Entfernung von unserem Exportflughafen haben, desto breiter wird der Balken. Auch hier ist kein nennenswerter Unterschied zwischen den FlughÃ¤fen in Deutschland zu erkennen. Wir stellen fest: Die Marktanbindung ist fÃ¼r die Wahl zum Standort eines Luftverkehrsknotenpunkts nicht relevant.

Exercise 6 -- Regionale wirtschaftliche AktivitÃ¤ten und lokale FlÃ¼ge

In Aufgabe 5.1 haben wir gezeigt, dass die Marktanbindung nur schwache Auswirkungen auf die Passagierzahlen eines Flughafens hat. Deshalb betrachten wir nun den zweiten entscheidenden Faktor genauer: Die regionale wirtschaftliche AktivitÃ¤t. Wir wollen also wissen, ob der Standort Frankfurt Vorteile durch seine wirtschaftliche AktivitÃ¤t hat.

Um dies genauer zu untersuchen beginnen wir in Aufgabe 6.1 damit, die Gesamtzahl der Passagiere, die von einem Flughafen abgeflogen sind, in regionale FlÃ¼ge (Passagiere die aus der nahen Umgebung des Flughafens stammen) und verschiedene Formen von TransitflÃ¼gen zu unterteilen. Diese Unterteilung benutzen wir, um in Aufgabe 6.2 die Beziehung zwischen regionalen FlÃ¼gen und regionaler wirtschaftlicher AktivitÃ¤t zu ermitteln.

Exercise 6.1 -- Zerlegung der Passagieranteile

Redding, Sturm und Wolf (2011, S. 825) unterteilen Passagiere die von unseren 15 deutschen FlughÃ¤fen abgeflogen sind in folgende vier Kategorien:

I) internationale Transitpassagiere (international air transit passenger): Alle Passagiere, die am Flughafen umsteigen und sich sowohl deren Herkunftsflughafen als auch deren Zielflughafen im Ausland befinden.

II) inlÃ¤ndische Transitpassagiere (domestic air transit passenger): Alle Passagiere, die am Flughafen umsteigen und entweder deren Herkunftsflughafen oder deren Zielflughafen befinden sich in Deutschland.

III) angereiste Transitpassagiere (ground transit passenger): Alle Passagiere, die von diesem Flughafen starten und mittels Bodentransport mehr als 50 km angereist sind.

IV) lokale Passagiere (local passenger): Alle Passagiere, die von diesem Flughafen starten und mittels Bodentransport weniger als 50 km angereist sind.

Frage:

! addonquizPassagierquiz

Um diese Aufteilung durchzufÃ¼hren, benÃ¶tigen wir den Datensatz Gravity2002.dta

Aufgabe: DrÃ¼cke check

Gravity=read.dta("Gravity2002.dta")

Aufgabe: Schaue dir mit select die Spalten expname und nlocal an

Die Werte aus nlocal entstammen einer Umfrage vom Statistischen Bundesamt und der Arbeitsgemeinschaft Deutscher VerkehrsflughÃ¤fen aus dem Jahr 2003. Wilken, Berster und Gelhausen (2007) haben diese Daten hilfreich zusammengefasst und ausgewertet. nlocal bezeichnet den Anteil aller FluggÃ¤ste, deren Reise in einem Umkreis von weniger als 50 km des Flughafens begann.

Aufgabe: Benutze dieses Programmierfeld um die folgende Frage zu beantworten

Frage:

! addonquiznlocal

Aufgabe: Lasse den folgenden Code laufen

Gravity= Gravity %>% group_by(expname) %>% summarise(dom_depart_e=mean(dom_depart_e),
                  dom_transit_e=mean(dom_transit_e),
                  for_depart_e=mean(for_depart_e),
                  for_transit_e=mean(for_transit_e),
                  total_depart_e=mean(total_depart_e),
                  dom_for_transit_e=mean(dom_for_transit_e),
                  for_for_transit_e=mean(for_for_transit_e),
                  nlocal=mean(nlocal))


Gravity

Wir haben unseren Datensatz nun mittels summarise zusammengefasst und nach expname gruppiert. Da die EintrÃ¤ge in dom_depart_e,dom_transit_e usw. fÃ¼r jeden Eintrag eines Exportflughafens gleich waren, haben wir einfach den Mittelwert mit mean berechnet, um den Wert nicht zu verÃ¤ndern. Wir haben jetzt noch alle Spalten zur VerfÃ¼gung, die fÃ¼r die Aufteilung der Passagiere nÃ¶tig sind. Wir speichern unsere Aufteilung unter folgenden Variablen:

Gesamtpassagieranzahl: total_depart=total_depart_e

internationale Transitpassagiere: int_transit=for_for_transit_e

inlÃ¤ndische Transitpassagiere: dom_transit=dom_transit_e+for_transit_e-for_for_transit_e

angereiste Transitpassagiere:ground_transit=(total_depart_e-dom_transit_e-for_transit_e)-nlocal*(total_depart_e-dom_transit_e-for_transit_e)

lokale Passagiere: local_depart=nlocal*(total_depart_e-dom_transit_e-for_transit_e)

Aufgabe: Die Berechnungen fÃ¼r drei der vier oben stehenden Kategorien ist im Code unten schon angegeben. Ersetze die Fragezeichen um zusÃ¤tzlich den Anteil fÃ¼r dom_transit zu berechnen

#temp=transmute(Gravity,expname,local_depart=nlocal*(total_depart_e-dom_transit_e-for_transit_e),int_transit=for_for_transit_e,???,ground_transit=(total_depart_e-dom_transit_e-for_transit_e)-nlocal*(total_depart_e-dom_transit_e-for_transit_e),total_depart=total_depart_e)
#temp

Um zu Ã¼berprÃ¼fen, ob wir die Gesamtzahl der Passagiere korrekt und vollstÃ¤ndig aufgeteilt haben, ziehen wir die vier neuen Variablen von der Gesamtpassagieranzahl ab. Sollten wir alles richtig gerechnet haben, sollte das Ergebnis Null betragen.

Aufgabe: FÃ¼ge nun temp eine neue Spalte test hinzu, in der du die vier oben berechneten Variablen von total_depart abziehst und runde das Ergebnis mit round auf neun Nachkommastellen

#mutate(temp,test=round(total_depart-???-local_depart,9))

Frage:

! addonquizlocal_depart

Wir plotten die Gesamtabflugzahl mit ggplot.

Aufgabe: DrÃ¼cke check um den folgenden Code laufen zu lassen

g1=ggplot(temp, aes(x=expname, y=total_depart/1000000)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
  labs(title="AbflÃ¼ge", x="",y="Passagiere (in Mio)") + 
  coord_cartesian(ylim = c(00, 25))
g1

Deutlich zu sehen ist, dass die Gesamtabflugzahlen stark variieren: Von 0,2 Mio. in SaarbrÃ¼cken bis zu 24 Mio. Passagiere in Frankfurt.

Wir wollen nun die internationalen Transitpassagiere von den Gesamtpassagieren abziehen. Mit dem Befehl grid.arrange() aus dem Package gridExtra kÃ¶nnen wir mehrere Diagramme zusammen darstellen.

Aufgabe: FÃ¼hre nun denselben Plot durch wie oben, aber subtrahiere int_transit von total_depart. Ersetze ??? und entferne #

#library(gridExtra)
#g2=ggplot(temp, aes(x=expname, y=(???)/1000000)) + geom_bar(stat = "identity") +theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) + labs(title="AbflÃ¼ge-internationale TransitflÃ¼ge", x="",y="Passagiere (in Mio)")+coord_cartesian(ylim = c(00, 25))

#grid.arrange(g1, g2, ncol=2, nrow =1)

Wenn wir also die internationalen TransitflÃ¼ge von den Gesamtabflugzahlen subtrahieren, reduziert sich die Passagieranzahl von Frankfurt auf 16,4 Millionen. Vergleicht man g1 mit g2, kann man sehen, dass sich nur die Passagieranzahl von Frankfurt deutlich verÃ¤ndert hat. Das bedeutet, dass der GroÃŸteil der internationalen Transitpassagiere, also Personen, die vom Ausland ins Ausland unterwegs sind und nur am Flughafen umsteigen, Ã¼ber Frankfurt fliegt (etwa 82%). Der Anteil der internationalen Transitpassagiere in Frankfurt, gemessen an der Gesamtzahl der Passagiere, liegt bei 32%. Laut Redding, Sturm und Wolf (2011, S. 825 f)) schlieÃŸen wir daraus, dass der Status als Luftverkehrsknotenpunkt von Frankfurt eine wesentliche Rolle spielt, um einen gewissen Anteil von Frankfurts Vorrangstellung im Passagierluftverkehr zu erklÃ¤ren. Um diese Schlussfolgerung noch zu festigen, wollen wir noch zusÃ¤tzlich die inlÃ¤ndischen Transitpassagiere subtrahieren.

Aufgabe: Ersetze die Fragezeichen indem du int_transit und dom_transit von total_depart subtrahierst

#g3=ggplot(temp, aes(x=expname, y=(???)/1000000)) + geom_bar(stat = "identity") + theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))+ labs(title="AbflÃ¼ge- (internationale und inlÃ¤ndische TransitflÃ¼ge)", x="",y="Passagiere (in Mio)")+coord_cartesian(ylim = c(00, 25))

#grid.arrange(g1, g2, g3, ncol=2, nrow =2)

Der Balken von Frankfurt hat sich weiter reduziert und liegt nun bei etwa 12 Mio. Passagieren. Internationale und inlÃ¤ndische TransitflÃ¼ge machen etwa 50% aller PersonenflÃ¼ge von Frankfurt aus. Um nun zu der Anzahl von lokalen Passagieren zu gelangen, subtrahieren wir zusÃ¤tzlich noch die Gruppe angereiste Transitpassagiere.

Aufgabe: DrÃ¼cke check

g4=ggplot(temp, aes(x=expname, y=(total_depart-int_transit-dom_transit-ground_transit)/1000000)) + 
  geom_bar(stat = "identity") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) + 
  labs(title="lokale Passagiere", x="",y="Passagiere (in Mio)") +
  coord_cartesian(ylim = c(00, 25))

grid.arrange(g1, g2, g3, g4, ncol=2, nrow =2)

Nun ist die Dominanz von Frankfurt vollstÃ¤ndig eliminiert.

Frage:

! addonquizlocal_depart Dominanz

Diese Zerlegung weist laut Redding, Sturm und Wolf (2011, S. 826) darauf hin, dass Frankfurts sehr viel grÃ¶ÃŸeres Gesamtaufkommen an Flugpassagieren nicht durch lokale Passagiere zu erklÃ¤ren ist, sondern vielmehr durch die deutlich grÃ¶ÃŸere Anzahl an Transitpassagieren.

Ãœbersichtlich wird unser Ergebnis mit einem sogenannten "gestapelten Balkendiagramm". Auch dies lÃ¤sst sich sehr schÃ¶n mit ggplot erzeugen.

Aufgabe: DrÃ¼cke check

Gravity2=temp %>%gather(type, value, -total_depart,-expname)
ggplot(Gravity2, aes(fill=type, y=value, x=expname)) + 
  geom_bar( stat="identity") + 
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1)) +
  labs(title="Aufteilung der Passagiere", x="",y="Passagiere")

Wir sehen hier deutlich, wie sich die Passagierzahlen der verschiedenen FlughÃ¤fen zusammensetzen. Internationale TransitflÃ¼ge machen fast ein Drittel aller AbflÃ¼ge von Frankfurt aus. AuÃŸer Frankfurt hat hier nur noch MÃ¼nchen einen wesentlichen Anteil. Selbiges trifft auf die inlÃ¤ndischen TransitflÃ¼ge zu. Auch bei den angereisten TransitflÃ¼gen, weist Frankfurt eine sehr viel hÃ¶here Anzahl an Passagieren auf als die restlichen FlughÃ¤fen. Betrachten wir nur die lokalen Passagiere sticht Frankfurt keineswegs als grÃ¶ÃŸter Flughafen Deutschlands heraus. Demnach lÃ¤sst sich frankfurts Vormachtstellung im deutschen Flugverkehr nicht durch regionale FluggÃ¤ste erklÃ¤ren (vgl. Redding, Sturm und Wolf (2011, S. 826)). In Aufgabe 6.2 wollen wir nun zeigen, dass aber durchaus ein enger Zusammenhang zwischen lokalen FlÃ¼gen und der regionalen wirtschaftlichen AktivitÃ¤t herrscht.

Exercise 6.2 -- Beziehung zwischen lokalen FlÃ¼gen und der regionalen wirtschaftlichen AktivitÃ¤t

In Aufgabe 6.1 haben wir gezeigt, dass sich Frankfurts Vormachtstellung nicht durch lokale Passagiere erklÃ¤ren lÃ¤sst. In dieser Aufgabe wollen wir deshalb den Zusammenhang von lokalen FlÃ¼gen und der regionalen wirtschaftlichen AktivitÃ¤t untersuchen. Als MaÃŸ fÃ¼r die regionale wirtschaftliche AktivitÃ¤t nutzen wir das Bruttoinlandsprodukt (BIP) der Region. ZunÃ¤chst benÃ¶tigen wir wieder den Datensatz Gravity2002.dta.

Aufgabe: DrÃ¼cke check

Gravity=read.dta("Gravity2002.dta")

Die Spalte bip_vbg50 gibt an, wie hoch das Bruttoinlandsprodukt der Region (im Umkreis von 50 km) um den Flughafen expname im Jahr 2002 war.

Aufgabe: Benutze dieses Programmierfeld um die Frage darunter zu beantworten. Tipp: Verbinde die Befehle filter und select

Frage:

! addonquizBIP

Mit unten stehendem Code fassen wir den Datensatz Gravity wieder zusammen und gruppieren nach unseren deutschen Flughafen.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

Gravity=Gravity %>% group_by(exporter,expname) %>% summarise(dom_depart_e=mean(dom_depart_e),
               dom_transit_e=mean(dom_transit_e),
               for_depart_e=mean(for_depart_e),
               for_transit_e=mean(for_transit_e),
               total_depart_e=mean(total_depart_e),
               dom_for_transit_e=mean(dom_for_transit_e),
               for_for_transit_e=mean(for_for_transit_e),
               nlocal=mean(nlocal),
               bip_vbg50=mean(bip_vbg50))

Da wir den Zusammenhang von regionalen Passagierzahlen und der wirtschaftlichen Lage der Region untersuchen wollen, interessieren uns die Spalten local_depart (Berechnung erfolgt identisch wie in Aufgabe 7.1) und bip_vbg50.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

Gravity=mutate(Gravity,local_depart=nlocal*(total_depart_e-dom_transit_e-for_transit_e))

Wir fÃ¼hren nun eine einfache lineare Regression durch, um das VerhÃ¤ltnis von local_depart und bip_vbg50 zu bestimmen. Dabei nehmen wir von beiden Werten jeweils den Logarithmus.

Aufgabe: Ersetze die ??? und fÃ¼hre die lineare Regression durch

#felm=felm(log(???)~log(???),???)
#stargazer(felm,type="html")

Frage:

! addonquizlm

Wir plotten die Regressionsgerade und die Werte fÃ¼r local_depart und bip_vbg50 zusammen in eine Graphik. Wir benutzen wieder das Package ggplot2. Mit dem Befehl +geom_smooth() kÃ¶nnen wir eine Regressionsgerade hinzufÃ¼gen. Mit method="lm" geben wir die Methode an, mit der R die Regression berechnen soll. "lm" steht dabei fÃ¼r "linear model". se=TRUE erzeugt ein Konfidenzintervall.

Aufgabe: DrÃ¼cke check um den Plot mit ggplot zu erstellen

ggplot(Gravity, aes(x=log(bip_vbg50), y=log(local_depart))) +
  geom_point() + 
  geom_text(aes(x=log(bip_vbg50), y=log(local_depart),label=exporter),hjust=0.5, vjust=1.4) +
  geom_smooth(method="lm" , color="red", se=TRUE) +
  labs(title="regionale FlÃ¼ge und lokales BIP",x="log lokales BIP",y="log regionale FlÃ¼ge") +
  theme_stata()

Da wir keine groÃŸen AusreiÃŸer haben und die Regressionsgerade eine Steigung nahe eins hat, schlieÃŸen wir daraus, dass die regionale wirtschaftliche AktivitÃ¤t und die Anzahl der lokalen Passagiere eine enge Beziehung zueinander haben. BestÃ¤tigt wird dies durch den hoch signifikanten Koeffizient fÃ¼r log(bip_vbg50) und das BestimmtheitsmaÃŸ, welches bezeugt, dass Ã¼ber 80% der Streuung (siehe R^2) von local_depart durch die Regressionsgerade erklÃ¤rt wird (vgl. Redding, Sturm und Wolf (2011, S. 826)).

Exercise 6.3 -- Regionale wirtschaftliche AktivitÃ¤t

Um unsere bisherigen Erkenntnisse, dass Frankfurt nicht notwendigerweise die attraktivste Lage fÃ¼r Deutschlands Luftverkehrsknotenpunkt ist, zu untermauern, wollen wir das lokale Bruttoinlandsprodukt unserer 15 FlughafenstÃ¤dte genauer betrachten. Genau genommen wollen wir das lokale BIP unserer FlughafenstÃ¤dte mit denen aller anderen deutschen StÃ¤dte mit mehr als 50.000 Einwohnern vergleichen. Zuerst benÃ¶tigen wir den Datensatz AllMunicipalities.dta.

Aufgabe: Lade die Datei AllMunicipalities.dta und speichere sie unter allmuni. Lasse sie dir anschlieÃŸend ausgeben

#allmuni=???
#allmuni

Die Datei enthÃ¤lt alle deutschen Kommunen (OriginName), ihre Einwohnerzahl (MunPop), ihre Einwohnerzahl im Umkreis von 50 km (MunPop50km) und ihr lokales Bruttoinlandsprodukt im Umkreis von 50 km (MunGDP50km). Die Daten stammen aus dem Arbeitskreis Volkswirtschaftliche Gesamtrechnung der LÃ¤nder (2005) und dem Bundesamt fÃ¼r Kartographie und GeodÃ¤sie.

Da wir nur Kommunen mit mehr als 50.000 Einwohnern berÃ¼cksichtigen wollen, lÃ¶schen wir zuerst alle kleineren Kommunen aus unserer Datei.

Aufgabe: Benutze filter() um alle Kommunen mit weniger als 50.000 Einwohnern aus der Datei allmuni zu lÃ¶schen

#allmuni=???

Wir wollen jetzt jeder Kommune einen Rang zuordnen, d.h. die Kommune mit dem grÃ¶ÃŸten lokalen BIP bekommt Rang 1, die Kommune mit dem zweitgrÃ¶ÃŸten lokalen BIP Rang 2 usw.. DafÃ¼r mÃ¼ssen wir zunÃ¤chst die Datei absteigend nach der HÃ¶he des lokalen BIP sortieren.

Aufgabe: Benutze arrange um allmuni absteigend zu sortieren

#allmuni=???(allmuni, desc(???))
#allmuni

Aufgabe: DrÃ¼cke check um eine neue Variable rank hinzuzufÃ¼gen

allmuni=mutate(allmuni,rank=1:nrow(allmuni))
allmuni

Aufgabe: Benutze das folgende Programmierfeld um die untenstehende Frage zu beantworten

Frage:

! addonquizrank

Erstelle nun einen Datensatz allmuni2, in dem nur unsere 15 FlughafenstÃ¤dte zu finden sind.

Aufgabe: DrÃ¼cke check um den Code laufen zu lassen

allmuni2=filter(allmuni,expname!="")

Wir plotten nun das VerhÃ¤ltnis von log(rank) zu log(BIP). Das wÃ¤re mit den Standardbefehlen plot(), text() und lines() mÃ¶glich. Wir wollen aber ggplot2 benutzen um den Plot visuell ansprechender zu gestalten.

Aufgabe: DrÃ¼cke check um den Plot mit ggplot zu erstellen

ggplot(allmuni, aes(x=log(MunGDP50km), y=log(rank),colour=MunGDP50km)) +
  geom_point(size=2) +
  geom_point(data=allmuni2, aes(x=log(MunGDP50km), y=log(rank)),colour="red",size=3) +
  geom_text(data=allmuni2, aes(x=log(MunGDP50km),y=log(rank),label=expname),colour="black",size=4,hjust=1, vjust=1.4) +
  labs(title="lokales BIP deutscher StÃ¤dte, 2002",x="log lokales BIP",y="log Rang",colour="BIP") +
  theme_bw()

Wir sehen, dass sich die 15 FlughÃ¤fen nicht unbedingt in StÃ¤dten mit einem hohen lokalen Bruttoinlandsprodukt befinden. Die 30 StÃ¤dte mit der grÃ¶ÃŸten regionalen wirtschaftlichen AktivitÃ¤t liegen laut Redding, Sturm und Wolf (2011, S. 827) alle in der Rhein-Ruhr Region, z.B. KÃ¶ln und DÃ¼sseldorf. Frankfurt belegt lediglich Platz 42. Wir haben in Aufgabe 6 gelernt, dass auch die regionale wirtschaftliche AktivitÃ¤t keine groÃŸe Rolle dafÃ¼r spielt, dass Frankfurt Deutschlands Luftverkehrsknotenpunkt ist.

Exercise 7 Zusammenfassung

Laut Redding, Sturm und Wolf (2011, S. 829) gibt es kaum empirische Beweise dafÃ¼r, dass multiple Steady States fÃ¼r Industriestandorte existieren. Wir haben die Teilung und Wiedervereinigung Deutschlands als natÃ¼rliches Experiment gewÃ¤hlt um zu zeigen, dass es tatsÃ¤chlich multiple Steady States fÃ¼r Industriestandorte gibt. In Aufgabe 1 haben wir die Entwicklung der Fluggastanteile bestimmt und in Aufgabe 4 haben wir mit statistischen Methoden gezeigt, dass die Teilung Deutschlands signifikante Auswirkungen auf den Standortwechsel des deutschen Luftverkehrsknotenpunkts hatte. Im Gegensatz dazu besteht kein Grund fÃ¼r die Annahme, dass der Luftverkehrsknotenpunkt wieder nach Berlin wechseln kÃ¶nnte. Das war ein erster Hinweis auf Multiple Steady States. Um dies zu untermauern, haben wir in Aufgabe 3 Deutschland mit anderen europÃ¤ischen LÃ¤ndern verglichen und aufgezeigt, dass eine Verlagerung des Luftverkehrsknotenpunkts keineswegs als gewÃ¶hnlich betrachtet werden kann. In Aufgabe 2 haben wir dann herausgefunden, dass ein relativ kleiner Schock nÃ¶tig war, um die Wahl zugunsten Frankfurts zu treffen. In Aufgabe 5 und Aufgabe 6 haben wir die wirtschaftlichen Rahmenbedingungen nÃ¤her untersucht. Das Ergebnis von Aufgabe 5 war, dass die Marktanbindung keine groÃŸe Rolle bei der Wahl eines Luftverkehrsknotenpunkts spielt und Frankfurt hier keinesfalls Vorteile gegenÃ¼ber anderen Standorten hat. Selbiges gilt fÃ¼r die regionale wirtschaftliche AktivitÃ¤t, wie wir in Aufgabe 6 herausgefunden haben.

Zusammenfassend lÃ¤sst sich sagen, dass die Teilung Deutschlands zu einem Schock gefÃ¼hrt hat, welcher die Verlagerung des deutschen Luftverkehrsknotenpunkts zur Folge hatte. Es gibt keine empirischen Belege um anzunehmen, dass der Standort wieder zurÃ¼ck nach Berlin wechseln kÃ¶nnte. Deshalb gehen wir von multiple Steady States fÃ¼r den Standort eines Luftverkehrsknotenpunkts in Deutschland aus. AuÃŸerdem haben wir gezeigt, dass wirtschaftliche Rahmenbedingungen wie die Marktanbindung und die regionale wirtschaftliche AktivitÃ¤t keine Rolle bei der Wahl des Standorts gespielt haben (vgl. Redding, Sturm und Wolf (2011, S. 829)).

Danke, dass du dich fÃ¼r dieses Problem Set entschieden hast. Ich hoffe du konntest deine Programmierkenntnisse erweitern und hattest SpaÃŸ an den Aufgaben. Um zu sehen wie viele Awards du in diesem Problem Set gewonnen hast, drÃ¼cke zuerst edit und dann check. Es gab insgesamt neun Awards zu gewinnen.

Aufgabe: DrÃ¼cke check um deine "Awards" anzeigen zu lassen

awards()

Exercise 8 Quellen

Literatur

Airports Council International (2002): Worldwide Airport Traffic Report. http://www.aci.aero/ (abgerufen am 11. Oktober 2017)
Arbeitskreis Volkswirtschaftliche Gesamtrechnung der LÃ¤nder (2005): Bruttoinlandsprodukt, BruttowertschÃ¶pfung in den kreisfreien StÃ¤dten und Landkreisen Deutschlands 1992 und 1994 bis 2003, https://www.destatis.de/DE/Publikationen/Thematisch/VolkswirtschaftlicheGesamtrechnungen/VGRderLaender/VGR_KreisergebnisseBand1.html (abgerufen am 8. Oktober 2017)
Auer, Ludwig von (2013): Ã–konometrie. Eine EinfÃ¼hrung. Wiesbaden (Springer Berlin Heidelberg).
BrÃ¶cker, Johannes / Fritsch, Michael (2012): Ã–konomische Geographie. MÃ¼nchen (Vahlen).
Combes,P-P./ Lafourcade M./ Mayer T. (2005): The Trade-Creating Effects of Business and Social Networks: Evidence from France. Journal of International Economics 66.
Davis,D./ Weinstein,D. (2002): Bones, Bombs, and Break Points: The Geography of Economic Activity. (American Economic Review 92)
Fahrmeir, Ludwig / Heumann, Christian / KÃ¼nstler, Rita / Pigeot, Iris / Tutz, Gerhard (2016): Statistik. Der Weg zur Datenanalyse. Berlin Heidelberg New York (Springer-Verlag).
Fahrmeir, Ludwig / Kneib, Thomas / Lang, Stefan (2009): Regression. Modelle, Methoden und Anwendungen. Berlin Heidelberg New York (Springer-Verlag).
Kennedy, Peter (2008): A Guide to Econometrics. (Blackwell Publishing).
Krugman, Paul R. (1991): Increasing Returns and Economic Geography. (Journal of Political Economy 99).
Loth, Wilfried (1988): The Division of the World, 1941-1955. New York (Routledge).
Marshall, Alfred 1842-1924 (1920): PRINCIPLES OF ECONOMICS. London (Macmillan).
Rauch J. (2001): Business and Social Networks in International Trade. Journal of International Economics 39.
Redding, Stephen J./ Sturm, Daniel M./ Wolf, Nikolaus (2011): History and industry location: Evidence from german airports (The Review of Economics and Statistics).
Revue Aeronautique Internationale, vol.30 (1938). Paris (Albert Roper)
Statistisches Bundesamt (2003): Luftverkehr auf allen FlugplÃ¤tzen in 2002, Fachserie 8 (Verkehr), Reihe 6.2, https://www.destatis.de/DE/Startseite.html (abgerufen am 30. September 2017)
Statistisches Bundesamt (mehrere Jahre): Statistisches Jahrbuch fÃ¼r die Bundesrepublik Deutschland. Stuttgart und Mainz (Kohlhammer)
Statistisches Bundesamt (mehrere Jahre): Statistisches Jahrbuch des Deutschen Reiches. Berlin (Verlag fÃ¼r Sozialpolitik, Wirtschaft und Statistik)
Teutonico, Donato (2015): ggplot2 Essentials. Birmingham (Packt Publishing Ltd).
Weise, A. (1928): Unser Berlin: Ein Jahrbuch von Berliner Art und Arbeit. Berlin (Reimar Hobbing)
Wickham, Hadley (2009): ggplot2. Elegant Graphics for Data Analysis. Berlin, Heidelberg (Springer).
Wilken, D./ Berster, P./ Gelhausen, M.(2007): Airport Choice in Germany: New Empirical Evidence of the German Air Traveller Survey 2003. Journal of Airport Management 1.
WollschlÃ¤ger, Daniel (2017): Grundlagen der Datenanalyse mit R. Eine anwendungsorientierte EinfÃ¼hrung. Berlin Heidelberg New York (Springer-Verlag).
Wooldridge, Jeffrey M. (2015): Introductory Econometrics: A Modern Approach. Clifton Park, NY (Cengage Learning).

Packages in R

Arnold, Jeffrey B.(2017). ggthemes: Extra Themes, Scales and Geoms for 'ggplot2'. R package version 3.4.0. https://CRAN.R-project.org/package=ggthemes
Auguie , Baptiste (2016). gridExtra: Miscellaneous Functions for "Grid" Graphics. R package version 2.2.1. https://CRAN.R-project.org/package=gridExtra
Gaure, S.. lfe: Linear group fixed effects. R package version 2.5-1998, 2016
Gesmann, Markus and de Castillo, Diego. Using the Google Visualisation API with R. The R Journal, 3(2):40-44, December 2011.
Hlavac, Marek (2015). stargazer: Well-Formatted Regression and Summary Statistics Tables. R package version 5.2. http://CRAN.R-project.org/package=stargazer
Hothorn, Torsten/ Bretz, Frank and Westfall, Peter (2008). multcomp: Simultaneous Inference in General Parametric Models. Biometrical Journal 50(3), 346--363.
Kahle, D.and Wickham, H.. ggmap: Spatial Visualization with ggplot2. The R Journal, 5(1), 144-161. URL http://journal.r-project.org/archive/2013-1/kahle-wickham.pdf
Kranz, Sebastian (2016). regtools: Some tools for regressions and presentation of regressions results. R package version 0.2.
Kranz, Sebastian (2015). RTutor: R problem sets with automatic test of solution and hints. R package version 2015.12.16.
R Core Team (2016). foreign: Read Data Stored by Minitab, S, SAS, SPSS, Stata, Systat, Weka, dBase, .... R package version 0.8-67. https://CRAN.R-project.org/package=foreign
Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.
Wickham, Hadley and Francois, Romain (2016). dplyr: A Grammar of Data Manipulation. R package version 0.5.0. https://CRAN.R-project.org/package=dplyr
Wickham, Hadley (2017). tidyr: Easily Tidy Data with 'spread()' and 'gather()' Functions. R package version 0.6.1. https://CRAN.R-project.org/package=tidyr

Webseiten

https://www.bvdinfo.com/de-de/our-products/company-information/international-products/orbis (abgerufen am 13. Oktober 2017)
http://www.datasciencecentral.com/profiles/blogs/understanding-linear-regression (abgerufen am 15. Oktober 2017)
https://dataverse.harvard.edu/dataset.xhtml?persistentId=hdl:1902.1/17402 (abgerufen am 05. Juli 2017)
http://www.geschichtsatlas.de/~gf5/neuheim.html (abgerufen am 25. August 2017)
http://worldaerodata.com/ (abgerufen am 11. Oktober 2017)
https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf (abgerufen am 19. September 2017)
https://www.rstudio.com/wp-content/uploads/2015/02/data-wrangling-cheatsheet.pdf (abgerufen am 19. September 2017)

pl90/RTutorAirports documentation built on May 29, 2019, 7:37 a.m.

rdrr.io home R language documentation Run R code online

CRAN packages Bioconductor packages R-Forge packages GitHub packages

Note that we can't provide technical support on individual packages. You should contact the package authors for that.

pl90/RTutorAirports RTutor problem set Airports

In pl90/RTutorAirports: RTutor problem set Airports

Problem Set Airports

Willkommen

EinfÃ¼hrung

Exercise Content

Exercise 1 -- Entwicklung der Fluggastanteile

! addonquizFrage1

! addonquizFrage2

! addonquizFrage3

! addonquizBerlin_1950

! addonquizGap

! addonquizAusschlag

ggplot2

! addonquizFrankfurt_beginn

! addonquizleader

Exercise 2 -- Die Wahl zugunsten Frankfurts

Geschichtlicher Hintergrund

! addonquizBesatzungszonen

! addonquizWiedervereinigung

! addonquizFrankfurt_Zone

Exercise 2.1 -- Zusatzaufgabe ggplot

! addonquizworldaerodata

Exercise 3 -- Internationaler Vergleich - Marktanteil

! addonquizEinhundert

! addonquizDeutschland

Lineare Regression mit lm()

! addonquizbeta

Lineare Regression mit felm()

Exercise 3.1 -- Internationaler Vergleich - Flugverbindungen

! addonquizbarcelona

! addonquizrhodos

! addonquiz2002

! addonquizWeltkarte

Exercise 4 -- Difference in Difference SchÃ¤tzer- Beispiel

Exercise 4.1 -- SchÃ¤tzer fÃ¼r die Teilung Deutschlands

! addonquizFixeffekte

! addonquizWachstum_Berlin

! addonquizSignifikanz2

Exercise 4.2 -- SchÃ¤tzer fÃ¼r die Wiedervereinigung

! addonquizDekade_Frankfurt

! addonquizWachstum_Frankfurt

Exercise 5 -- Die Marktanbindung

! addonquizSchätzfrage

! addonquizldist

! addonquizsignifikanz3

! addonquizlformig

Exercise 5.1 -- Aufteilung der Abflugzahlen

Fixeffekte des Herkunftsflughafens

! addonquizlsa

Marktanbindung

Exercise 6 -- Regionale wirtschaftliche AktivitÃ¤ten und lokale FlÃ¼ge

Exercise 6.1 -- Zerlegung der Passagieranteile

! addonquizPassagierquiz

! addonquiznlocal

! addonquizlocal_depart

! addonquizlocal_depart Dominanz

Exercise 6.2 -- Beziehung zwischen lokalen FlÃ¼gen und der regionalen wirtschaftlichen AktivitÃ¤t

! addonquizBIP

! addonquizlm

Exercise 6.3 -- Regionale wirtschaftliche AktivitÃ¤t

! addonquizrank

Exercise 7 Zusammenfassung

Exercise 8 Quellen

Literatur

Packages in R

Webseiten

R Package Documentation

Browse R Packages

We want your feedback!

pl90/RTutorAirports
RTutor problem set Airports