Look what she made me do

Some time ago, I mentioned that I had encountered a recording of Taylor Swift performing some of her songs acoustically, without the support of a band or severe electronic means. It is a recording from fall 2015, and she just stands on a theatre stage, using nothing but a guitar or a piano. And she does perform in an amazing way. All three songs that I could find from this appearance are presented perfectly and marvelously.

While one can argue that Blank Space isn’t the hardest song to sing, for a trained musician nonetheless, both Out of the Woods and especially Wildest Dreams can be considered a peak performance. Not a single note is off, every cadence fits. I am hard pressed to think of a studio recording (that may or may not be altered in the computer afterwards) that can reach this level of perfection, and I can hold the belief that Taylor Swift actually did this without technical support (except for microphones, of course). Besides her singing, one can actually tell how she really put feelings into these songs and into this appearance on stage – she really enjoys standing on the stage and showing her talents.

I wouldn’t want to consider myself very knowledgeable about Taylor Swift’s pop-cultural influence, especially since she actually is a public persona, much more than the other musicians that I have mentioned here before. I hold no interest in anything of these public appearances that are not directly music-related. But her musical talent is undisputable. On top, one can tell that she has gone a long way in her musical style, from her early Country days that made her famous, to the pop-music (which could sound indistinguishable from the usual easy-listening-music on the radio if it weren’t this good) until she arrived recently at her more electronic-oriented last album. I can neither relate to the classic country-music, nor to the more techno-ish sounds that she has released recently. But I can feel at home at the middle part of the pop music that had its debut in the album “Red” and peaked in the album “1989”. While “Red” has some boring standard-pop, it also has amazing gems like “Stay Stay Stay”; and “1989” can convince me pretty much from start to finish. Some of her earlier videos that can be found on youtube may also click with me depending on my present mood – not actually those that are ranked high in the youtube-algorithm, but rather something like Mean or The Story of Us, where one comment that is stuck on top of the list says “Taylor Swift’s career would be entirely justified if it consisted only of this. An astoundingly well-written song.” And I can support this whole-heartedly.

The trick is that Taylor Swift not only brings a talented singing voice and the looks to become an international star, she also brings the musical talent to song-writing and performing many instruments on her own. While very many lyrics deal with the usual stuff of love and anything around it, her more recent songs also address her reputation as a star and her feuds with other people in the business. The latter part doesn’t interest me at all, as it at least appears to also be part of a PR strategy to keep those matters boiling; and it seems to have to do with an introspection Taylor Swift is doing herself, such as the (at least somewhat funny) line from the promotional song to her last album “The old Taylor can’t come to the phone right now. Why? Oh, ‘cause she’s dead!” That is another aspect of her lyrics: even if they aren’t relatable (as in the love songs), or deep (as with my other very favorite singer/songwriters) they are at least quite funny, as in the line from Blank SpaceBaby, I’m a nightmare dressed like a daydream”.

That should suffice as my admiration for her music of the past, like, six or seven years. I can really understand how she came to be the star that she is, and from her work and talent she deserves this status. We’ll see where the fame and the changes will take her, but this music stays and is among the finest pop music (at least depending on the mood).

Advertisements

Merowinger und Karolinger

Das Buch „Vom Reich der Franken zum Land der Deutschen“ von Hans K. Schulze ist ein Teil der Reihe zur deutschen Geschichte im Siedler Verlag. Die Reihe besteht aus 12 Monographien, die die Zeit von der Antike bis zum Bau der Berliner Mauer abdecken, und von insgesamt 10 renommierten Historikern verfasst wurde. Schon zu Schulzeiten habe ich mich mit dieser Reihe befasst, und noch heute schaue ich gern punktuell hinein. Darunter ist teilweise härtere Kost, aber es gibt auch große, mehrfach gelesene Highlights darunter, etwa die Untersuchung der Weimarer Republik von Hagen Schulze oder die Betrachtungen zum Deutschen Kaiserreich von Michael Stürmer. Diese sind sicherlich ebenfalls gesonderte Texte wert, wenn ich mich wieder einmal mit ihnen befasse. Hier soll es um die Merowinger und Karolinger gehen.

Schulze beginnt seine Beschreibung des Frankenreiches bei den Merowingern um Chlodwig. Im Gegensatz zu den anderen germanischen Königen der Antike ließ er sich katholisch taufen und stellte so die Integration mit der römischen Bevölkerung in seinem Reich her – die übrigen germanischen Herrscher bekannten sich zum arianischen Christentum und standen so stets im Gegensatz zum Gros ihrer Bevölkerung, sicher einer der Gründe für die Kurzlebigkeit der diversen Reiche, etwa der Ostgoten oder Vandalen. Es gibt einen kurzen Exkurs über die Ursprünge des Frankenreichs, das in der Spätphase des Weströmischen Reichs und während der Völkerwanderungszeit aus diversen Völkern und Gruppen entstanden ist, die irgendwann nicht mehr separat in den Quellen auftauchen. Andere Germanenreiche wurden in das Frankenreich integriert, darunter die Thüringer, Bayern und Friesen, deren fassbare Geschichte Schulze knapp, aber etwas konfus zusammenfasst. Daneben stellt er einen Abriss zur kulturellen und religiösen Kontinuität der Germanenreiche mit dem Römischen Reich dar, dieser wiederum ist sehr kompakt und sehr aufschlussreich. In Bezug auf die anderen großen Germanenreiche lässt sich Schulze nicht auf Näheres ein, dazu ist innerhalb der Reihe des Siedler-Verlags mehr bei Herwig Wolfram zu finden.

Insgesamt ist die Quellenlage zu den Merowingern eher dürftig. Nicht nur gibt es wenige Quellen, die vorhandenen Informationen sind häufig auch nicht zeitgenössisch, sondern aus den späteren Zeiten rückblickend und auch entsprechend beeinflusst aufgeschrieben. Das schlägt sich auch auf die Nachfolger Chlodwigs als fränkische Könige nieder: es gibt wenig darüber, außer der Nacherzählung von Herrscherfolgen und Verwandtschaftsverhältnissen (die Schulze uns dankenswerterweise überwiegend erspart).

Tatsächlich ist die Erkenntnis spannender, dass die merowingischen Könige sich mit der Zeit kaum noch durchsetzen konnten, die eigentliche Macht ging auf nachgeordnete Adlige über, die als maior domus (dürftig eingedeutscht als „Hausmeier“) bezeichnet wurden. Ursprünglich handelte es sich um Verwalter des königlichen Hofs, die schließlich immer umfassendere Rechte erstritten und sich durchsetzten. Zum 8. Jahrhundert hin etablierte sich innerhalb der Familie der Karolinger die Erblichkeit dieses Hausmeieramts, die Könige gerieten mehr und mehr in den Hintergrund. Aufgrund des fränkischen Erbrechts entstanden mehrere Teilreiche nebeneinander, wenn nach dem Tod eines Herrschers mehrere Söhne einen Teil des Erbes erhalten sollten. Die Idee des Gesamtreichs blieb unangetastet, aber jeder Erbe sollte einen gleichberechtigten Teil erhalten. Dies führte insbesondere auch zu unklaren Zugehörigkeiten der Randgebiete (gehörte etwa in dieser Phase Thüringen noch zum Reich dazu oder waren die Thüringer de facto unabhängig?). Auch die Karoliner als Hausmeier waren nicht von Beginn an unangefochten, sondern kämpften ihre Widersache nieder – etwas, das in den Quellen nur aus der Rückschau erkenntlich wird, und auch nur unter einer großen Schicht von karolingischer Geschichtsschreibung und zugehöriger Verklärung: sicherlich sind nicht alle Rückschläge und Niederlagen der Karoliner adäquat aufgezeichnet. Für mich war eine neue Information, dass die Karoliner zwischenzeitlich im Mannesstamm ausgestorben waren, so vererben sie sich über eine Nebenlinie, die auf den Bischof Arnulf von Metz zurück geht (aus Zeiten vor seiner Bischofsweihe). Auch eine überraschende Erzählung ist die vom Aufstieg Karl Martells, der den Hausmeiertitel von seiner Stiefmutter und seinem Stiefbruder usurpiert, nachdem er sich aus deren Gefangenschaft befreit hatte. Diese Durchsetzungsfähigkeit bewies er auch während seiner Herrschaft, als er die Araber bei Tours und Poitiers zurückschlug (was ihm, vermutlich eher zu Unrecht, den Nachruhm eintrug, das Abendland vor den Arabern gerettet zu haben, inklusive aller düster ausgemalten Szenarien, dass ganz Europa vom Islam beherrscht worden wäre; es ist ein Fall für alternative Geschichtsschreibung, ob es realistischerweise so hätte kommen können). Karl Martell selbst erscheint in den Quellen aber ebenfalls als eine eher typisierte Figur, ohne wirkliche individuelle Züge, sondern nur als Vorgänger der nachkommenden großen Karolinger-Herrscher.

Wertvoller als die dürftigen schriftlichen Quellen (die Schulze an einer Stelle bezeichnenderweise „trümmerhaft“ nennt) sind archäologische Befunde, von denen es bis heute immer neue gibt. Insbesondere Gräber und alte Siedlungen geben konkretere Hinweise auf die Umstände im Frankenreich, wenn es auch weniger über die eigentlichen Ereignisabläufe aussagt. Bedauerlicherweise lässt sich Schulze nicht übertrieben ausführlich über die Archäologie aus; möglicherweise ist das aber auch im Abfassungsdatum seines Buchs begründet, seit den 1980er Jahren ist auch bei diesen Befunden viel neues passiert.

Ein eigenes Kapitel befasst sich mit dem „Apostel der Deutschen“ Bonifatius (ein Attribut, das durchaus zu hoch gegriffen erscheint; es taucht folgerichtig bei Schulze auch nur als Überschrift auf). Dieser Mönch aus England sorgte sich um die Christianisierung östlich des Rheins. Westlich des Rheins war die Mission bereits aus römischer Zeit umfassend erledigt, aber an den Rändern des Römischen Reichs in den Wirren der Völkerwanderungszeit etwas verschüttet worden (so etwa in Bayern). Im Auftrag des Papstes missionierten Mönche aus England und Irland in Mitteleuropa, darunter war Bonifatius, der ursprünglich Winfrid hieß, einer von vielen. Im Unterschied zu den anderen berief er sich wesentlich auf seinen päpstlichen Auftrag und verband sich eng mit Karl Martell; er konzentrierte sich auf die Mission und Errichtung von Bistümern im heutigen Hessen und Thüringen. Als offiziellen Titel trug er den den Bischofs von Mainz, und bemühte sich als solcher auch um die Reform der fränkischen Kirchenorganisation (was ihn in Konflikte mit seinen Kollegen in den übrigen etablierten Bistümern brachte). Es werden die klassischen Erzählungen referiert, etwa die Fällung der Donareiche, sein Märtyrertod in Friesland und die noch heute aufbewahrte Bibel, mit der er den tödlichen Hieb abzuwehren versuchte. Dass diesem Themenkomplex eine hohe Relevanz zugewiesen wird, erscheint mir, bei Schulze und auch bei ähnlichen referierenden Werken zu diesem Thema, dennoch eigenartig. Natürlich ist die Ausbreitung des Christentums für den weiteren Verlauf der deutschen Geschichte durchaus relevant, aber die angelsächsische Mission kam wiederum auch nur unmerklich über die Elbe hinaus, jenseits dessen fand die Mission auch erst später statt. Ob Bonifatius wirklich eine derart herausgehobene Stellung innerhalb der deutschen Geschichte hatte?

Mit Karl dem Großen erreicht die Geschichte des Frankenreiches ohne Zweifel ihren Höhepunkt. Schulze betrachtet das Karlsreich in mehreren Kapiteln aus verschiedenen Sichtweisen: die Kriege, die Kaiserkrönung und die zugehörigen politischen Implikationen, die Kultur und das Leben im Karlsreich. Bis zur Kaiserkrönung führte Karl nahezu durchgängig Kriege an allen Grenzen seines Reichs. Den langwierigsten Krieg gegen die Sachsen, die sich in mühsamen Kleinkriegen (man könnte anachronistisch sagen „Guerilla“) gegen ihre Eroberung und Integration ins Frankenreich zur Wehr setzten. Für Karl ging es dabei nicht nur um die Eroberung neuen Landes, sondern auch um die Missionierung der Sachsen und um die Festigung seines umfassenden Herrschaftsanspruchs, auch über die direkten Grenzen seines Reiches hinaus. Tatsächlich wurde dieser Krieg gegen die Sachsen auch für die damalige Zeit sehr brutal geführt, sodass auch die kaiserfreundlichen Chroniken den Krieg nur unter Schwierigkeiten rechtfertigten. Auch Karl ließ, wie Bonifatius, ein heidnisches Heiligtum zerstören, bei den Sachsen war es die Irminsul, deren tatsächlicher Ort sich nicht mehr klären lässt. Schließlich schlug er Aufstände sehr blutig nieder (etwa das „Blutgericht von Verden“). Über den Feldzug Karls gegen die Araber gibt es bei Schulze sehr wenig Information, tatsächlich wird weder das Kriegsziel klar, noch der Verlauf (abgesehen von der eher kryptischen Bemerkung, dass auch in den Reichsannalen die Niederlage bei Roncesvalles beschönigt wird). Ein bemerkenswerter Mosaikstein dieser Erzählung ist aber, dass Karl mit seinem Heer auch zwischen den Kriegsschauplätzen pendelte: nach dem Feldzug in Spanien zog er 2000km weit nach Sachsen zurück um einen Aufstand niederzuschlagen – und das bei den damaligen Wegverhältnissen und mit dem Reisen verbundenen Beschwernissen (auch wenn es noch keine scheren Plattenpanzer wie im späten Mittelalter und in modernen Ausstellungen gab; Panzerreiter waren allerdings ebenfalls noch in der Unterzahl, der Großteil hatte sich zu Fuß zu bewegen und am Ankunftsort kampfbereit zu sein). Schließlich gibt Schulze eine Abhandlung zur Unterwerfung der Bayern, die sich mehr als eine politische Intrige mit eher dubiosem Ablauf liest, und einen Text zum Krieg gegen die Awaren, der zum Verschwinden dieses Volks aus den Quellen binnen weniger Jahrzehnte geführt hat. Offenbar wurde auch die fossa carolina (der Versuch eines Kanalbaus im Rhein-Main-Donau-Gebiet) als strategisches Großprojekt für den Krieg gegen die Awaren geplant. Die Franken hatten durch die Eingliederung der Friesen in ihr Reich und in ihr Heer auch Know-How im Bereich der Seekriegsführung und der Schifffahrt gewonnen.

Das Kapitel über das Heerwesen ist als solches ebenfalls sehr aufschlussreich. Die Soldaten waren grundsätzlich die freien Franken, es gab kein Berufsheer im späteren Sinne. Aber da sich die Krieger selbst mit Rüstungen und Waffen ausstatten mussten, war es gerade für die Armen ein Problem, in den Krieg ziehen zu müssen. Durch eine Art von Heeresreform gab es mit der Zeit Abstufungen darin, sodass sich jeder Franke, der in den Krieg zog, entsprechend seiner Möglichkeiten beteiligen konnte. Ursprünglich finanzierte sich der Krieg (wie auch in späteren Kriegen üblich) aus den Beutezügen nach erfolgreichen Schlachten, aber diese Beute lohnte sich irgendwann für die Soldaten nicht mehr. Viele begaben sich aus wirtschaftlicher Not heraus in die Abhängigkeit oder gingen ins Kloster, um vom Heereswesen befreit zu werden – ein Verlauf, der auch den fränkischen Adligen nicht recht gewesen sein konnte. Gleichzeitig entstehen hier die Anfänge des Feudalismus und des Vasallentums (das aus tieferen sozialen Schichten stammen muss, da „Vasall“ im Keltischen „Knecht“ bedeutet). Die Frage, welche Begabungen Karl der Große selbst als Heerführer und strategischer Schlachtenlenker hatte, muss wohl unbeantwortet bleiben; seine großen Operationen und Heeresmärsche waren allerdings offenkundig erfolgreich, große offene Feldschlachten waren selten, da meist schon der Ruf des fränkischen Heeres und die bekanntermaßen qualitativ hochwertigen Waffen der Franken ausreichten, um den Feldzug für die Franken erfolgreich zu gestalten.

Die Umstände der Kaiserkrönung Karls des Großen an Weihnachten 800 sind oft diskutiert worden und sollen nicht umfassend rezitiert werden. Eine Hauptrolle dabei spielte der Papst, der sich als Kaisermacher inszenierte und geradezu als Gegenleistung für die Hilfe in einer Notsituation den Kaisertitel an den mächtigsten Fürsten Westeuropas vergab (ähnlich wie bei Karls Vater Pippin dem Jüngeren – nicht „dem Kurzen“ – der dafür zum König gekrönt wurde). Diplomatisch bedeutete dies einen Drahtseilakt für Karl den Großen, der sich nicht auf einen Konflikt mit dem oströmischen Kaisertum in Byzanz einlassen wollte. Hier liegen die Anfänge der komplexen Herrschertitulaturen des Mittelalters und der frühen Neuzeit: in Karls Fall lautete sie „Kaiser, der über das Römische Reich herrscht, und König der Franken und Langobarden“. Diese Titulatur sollte nicht nur den entsprechenden Anspruch Karls abdecken, sondern musste auch diplomatisch und innenpolitisch unangreifbar sein: Karl wollte sich nicht als Kaiser der Römer verstanden wissen, um seine fränkische Herkunft demonstrativ herauszustellen. Der Gegensatz zu Byzanz und der Kaiserin Irene führte aber bis zum Ende von Karls Herrschaft zu einer friedlichen Koexistenz: die Idee, dass es ein einziges Römisches Reich gebe, blieb bestehen, aber es gab wie in der Antike zwei Kaiser, einen im Westen und einen im Osten. Gegenseitige Usurpationen waren nicht beabsichtigt. Aber Karl war auch in einem historisch geschickten Zeitpunkt gekrönt worden, als Byzanz gerade stark mit sich selbst beschäftigt war (die Legitimität der Kaiserin Irene wurde stark diskutiert und ausgefochten). Schulze gibt schließlich noch eine Übersicht über Karls de facto Residenz Aachen, die natürlich nicht mit Rom oder Byzanz mithalten konnte – das war auch nicht der Anspruch. Aber allein die Tatsache, dass hier der Kaiser residierte, zog Künstler, Gelehrte und fremde Gesandte an. Die Kaiserpfalz mit ihrer oktogonalen Pfalzkapelle ist entsprechend berühmt. Die Kaiseridee wurde aber nicht so fest mit Aachen verknüpft wie sie mit Rom verknüpft blieb. Auch wenn sich das gesamte Mittelalter hindurch die deutschen Könige auf Aachen beriefen und dort gekrönt werden sollten, so blieb die Kaiserkrönung durch den Papst in Rom ein Fixpunkt für das gesamte Mittelalter.

Überhaupt wirkt die Zeit um 800 wie mit einem Blitzlicht erhellt, nicht nur in Schulzes Darstellung, in den Quellen, auch in meiner eigenen Wahrnehmung ist das so. Nicht nur innerhalb des Frankenreiches gibt es ein recht klares Bild von den Verhältnissen dieser Zeit, auch die Herrscher in Byzanz und Spanien (Kaiserin Irene und Kalif Harun al-Raschid) sind hier klar sichtbar. Für die Zeit vorher und nachher ist das Bild deutlich diffuser.

Schulze gibt längere Abschnitte über die Welt in dieser Zeit: die Rechtsprechung, die durch Karl den Großen und seine Herzöge gesetzt wurde, das Staatssystem mit den regionalen Grafen und umherreisenden überwachenden „Beamten“, das Reisekönigtum (das erst im höheren Alter Karls durch die Residenz in Aachen abgelöst wurde, auch nachdem das Reich fest gefügt und Karls Herrschaft unangefochten war). Auch die vielen neu gegründeten Siedlungen nach der unruhigen Völkerwanderungszeit werden dargestellt, etwa die damals mit Waldrodung verknüpften Ortsnamen, die auf -roth, -wald oder ähnliches enden; das Leben war stark diktiert von der unwirtlichen Natur, dem daraus folgenden geringen Ernteertrag und den daher ständig drohenden Hungersnöten. Aber die Bevölkerung wuchs in dieser Zeit stetig, wie sich aus den oben bereits angesprochenen archäologischen Befunden herleiten lässt. Das Handelsnetz war vorhanden und wurde durch das stabile Frankenreich begünstigt, darunter auch die Bemühungen Karls um ein besseres Straßennetz (das natürlich ebenso dem Heer und der staatlichen Verwaltung genutzt hätte). Der Handel verlief zwischen Skandinavien und dem Orient, bevorzugt über die Wasserstraßen, aber aus moderner Sicht darf man sich kaum Illusionen über das Volumen dieses Handels machen. Im Vergleich zum Römischen Reich waren der technische Stand und das Handwerk eher rückschrittlich, viel Detailwissen, etwa im Münzwesen und im Straßenbau, war verloren gegangen. In den Siedlungen gab es häufig Universal-Handwerker, sodass alle wesentlichen Tätigkeiten autark erledigt werden konnten, die Spezialisierung auf bestimmte Handwerke kam erst in den Städten des hohen Mittelalters wieder auf. Schließlich folgt ein Exkurs zur Gesellschaftsstruktur im Frankenreich, die auf sehr strikten Prämissen aufbaute und insbesondere eine Schicht von unfreien Sklaven hatte (auch das Wort stammt aus dieser Zeit). Oft zwang wirtschaftliche Not oder Kriegsgefangenschaft die Leute in diese Abhängigkeit, ein Ausbruch daraus war in dieser Zeit noch durch Kriegstüchtigkeit oder durch die Kirche in manchen Fällen möglich; Schulze thematisiert kurz auch den offenkundigen, und auch damals schon erkannten Widerspruch, der sich aus der Sklaverei im christlichen Glauben ergibt, ohne dass eine wirkliche Lösung gefunden wurde.

Auch die Kultur und die Bildung erlebten eine kurze Blütephase in der Zeit um 800. Die Rückbesinnung auf das Studium antiker Autoren führte zur so genannten Karolingischen Renaissance. Auch zur Förderung der Christianisierung wurde das klassische Latein wieder zum Ideal erhoben, an dem sich auch die zeitgenössischen Schreiber orientierten (es sei alleine Einhard genannt, der Verfasser der berühmten Karlsbiographie). Auch die damals entwickelte karolingische Minuskel diente diesem Zweck, um durch Einfachheit und Klarheit in den Texten die Verbreitung von Wissen zu erleichtern. Sie hat nahezu jede der modernen Schriftarten zumindest mit beeinflusst. Schulze erwähnt, dass in einer Größenordnung von 7000 Handschriften aus dieser Zeit überliefert sind, eine für mich bemerkenswert hohe Zahl. Gelesen und geschrieben wurden sie praktisch ausschließlich von Geistlichen, aber auch die Bildung von Adligen wurde gefördert (die Anekdote, dass Karl der Große im hohen Alter erfolglos versuchte, schreiben zu lernen, ist bekannt). Schon aus logistischen Gründen war eine Bildung der breiten Masse oder gar eine Schulpflicht damals unmöglich.

Das ganze Mittelalter hindurch und bis in die heutige Zeit wurde Karl der Große als ein Idealbild des Herrschers portraitiert. Franzosen und Deutsche beginnen ihre Geschichtsschreibung als eigenständige Nationen mit ihm und seinem Reich. Und er dient noch heute als ein Symbol für das geeinte Europa (so etwa beim Aachener Karlspreis), wenn auch seine europäische Einigung ganz andere Ursachen hatte als unsere heutige. Aber er ist eben ein Idealtypus, dessen Überhöhung auch aus den vorhandenen (zeitgenössischen und moderneren) Quellen subtrahiert werden muss. Am ehesten erhält man eine individuelle Schilderung Karls bei Einhard, trotz aller dort vorhandenen Lobhudelei. Die von Schulze in seiner Kapitelüberschrift aufgeworfene Frage „Karl der Große oder Charlemagne“ ist aber mindestens anachronistisch (und Schulze weiß das), denn Karl war weder Deutscher noch Franzose, er war Franke, er sprach die fränkische Sprache und verband sein Bewusstsein der fränkische Kultur auch mit den kaiserlichen Traditionen.

Nach Karls Tod ging es mit dem Zerfall seines Großreiches relativ schnell. Das scheint ein Fixpunkt in der Geschichtsschreibung zu sein, in gewisser Weise ist es aber natürlich auch die Definition einer Blütezeit, dass die Blüte irgendwann verschwindet. Ludwig der Fromme, Karls Alleinerbe, herrscht zunächst noch unangefochten, aber er gerät nach einigen Jahren in Konflikte mit seinen Söhnen über den Erbteil des jüngsten Sohnes Karls des Kahlen. Bis zu dieser Enkelgeneration Karls gelingt Schulze eine sehr durchsichtige Darstellung, bevor es immer weiter in Zersplitterung und auch in die Auseinandersetzungen mit äußeren Feinden übergeht. Auch im Text spricht Schulze von Schneisen, die der Historiker durch das Dickicht schlagen müsse, und von der quellenarmen Zeit, die er behandelt. Im ersten Moment scheint die Lektüre wieder recht deprimierend, wenn auch weniger dramatisch als im Fall des antiken Griechenlands in ähnlicher Zersplitterungs- und Niedergangssituation – beim Frankenreich erscheint dies eher als der Normalfall, zu dem das Reich nach der Hochblüte unter Karl dem Großen zurückkehrte.

Zur Verwirrung in dieser Zeit tragen einerseits die vielen verschiedenen Herrscher bei, die aber nur wenige verschiedene Namen tragen: im Wesentlichen handelt es sich um Ludwig, Lothar, Karl und Pippin. Einige von ihnen tragen Ordnungszahlen, die aber nur innerhalb ihrer Teilreiche stringent verwendet werden, andere tragen Beinamen, die ihnen oft erst in der späteren Geschichtsschreibung verliehen wurden – wie komplex muss die Quellenlektüre sein. Durch einen abgedruckten Stammbaum der Nachfahren Karls des Großen erhellt Schulze das Geflecht etwas, aber die Verwandtschaftsverhältnisse, die entstehenden und vergehenden Bündnisse bleiben kompliziert. Es sind viele unterschiedlich starke Herrscher am Werk, manche mit unglücklich kurzen Regierungszeiten, andere mit schwacher Startstellung nach einer Reichsteilung. Häufig wird nach der Kaiserwürde gegriffen, die aber stets als höchstes, unteilbares Gut aufgefasst wird. Sie verliert aber realpolitisch schon in der Enkelgeneration Karls des Großen an Glanz und wird schließlich zum Spielball italienischer Adliger. Innerhalb des (idealbildlich als einig vorgestellten) Frankenreichs entstehen binnen einiger Jahrzehnte klar abgegrenzte Königreiche, die sich gegenseitig die Einmischung verbeten. Die lokalen Adligen werden stärker, die Königsmacht schwächer, phasenweise bestimmen die Adligen, wer zum König erhoben wird, etwa wenn ein König abgesetzt und aus einem benachbarten Reichsteil ein neuer Herrscher herbeigerufen wird. Eine Frühform dieser Entwicklung sind die Straßburger Eide (die auch eine Frühform der deutschen und der französischen Sprachentwicklung markieren), da Karl der Kahle und Ludwig der Deutsche vor ihren Heeren die Loyalität zum geschlossenen Bündnis miteinander schwören und ihre Heere als Zeugen anrufen – sie sind in ihrer Machtstellung auf den Rückhalt ihrer Heere zwingend angewiesen.

Der letzte Herrscher über das gesamte Fränkische Reich war durch dynastische Zufälle Karl der Dicke, der aber mangels Durchsetzungskraft bald abgesetzt wurde. Danach ist der bedeutendste der Teilherrscher Arnulf von Kärnten, der mir bisher als einer von vielen Diadochen vorkam, aber tatsächlich eine sehr bedeutsame Stellung innehatte. Er war ein illegitimer Nachkomme der Karoliner, aber konnte diesen Makel durch seine Machtpolitik ausgleichen. Er war klug genug, nicht nach allen Teilreichen zu greifen, sondern konzentrierte sich auf das Ostfränkische Reich und das Kaisertum. Nach seinem frühen Tod bleibt in Ostfranken nur noch Ludwig das Kind als letzter Karolinger, der sich aufgrund seiner Jugend tatsächlich nicht mehr durchsetzen konnte. Nach seinem frühen Tod war das Auseinanderdriften der Teilreiche so weit gediehen, dass die ostfränkischen Adligen aus ihrer Mitte neue Könige wählten und keine Karolinger mehr aus Westfranken herbeiriefen. Über Konrad I. ging dann die Herrschaft auf die Ottonen über.

In seinem letzten Abschnitt geht Schulze schließlich auf die vielgestaltigen äußeren Bedrohungen ein, die das gesamte Frankenreich im 9. Jahrhundert bedrohten; die inneren Bedrohungen durch Teilungen, Nachfolgekämpfe und dergleichen wurden bereits ausgiebig dargestellt. Dazu zählen die Wikingerzüge durch ganz Europa bis nach Bagdad, die sich seltsam ambivalent zwischen Handel und Plünderung befinden. Dazu zählen die Sarazenenzüge durch das gesamte Mittelmeer. Dazu zählen schließlich auch die Ungarneinfälle, die besonders für das Ostfränkische Reich gefährlich waren. Ursprünglich waren die Ungarn von Arnulf von Kärnten als Kriegshilfe gegen die Mähren herbeigerufen worden, sie waren aber nach Arnulfs Tod nicht mehr zu bändigen. Die Kämpfe in den Grenzmarken wurden heftiger und erreichten in der hier behandelten Zeit nicht einmal ihren Höhepunkt. Die Bedrohungen kamen von allen Seiten auf das Fränkische Reich zu, auch weil offenbar wurde, dass das Gesamtreich zu groß und zu schwach geworden war, um ihnen standzuhalten.

Die spätkarolingische Zeit war eine Zeit der Übergangs, einerseits mit dem Verfall der kulturellen Errungenschaften Karls des Großen, andererseits aber auch als Ausgangspunkt für die ausgebildete Identität der heute noch vorhandenen Volksgruppen in Westmitteleuropa. Von hier stammen die ältesten sprachlichen Zeugnisse, der Aufstieg des Adels und seine Machtposition nahm hier ihren (bei den damaligen Verwaltungsverhältnissen wohl unvermeidbaren) Anfang. Die Fliehkräfte in der spätkarolingischen Zeit waren so stark geworden, dass wohl auch ein charismatischer Herrscher wie Karl der Große dem wenig hätte entgegensetzen können.

Schulzes Darstellung ist eine sehr klassische Geschichtsschreibung mit weitem Blick und vielen neuen Erkenntnissen. Sie ist stilistisch hervorragend und weitet gleichzeitig den Horizont in Bezug auf die diversen Ursachen für die später vorhandenen mittelalterlichen Strukturen. Selbst die chaotische Endphase kann er stringent und klar darstellen, den meisten anderen Überblicksdarstellungen gelingt insoweit kaum, dass am Ende dennoch ein „blinder Fleck“ bleibt. Insgesamt handelt es sich um eines der Highlights in der Reihe des Siedler-Verlags.

United States of America

Auf der Suche nach einer lesbaren und modernen Geschichte der USA bin ich beim Buch von Bernd Stöver hängen geblieben, das geeigneterweise nur „United States of America“ heißt, mit dem Untertitel „Geschichte und Kultur“. Es hat den Anspruch einer histoire totale, nicht nur mit dem Blick auf politische Entwicklungen und den Verlauf von Jahreszahlen, sondern auch auf die Gesellschaft, Kunst und alle anderen relevanten Aspekte des Landes zu schauen. Diesem Anspruch wird das Buch auch überwiegend gerecht, wobei eine vollständig umfassende Darstellung in einem Band gar nicht zu leisten ist.

Über weite Strecken hat Stöver eine sehr annalistische Sichtweise, er behandelt alle Ereignisse in ihrem Zeitverlauf. Gelegentlich sind Kapitel eingeschoben, in denen er die übergreifenden Themen geschlossen behandelt, etwa die Außenpolitik bis zum ersten Weltkrieg oder die weltweiten Einflüsse der amerikanischen Kultur. Das Buch beginnt bei der Ankunft der ersten europäischen Siedler und endet mit der Wiederwahl Obamas, das heißt de facto mit der Gegenwart bei Abfassung des Textes. Stövers erklärtes Leitmotiv ist der amerikanische Traum – damit beginnt und endet sein eigentlicher Text. Allerdings ist im Verlauf des Buchs wenig von diesem Leitmotiv die Rede, es dient nicht wirklich als roter Faden. Die Funktion des Leitmotivs übernehmen eher die Grundgedanken aus der Kolonialzeit, die Grundideen der Siedler und die Strukturen, in denen sie lebten – auf diesen Komplex wird in hoher Regelmäßigkeit während des gesamten Buchs zurückgeschaut.

Im Fokus der ersten Abschnitte stehen die europäischen Siedler auf dem Gebiet der heutigen USA, insbesondere die Bewohner der 13 englischen Kolonien. Indianerkulturen spielen in der Erzählung praktisch keine Rolle, abgesehen von ihrer Interaktion mit den Europäern. Nach dem Aufbau der Kolonien und der Etablierung ihrer staatlichen Strukturen kommt es zum Unabhängigkeitskrieg, der bei Stöver seinen Endpunkt erst 1815 findet – eine für mich ungewöhnliche Betrachtung, die Stöver aber überzeugend begründet: erst nach dem Ende des Kriegs gegen England 1815 ist die äußere Bedrohung der jungen USA beendet, erst dann hat England die Unabhängigkeit seiner früheren Kolonien anerkannt und nicht mehr in Frage gestellt.

Anschließend werden die inneren Widersprüche herausgearbeitet, die sich besonders zwischen den Nord- und den Südstaaten schon vor der Unabhängigkeit gezeigt hatten. Sie münden in der Sezession und damit im amerikanischen Bürgerkrieg, der relativ ausführlich dargestellt wird. In die Zeit der Rekonstruktion nach dem Bürgerkrieg fallen auch die Indianerkriege und der „Wilde Westen“, die von Stöver beide vollständig von aller Romantisierung befreit werden – zumal die Behandlung der amerikanischen Ureinwohner wird ausführlich als grausame Vernichtung dargestellt, die nicht das geringste mit der Darstellung in älterer Trivialliteratur oder romantisierenden Filmen zu tun hat. Die Jagd auf die großen Büffelherden in der Prärie hatte beispielsweise ihre Ursache nicht in der Verpflegung der weißen Bevölkerung, sondern sollte nur der Zerstörung der Lebensgrundlage der Indianer dienen. Diese Abschnitte in Stövers Buch sind für den Erkenntnisgewinn ungeheuer wichtig; über die schlechte Behandlung der ehemaligen Sklaven ist vieles bekannt, über die Indianer war mein Wissen deutlich diffuser. Ähnliches gilt für den „Wilden Westen“, der vorwiegend aus Filmen bekannt ist und dessen Bild Stöver ebenfalls deutlich zurecht rückt: einige der bekannten Figuren sind auch damals eher Showstars und gute Selbstdarsteller gewesen, keine wirklichen Outlaws. Allerdings gab es natürlich auch echte Kriminelle, zu denen Stöver eine kompakte Beschreibung gibt, woher die Namen tatsächlich bekannt sind.

Über das sehr lang andauernde „vergoldete Zeitalter“ („gilded age“) bis zum Ersten Weltkrieg verliert Stöver relativ wenig Worte. Einerseits ist es tatsächlich eine Zeit der politischen Windstille, die in den späteren Abschnitten über die Außenpolitik und Gesellschaftsordnung noch beleuchtet wird, andererseits bricht in der Darstellung der Erste Weltkrieg geradezu unvermittelt und plötzlich aus, während man sich gedanklich noch in der Phase kurz nach dem Bürgerkrieg zu befinden glaubt.

In Bezug auf die Außenpolitik folgt Stöver der Gewichtung, die die USA tatsächlich in der Welt hatten – zunächst gab es keine bedeutsame Außenpolitik, da die USA sich erst konstituieren mussten. Die Monroe-Doktrin und ihre Bedeutung werden fachmännisch abgehandelt, aber die daraus folgende Interventionspolitik in Mittelamerika bleibt im Buch recht intransparent, obwohl gerade das spannend gewesen wäre. Tatsächlich fühlt die Darstellung sich eher nach einer Aufzählung der Kolonien und Militärinterventionen der USA an, ohne dass ein wirklicher Gesamtzusammenhang entsteht. Im Ersten Weltkrieg schließlich spielen Wilsons 14 Punkte eine große Rolle, bevor die USA wieder in den Isolationismus mit Bezug auf Europa zurückkehren. Tatsächlich sucht Stöver nach den Ursachen für diesen Isolationismus in der Bevölkerung (wo er tief verwurzelt war, je weiter von den Küsten entfernt, desto mehr); diese Passage ist wieder außergewöhnlich interessant und könnte in ihrer Thematik ebenfalls als Leitmotiv des Buchs dienen (wenn es nicht ein zu spezielles Thema für das viel umfassendere Konzept des Buchs wäre; der „amerikanische Traum“ war sicher das bessere Schlagwort, aus dem Stöver – wie beschrieben – wenig macht). Im Zweiten Weltkrieg und im Kalten Krieg spielt der Isolationismus überhaupt keine Rolle mehr, es wird praktisch von niemandem mehr hinterfragt, dass die USA eine Führungs- und Gestaltungsrolle in der Weltpolitik suchen und annehmen wollen. Hierfür sieht Stöver die Ursache auch in einer starken moralischen Aufladung, die aus der Sicht der US-Bevölkerung den eigenen Einsatz nicht einfach bedeutsam macht, sondern eben auch „wichtig“ und „gut“, nämlich indem es sich um einen „good war“ handelt, bei dem für die „gute Sache“ gekämpft wird. Seit dem Ende des Kalten Kriegs schlägt dieses Pendel wieder zurück, nicht nur aus Kostengründen, sondern auch weil der große Gegenspieler für die Rechtfertigung dieser Einsätze fehlt.

In den Kapiteln über die Gesellschaftsgeschichte kommen alle bunten Themen zur Sprache. Kunst, Kultur, Wirtschaftsimperien, die Verbreitung der amerikanischen Kultur über die Welt und ihr weltweiter Vorbildcharakter. Durchaus interessante Schlaglichter, die in vielen Fällen neue Erkenntnisse bringen, die aber in ihrer Gesamtschau wenig bemerkenswert bleiben. Zu einer histoire totale gehören sie natürlich dazu, sind aber hier in ihrer Gewichtung eher unterrepräsentiert.

Die Angst vor dem Kommunismus beschreibt Stöver schon für die Zwischenkriegszeit, die aber im Zweiten Weltkrieg selbst keine Rolle mehr spielt. Diesem Weltkrieg räumt Stöver einen sehr großen Platz ein, für die 4 Kriegsjahre der USA fast gleich viele Seiten wie für die 45 anschließenden Jahre des Kalten Kriegs. Hier spielt sicher die europäische Sicht der Dinge eine Rolle, die der Autor einnimmt. Dabei wäre die Betrachtung des Kalten Kriegs deutlich interessanter gewesen. Hier beschreibt Stöver gerade solch spannende Themen wie die Ambivalenz zwischen Hysterie und Begeisterung für die Atomkraft, oder gibt einen kompakten Abriss des Vietnamkriegs. Andererseits fehlt auch vieles: die knappe Darstellung der McCarthy-Ära ist das einzige bisschen Innenpolitik der Nachkriegszeit; Kennedy wird nur am Rande erwähnt, seine Ermordung und der Tod von Martin Luther King spielen für die Erzählung gar keine Rolle (sie werden nur in komplett anderem Sinnzusammenhang erwähnt, nämlich in einem Abschnitt über den Einfluss der Zeitungen auf die Gesellschaft – es wirkt als wären im Lektorat größere Sinnabschnitte gestrichen, zusammengefasst und verschoben worden), das Impeachment gegen Nixon und sein Rücktritt werden nur erwähnt, die Zusammenhänge der Watergate-Affäre selbst kommt überhaupt nicht vor. Und erst bei der Reflektion über diese fehlenden Aspekte der Innenpolitik ist mir aufgefallen, dass die Kubakrise gar nicht erst erwähnt wird. Spätestens das lässt über die Gewichtung und die Themenauswahl in diesen Passagen des Buchs viel Verwunderung zurück.

Je aktueller die behandelten Epochen werden, desto ambivalenter wird das Lesen. Einerseits ist es spannend, die erlebte Zeit zusammengefasst und in der Rückschau betrachtet zu finden (erst wenige historische Texte behandeln die Zeit nach 1990), andererseits wird auch offenkundig, dass die Zeit noch nicht überblickt wird und man einfach noch keinen abschließenden Punkt für die Aufnahme einer Bewertung gefunden hat. Tatsächlich erscheinen mir die Bewertungen eine Art von Bias zu haben, wie ich ihn in Kommentaren erwarten würde, aber nicht in einem historischen Überblickswerk wie diesem. So wird der Begriff „Doktrin“ inflationär verwendet: in älteren und gut verstandenen Epochen gibt es ihn im Zusammenhang mit den Namen Monroe und Truman, höchstens noch in ironischer Brechung mit Sinatra („I did it my way“ am Ende des Kommunismus). Danach wird er auch für Carter, Bush, sogar für Cheney verwendet, wobei ich erwarten würde, dass der Name Cheney tendenziell in Vergessenheit geraten wird – ihn mit einer Doktrin aufzuladen scheint mir eher das Symptom eines noch nicht erfolgten umfassenden historischen Überblicks über die jüngste Vergangenheit zu sein. Möglicherweise werde ich aber (nach Definition) nicht mehr erfahren, dass ich mit dieser Einschätzung falsch liege.

Stövers Stil ist sehr gut lesbar, das Thema ist fesselnd und interessant, besonders die Anfänge. Aber die schon angesprochene Themenauswahl ist eigenartig, wenn auch vielleicht durch die Begrenzung auf einen Band bedingt. Überhaupt gibt es wenig Innenpolitik, weniger als ich im Vorfeld erwartet hatte. Die Gesellschaftsthemen sind durchaus spannend, ganz besonders der unverstellte Blick auf die Indianerkriege und die damit zusammenhängende Expansion nach Westen. So entsteht eine interessante und relevante Gesamtschau, die aber häufig wie ein Fragment wirkt und die europäische Brille des Autors nicht ablegt. Einige Themen werden an der erwarteten Stelle im Text ausgespart, aber später in der Rückschau referenziert, ohne dass es tiefere Zusammenhänge gäbe (vielleicht haben bei der Redaktion wirklich deutliche Kürzungen des Originaltexts stattgefunden), ein Beispiel ist das Elektorensystem im Präsidentschafts-Wahlrecht. Auf der positiven Seite gibt es in Stövers Text keine klassischen Heldengeschichten oder ein stures Abarbeiten der Abfolge der US-Präsidenten (wie das in manchen US-Darstellungen der Fall ist). Insgesamt ist der beste Effekt erreicht: meine Neugier nach mehr Details ist in einigen Themen geweckt.

Das Halstuch

Der Kriminalfilm „Das Halstuch“ aus der Feder von Francis Durbridge gilt als der größte Straßenfeger der deutschen Fernsehgeschichte. Bei ihrer Erstausstrahlung 1962 erzielten die sechs Teile, jeder mit einer Länge von knapp über 30 Minuten, eine Einschaltquote von über 90%. Solche Zahlen sind bei der heutigen Konkurrenz im Fernseh- und sonstigen Medien-Angebot inzwischen unvorstellbar, auch gab es damals beträchtlich weniger Fernsehgeräte als heute. Aber auch wenn man diesen Effekt berücksichtigt, hat dieser klassische Durbridge-Krimi Maßstäbe gesetzt: das öffentliche Leben kam während der Ausstrahlung zum Erliegen, bis hin zur vorzeitigen Vertagung von Parlamentsdebatten und der Schließung von Nachtschichten in Produktionsbetrieben.

Am Vortag der Ausstrahlung des letzten Teils, bevor der Mord aufgelöst wurde, erschien in einer Berliner Tageszeitung eine Anzeige, in der der Mörder verraten wurde – es sollte Werbung für einen (schließlich gefloppten) Kinofilm sein: „Ratschlag für morgen (Mittwoch abend): Nicht zu Hause bleiben, denn was soll’s: Der Halstuchmörder ist Dieter Borsche …… Also: Mittwoch abend ins Kino! Ein Kinofan (Genosse Münchhausen)“. Für dessen Produzenten Wolfgang Neuss, der die Annonce aufgegeben hatte, geriet sie aber zum Spießrutenlauf. Da er so vielen Zuschauern den Spaß an der Mörderjagd genommen hatte, wurde er von der Bild-Zeitung sogar zum Verräter erklärt und erhielt selbst Morddrohungen. Er behauptete, nur richtig geraten zu haben, aber da er in seiner Annonce den Namen des Schauspielers und nicht den Rollennamen genannt hatte, ist nicht auszuschließen, dass er über persönliche Kontakte davon erfahren hatte (die Ehefrau des Schauspielers besuchte den gleichen Pediküresalon wie die Mutter des Filmproduzenten). Aber selbst unabhängig davon war es durchaus ein Zeichen der damaligen Kabarettszene, dem Bürgertum den Spiegel vorzuhalten und seinen Spaß mit ihm zu treiben – wie es durch eine verdorbenes Ratespiel eben der Fall war.

Ich selbst bin eher zufällig über diese Krimireihe gestolpert, und da ich die Schauspieler alle nicht per Namen kannte, konnte ich tatsächlich selbst mitraten. Ich kannte die Erzählung von den leeren Theatern und Kinosälen während der Erstausstrahlung und ich hatte auch vom Skandal um die Zeitungsannonce gehört, aber den Krimi selbst kannte ich nicht. In einem kleinen Marathon habe ich mir diese Folgen aus reiner Neugier und leichter Suche nach altmodischem Trash angeschaut. Ich bin sehr positiv überascht worden. Es handelt sich um eine handwerklich wirklich ordentliche Krimierzählung: viele Verdächtige, unterschiedliche Mordmotive, komplexe Zusammenhänge, eine interessante Kommissar-Figur, die ohne viel Schnickschnack wie in manchem modernem Krimi auskommt, aber dennoch ein mehrdimensionaler Charakter ist. Tatsächlich nimmt sich das Drehbuch eine Menge Zeit, um Charaktere zu entwerfen, ihnen eine Hintergrundgeschichte und somit der Handlung eine ausreichende Tiefe zu geben. Die Action und die Dialoge wirken tatsächlich recht holprig, sie sind nicht übertrieben gut gealtert. Das Gesamtwerk ist aber immer noch gut anschaubar und lebt auch von seinem starken Schauspiel-Ensemble.

Jede der Folgen endet mit einem Cliffhanger, der Mörder ist bis kurz vor dem Ende unklar und es gibt viele red herrings, falsche Hinweise, die im Sande verlaufen. Die Auflösung ist am Ende durchaus logisch und folgerichtig (jedenfalls dann, wenn man die Reihe nur ein einziges Mal gesehen hat – wenn ich es noch einmal mit dem entsprechenden Hintergrundwissen anschauen sollte, fallen mir möglicherweise größere Lücken im Logik-Gebilde auf), und sie liegt nicht wirklich auf der Hand. Allerdings erfordern manche Passagen in der Handlung im Rückblick einen gewissen leap of faith, nicht alles ist vollkommen wasserdicht. Durbridge selbst soll dazu erklärt haben, für solche Analysen sei der Krimi nicht gemacht.

Bemerkenswert ist die Aufnahmetechnik, schon beim ersten Hinschauen sind mir die außergewöhnlich langen Takes aufgefallen, die das Ganze streckenweise wie ein Kammerspiel am Theater wirken lassen. Das ist dadurch bedingt, dass alle Folgen jeweils am Stück abgedreht wurden, da aufgrund der Aufnahme auf Magnetbänder ein Schnitt wie mit herkömmlichem Film unmöglich war (der Wechsel zwischen verschiedenen Kameras war durch ein direktes Umschalten auf das laufende Band jedoch machbar). Die Außenproduktionen wurden nachträglich eingespielt. Dies muss noch viel ausführlichere Proben erfordert haben als das ohnehin schon beim Film der Fall ist und es bestraft kleine Fehler beim Dreh noch härter als sonst. Bemerkbar wird das an einzelnen wenigen Stellen, als Personen mit einem falschen Rollennamen angesprochen werden (ein Versehen des jeweiligen Schauspielers, das aber den ansonsten einwandfreien Take nicht entwerten sollte) oder als die Kamera offenbar über eine Teppichkante oder ein Kabel ruckelt. Vor diesem Hintergrund ist die Arbeit des gesamten Teams umso höher zu bewerten, da auch komplexe Kamerafahrten durch mehrere Sets hinweg reibungslos aussehen. Der eigentliche Grund, warum man sich solche Schwierigkeiten aufgebürdet hat, ist mir jedoch unklar geblieben – solche Probleme gibt es beim Dreh auf üblichem Film nicht.

Insgesamt bedient Das Halstuch aus heutiger Sicht das Nostalgie-Feeling, es ist zwar kein im engeren Sinne zeitgemäßer Krimi aber lädt mit seiner komplexen und durchaus spannenden Handlung auch heute noch zum Anschauen ein.

Sprachen und was darüber gesagt werden kann

Durch Zufall bin ich diesen Sommer in der Buchhandlung über das Buch „Sprachen“ von Gaston Dorren gestolpert. Ein kleiner Reiseführer zu den Sprachen Europas, in dem insgesamt 67 Sprachen jeweils auf wenigen Seiten behandelt werden. Darunter sind die großen Sprachen nicht ausführlicher behandelt als die kleinen und vom Aussterben bedrohten. Jede erhält ein wenig Raum, in dem ihre Besonderheiten, Eigenheiten, ihre Geschichte oder ihre Bedeutung vorgestellt werden. Am Ende jedes Abschnitts gibt es eine kurze Liste von Lehnwörtern, die das Deutsche aus dieser Sprache übernommen hat, und ein Wort, das dem Deutschen noch fehlt. Eine wirklich hübsche Zusammenstellung mit vielen kleinen Einheiten von unnützem Wissen. Manchmal sind die einzelnen Sprachen nur der Aufhänger für Phänomene in größeren Familien, sodass man nicht immer etwas über die konkrete Sprache erfährt. Das tut dem Genuss aber keinen Abbruch.

Unter den vielen kleinen Informationen, die in der großen Zeit der Quizshows problemlos für höhere Gewinnbeträge ausgereicht hätten, seien nur erwähnt: dass das Finnische zwar viele Worte für „Schnee“ haben mag (wie die urban legend es auch für die Sprachen der Inuit postuliert), das Deutsche aber auch zwanglos sehr viele Worte für „Regen“ kennt; dass das Monegassische auf Initiative eines heimatverbundenen Geistlichen im Schulunterricht in Monaco verwendet wird – und nur dort (nicht von den offiziellen Institutionen, nicht im Radio, praktisch nicht in der Literatur); dass das Polnische eine der konsequentesten Sprachen ist, wenn es um ihre Transkription in Buchstaben geht (wenn es auch überhaupt nicht so aussieht) – deutlich konsequenter als Deutsch und Englisch.

 

Das Buch befasst sich ausschließlich mit den (noch) lebenden Sprachen Europas. Von Latein ist keine Rede. Ein vergleichbar hübsches Buch, das sich nur auf die Geschichte und Geschichten rund um die lateinische Sprache kapriziert, ist „Latein ist tot, es lebe Latein“ von Wilfried Stroh, das ich bereits vor einigen Jahren in den Händen hatte. In diesem Kontext ist es eine schöne Ergänzung zu Dorrens Buch. Seine Hauptthese ist, dass die lateinische Sprache nicht erst seit dem Ende des römischen Reichs eine tote Sprache war, sondern schon um die Zeitenwende faktisch gestorben ist, jedenfalls als gesprochenes klassisches Latein. Um die, auch noch heute so genannte, „goldene Latinität“ zu bewahren, das Latein von Cicero, Caesar, Sallust oder Vergil, wurde diese Schriftsprache gewissermaßen eingefroren, konserviert, da man sie für einen unübertreffbaren ästhetischen Höhepunkt hielt. Die späteren Autoren wurden bereits als stilistischer und sprachlicher Verfall empfunden, und die gesprochene Sprache entwickelte sich mit den Jahren immer weiter von diesem Idealbild fort. Schließlich wurden aus dem klassischen Latein die heutigen romanischen Sprachen wie Französisch, Spanisch und Italienisch (wenn der Übergang auch schleichend war: noch Dante sagte, er schreibe seine Verse in lateinischer Sprache).

Tatsächlich stellt die „goldene Latinität“ einen sprachlichen Höhepunkt dar, dem meiner Erfahrung nach die so genannte „silberne Latinität“ kaum nachsteht (wenn meine Übersetzungskenntnisse auch auf wenig brillantem schulischem Niveau stehen geblieben sind). Diese Phase wurde die gesamte Antike und bis in die Neuzeit hinein imitiert und als Vorbild festgehalten, so ist die Einhard-Biographie über Karl den Großen in einem makellos gedrechselten Latein verfasst. Das Auseinanderdriften von klassischem Idealbild und natürlicher Sprachentwicklung schlägt sich, abhängig von der Kunst der Autoren und ihrer Treue zum Vorbild, in den Abweichungen nieder, sowohl grammatikalisch, als auch lexikalisch oder in der Rhythmik (vgl. den Quantitätenkollaps).

Es ist aber auch offensichtlich, dass die hoch geschätzten Autoren wie Cicero nicht exakt so gesprochen haben wie sie schrieben – die hohe Literatur ist immer auch eine Kunstform gewesen, die sich von der gesprochenen Sprache unterscheidet. Sicher war das Sprachniveau Ciceros ein anderes als das der Soldaten Caesars, aber dass die lateinische Aussprache sich schon damals von der Schriftform entfernte, wird schon bei Catull (carmen 84, „hinsidias“) deutlich, wie auch einige Jahrzehnte später an den pompeijanischen Graffiti oder an der Cena Trimalchionis, die das Vulgärlatein für uns eingefangen haben.

 

Eine schöne Videoreihe zur Auffrischung meiner Lateinkenntnisse habe ich letztens bei youtube gefunden, sie ist aber auch in der Mediathek des bayrischen Rundfunks verfügbar.

Eigentlich eine Art Telekolleg-Kurs, zu dem es bei seiner Entstehung offenbar auch Begleitmaterial gab, der aus heutiger Sicht etwas hölzern wirkt und doch sehr stringent und kompakt die Eigenheiten der lateinischen Grammatik und Satzlehre offenlegt. Ohne Vorkenntnisse wird man während des ersten Grundkurses wohl sehr schnell abgehängt, ich konnte aber mit meinen verbliebenen Schulkenntnissen gut folgen. Nach drei Grundkursen mit jeweils 13 Videos ist die Grammatik für alle wesentlichen Zwecke vollständig erklärt. Im Aufbaukurs, der wieder aus 13 Videos besteht, werden jeweils kurze in sich abgeschlossene Texte aus der Mythologie übersetzt. Den Abschluss der Reihe bildet ein Übersetzungskurs mit kurzen Abschnitten und den zugehörigen grammatikalischen Analysen aus den bekannten Originaltexten, etwa Caesars Gallischer Krieg. Eine wirklich schöne Gelegenheit, die alten Kenntnisse zu reaktivieren.

 

Abschließend sei noch ein schöner youtube-Kanal erwähnt, der sich ebenfalls mit Sprachen und ihrer Entwicklung befasst. Der nativelang-Kanal hat wunderbare kleine Videos über alle Sprachen der Welt, darunter auch über die klassische Aussprache des Lateinischen (und woher wir darüber wissen können), oder, sehr sehenswert, über die Aussprache des Shakespeare-Englisch.

Daneben viele weitere, der Kanal ist nach wie vor aktiv und bleibt hochinteressant.

The Theorems of Schauder and Peano

In the text on Brouwer’s Fixed Point Theorem, I had confidently stated that Schauder’s Theorem follows from it with less effort and that one may easily conclude things like Peano’s Theorem from there. As a matter of fact, things lie considerably deeper than I had naively thought. If sound proofs are to be given, there is technical work to be done in many instances. The ideas are not tough themselves, but the sheer number of steps to be taken and the methodological machinery cannot be neglected. Let’s see.

We shall follow the lines of Heuser’s books (both this one and this one), as we did before, to collect the ingredients to give a proof of Schauder’s Fixed Point Theorem. It involves a statement about convex sets, on which we will focus first, followed by an excursion on approximation in normed vector spaces. We shall also need the theorem named after Arzelà and Ascoli, being a basic glimpse into the ways of thinking of functional analysis. All of this will allow us to prove Schauder’s Theorem in a rather strong flavour. For the conclusion, we split our path: we give both Heuser’s treatment of Peano’s Theorem in the spirit of functional analysis and Walter’s more elementary approach (which, however, also makes use of the Theorem of Arzelà-Ascoli).

 

Remember that a set K is called convex, if for any x,y\in K and for any \alpha\in[0,1], we have \alpha x + (1-\alpha)y\in K. This formalizes the intuition that the line connecting x and y be contained in K as well.

 

Lemma (on convex sets): Let E be a normed space and let x_1,\ldots,x_n\in E. Let

\displaystyle\mathrm{conv}(x_1,\ldots,x_n) = \bigcap_{\substack{K\subset E~\mathrm{ convex}\\\{x_1,\ldots,x_n\}\subset K}} K

the convex hull. Then,

\displaystyle \mathrm{conv}(x_1,\ldots,x_n) = \left\{v\in E\colon v=\sum_{i=1}^n\lambda_ix_i\text{ with }\sum_{i=1}^n\lambda_i=1; \lambda_i\geq0\right\},\qquad(\diamondsuit)

and \mathrm{conv}(x_1,\ldots,x_n) is compact.

 

Proof: Let us first prove the representation of the convex hull. For the “\subset“-direction, we will show that the set on the right-hand side of (\diamondsuit) is convex. Let x = \sum_{i=1}^n\lambda_ix_i and y=\sum_{i=1}^n\mu_ix_i, with \sum\lambda_i=\sum\mu_i=1. Let \alpha\in[0,1], then

\displaystyle \alpha x + (1-\alpha)y = \sum_{i=1}^n\bigl(\alpha\lambda_i+(1-\alpha)\mu_i\bigr)x_i,

where \sum_{i=1}^n\bigl(\alpha\lambda_i+(1-\alpha)\mu_i\bigr) = \alpha+(1-\alpha) = 1. Hence, \alpha x+(1-\alpha)y is part of the set on the right-hand side of (\diamondsuit) .

We now turn to the “\supset“-direction. Let y_1,\ldots, y_m\in\mathrm{conv}(x_1,\ldots,x_n). We show that \sum_{j=1}^m\mu_jy_j\in\mathrm{conv}(x_1,\ldots,x_m) if \sum_{j=1}^m\mu_j = 1. That means any point that as a representation as in the right-hand side of (\diamondsuit) must be in \mathrm{conv}(x_1,\ldots,x_n). This is clear for m=1. For m>1, we take C:=\sum_{j=1}^{m-1}\mu_j to see

\displaystyle    \begin{aligned}    \sum_{j=1}^m\mu_jy_j &= \sum_{j=1}^{m-1}\mu_jy_j + \mu_my_m\\    &= C\sum_{j=1}^{m-1}\frac{\mu_j}{C}y_j + \mu_my_m\\    &= C\sum_{j=1}^{m-1}\tilde\mu_j y_j + (1-C)y_m.    \end{aligned}

Note that \mu_m = \sum_{j=1}^m\mu_j - \sum_{j=1}^{m-1}\mu_j = 1-C. By induction,

\displaystyle \sum_{j=1}^{m-1}\tilde\mu_jy_j\in\mathrm{conv}(x_1,\ldots,x_n),

since \sum_{j=1}^{m-1}\tilde\mu_j = \frac1C\sum_{j=1}^{m-1}\mu_j = 1. Hence,

\displaystyle\sum_{j=1}^m\mu_jy_j\in\mathrm{conv}(x_1,\ldots,x_n).

Finally, we shall prove compactness. Let (y_k)_k\subset\mathrm{conv}(x_1,\ldots,x_n), with a representation y_k = \sum_{i=1}^n\lambda_i^{(k)}x_i. The sequences (\lambda_i^{(k)})_k are bounded by [0,1] and hence have convergent subsequences. Choosing subsequences n times (for each i=1,\ldots,n), we find a subsequence (\lambda_i^{(k_\ell)})_\ell that converges to some \lambda_i for each i=1,\ldots,n. Besides,

\displaystyle\sum_{i=1}^n\lambda_i = \sum_{i=1}^n\lim_{\ell\to\infty}\lambda_i^{(k_\ell)} = \lim_{\ell\to\infty}1 = 1.

This yields

\displaystyle\lim_{\ell\to\infty}y_{k_\ell} = \lim_{\ell\to\infty}\sum_{j=1}^n\lambda_j^{(k_\ell)}x_j = \sum_{j=1}^n\lambda_jx_j\in\mathrm{conv}(x_1,\ldots,x_n).

q.e.d.

 

We will now prove a result that extends Brouwer’s Fixed Point Theorem to a more general setting. This is the one that I had skimmed earlier, believing it consisted only of standard arguments; in principle, this is true. But let’s have a closer look at it and how these standard arguments work together.

 

Theorem (on fixed points in real convex sets): Let \emptyset\neq K\subset\mathbb{R}^p be convex, compact, and let f:K\to K be continuous. Then f has a fixed point.

Proof: 0th step. As K is compact, it is bounded and thus there is some r>0 such that K\subset B_r(0).

1st step. Let us construct the best approximation of some x\in B_r(0) within K; that means we look for a z\in K with \left|x-z\right| = \inf_{y\in K}\left|x-y\right|.

Taking \gamma:=\inf_{y\in K}\left|x-y\right|, there is a sequence (z_n)_n\subset K with \lim_{n\to\infty}\left|x-z_n\right| = \gamma.

We wish to prove that (z_n)_n is a Cauchy sequence. From the basic properties of any scalar product, we find

\displaystyle    \begin{aligned}    \left|u+v\right|^2+\left|u-v\right|^2 &= \left\langle u+v,u+v\right\rangle + \left\langle u-v,u-v\right\rangle \\    &= \left|u\right|^2 + \left|v\right|^2 + 2\left\langle u,v\right\rangle + \left|u\right|^2 + \left|v\right|^2 - 2\left\langle u,v\right\rangle \\    &= 2 \left|u\right|^2 + 2 \left|v\right|^2.    \end{aligned}

In our case, this shows

\displaystyle    \begin{aligned}    \left|z_n-z_m\right|^2 &= \left|(z_n-x)-(z_m-x)\right|^2 \\    &= 2\left|z_n-x\right|^2 + 2\left|z_m-x\right|^2- \left|(z_m+z_n)-2x\right|^2 \\    &= 2\left|z_n-x\right|^2 + 2\left|z_m-x\right|^2 - 4\left|\frac{z_m+z_n}2-x\right|^2.    \end{aligned}

Since K is convex, \frac12z_n+\frac12z_m\in K. Therefore,

\displaystyle\left|\frac{z_m+z_n}2-x\right|\geq\gamma.

Thus,

\displaystyle    \begin{aligned}    \lim_{n,m\to\infty}\left|z_n-z_m\right|^2&\leq 2\lim_{n\to\infty}\left|z_n-x\right|^2 + 2\lim_{m\to\infty}\left|z_m-x\right|^2 - 4\gamma^2 \\    &= 2\gamma^2+2\gamma^2-4\gamma^2 = 0.    \end{aligned}

Therefore, (z_n)_n is a Cauchy sequence, having a limit y, say. As K is closed, y\in K. In total, we have seen (noting that the absolute value is continuous)

\displaystyle\gamma = \lim_{n\to\infty}\left|z_n-x\right| = \left|y-x\right|.

y is the best approximation to x within K.

2nd step. The best approximation is unique.

If there were two of them, u and V, say, then \left|x-u\right| = \left|x-v\right| = \gamma. If we consider the sequence (z_n)_n that alternates between u and V, we’d find \left|x-z_n\right| = \gamma for all n, and hence (z_n)_n is a Cauchy sequence by what we found in step 1. Therefore z_n must be convergent, which implies u=v.

3rd step. The mapping A:B_r(0) \to K that takes x to its best approximation, is continuous.

Let (x_n)_n\subset B_r(0) with \lim_{n\to\infty}x_n =: x. Let \varepsilon>0. For sufficiently large n, we have

\displaystyle \gamma_n :=\inf_{y\in K}\left|x_n-y\right| \leq \inf_{y\in K}\bigl(\left|x_n-x\right|+\left|x-y\right|\bigr) < \varepsilon + \inf_{y\in K}\left|x-y\right| = \varepsilon + \gamma.

Besides,

\displaystyle \gamma\leq\left|x - A(x_n)\right|\leq\left|x_n-A(x_n)\right| + \left|x_n-x\right| = \gamma_n + \left|x_n-x\right| < \gamma_n+\varepsilon.

These inequalities give us

\displaystyle \gamma\leq\left|x-A(x_n)\right| < 2\varepsilon + \gamma,\qquad\text{ which means }\lim_{n\to\infty}\left|x-A(x_n)\right| = \gamma.

Hence, \lim_{n\to\infty}A(x_n) is the best approximation to x. As this is unique, we have shown that A is sequentially continuous.

4th step. The quest for the fixed point.

The mapping f\circ A:B_r(0)\to K\subset B_r(0) is continuous. By Brouwer’s Fixed Point Theorem, f\circ A has a fixed point: there is some w\in B_r(0) with f\bigl(A(w)\bigr) = w. As f only takes images in K, we must have w\in K. By construction, for points in K, the mapping A does not do anything: hence

\displaystyle w = f\bigl(A(w)\bigr) = f(w).

q.e.d.

 

Corollary (on fixed points in convex sets of normed spaces): Let x_1,\ldots,x_n\in E a normed vector space, let \emptyset\neq K\subset\mathrm{span}(x_1,\ldots,x_n) convex, compact, and let f:K\to K continuous. Then f has a fixed point.

Proof: Let us choose a base for \mathrm{span}(x_1,\ldots,x_n) from the x_1,\ldots,x_n. We take w.l.o.g. x_1,\ldots,x_p for a certain p\leq n. Then any y\in\mathrm{span}(x_1,\ldots,x_n) has a unique representation as y=\sum_{j=1}^p\beta_jx_j, and the maping

\displaystyle A:\mathrm{span}(x_1,\ldots,x_n)\to\mathbb{R}^p,\qquad y\mapsto(\beta_1,\ldots,\beta_p)

is a bijection. As all norms on \mathbb{R}^p are equivalent, convergence issues are not affected by this bijection. Hence, the theorem and its proof work out in the setting of this corollary, too. q.e.d.

 

Note that this Corollary may deal with an infinite-dimensional space, however we make use of a finite-dimensional subspace only. This will become relevant in Schauder’s Theorem as well.

 

Theorem (Arzelà 1895, Ascoli 1884): Let X\subset\mathbb{R}^d compact, let \mathcal F be a family of continuous real-valued functions on X, which satisfies two properties:

  • it is pointwise bounded: for any x\in X, there is some M(x)\in\mathbb{R} with \left|f(x)\right|\leq M(x), for all f\in\mathcal F.
  • it is equicontinuous: for any \varepsilon>0 there is some \delta>0 such that for any x,y\in X with \left|x-y\right|<\delta we have \left|f(x)-f(y)\right|<\varepsilon, for all f\in\mathcal{F}.

Then, \mathcal F is relatively compact, that means every sequence in \mathcal F has a uniformly convergent subsequence.

 

Note, that we do not demand the limit of the convergent subsequence to be contained in \mathcal F; that would mean compact, instead of relatively compact.

 

Proof: 1st step. We get hold of a countable dense subset of X.

For our immediate uses of the theorem, it should suffice to choose \mathbb{Q}\cap X, since we will take X to be intervals and there will not be any need for more exotic applications. However, to show up something a little more general, have a look at the sets \bigl(U_{1/k}(x)\bigr)_{x\in X}. This is a covering of X and finitely many of them will suffice to cover X, for instance M_k:=\{x_{k1},\ldots,x_{kn}\}. The set M:=\bigcup_{k=1}^\infty M_k is countable. By construction, for any x_0\in X and any \varepsilon>0, we can find some point y\in M that has \left|x-y\right|<\varepsilon. Therefore, M is dense in X.

2nd step. We construct a certain subsequence to a given sequence (f_n)_n\subset\mathcal F.

This step is at the heart of the Arzelà-Ascoli-Theorem, with a diagonal argument to make it work. Let us enumerate the set M from the step 1 as \{x_1,x_2,\ldots\}.

As \mathcal F is pointwise bounded, the sequence \bigl(f_n(x_1)\bigr)_n\subset\mathbb{R} is bounded as well. By Bolzano-Weierstrass, it has a convergent subsequence that we will call \bigl(f_{1,n}(x_1)\bigr)_n.

If we evaluate this new sequence in x_2, we arrive at \bigl(f_{1,n}(x_2)\bigr)_n\subset\mathbb{R}, which is bounded as well. Again, we find a convergent subsequence that is now called \bigl(f_{2,n}(x_2)\bigr)_n. As this is a subsequence of \bigl(f_{1,n}(x_1)\bigr)_n, it converges in x_1 as well.

We continue this scheme and we find an array of sequences like this

f_{11} f_{12} f_{13} \cdots
f_{21} f_{22} f_{23} \cdots
f_{31} f_{32} f_{33} \cdots
\vdots \vdots \vdots \ddots

 

where each row is a subsequence of the row above. Row K is convergent in the point x_k by Bolzano-Weierstrass and convergent in the points x_1,\ldots,x_{k-1} by construction.

Now, consider the sequence (f_{nn})_n. It will converge in any point of M.

3rd step. Our subsequence of the 2nd step converges uniformly on X. We will use equicontinuity to expand the convergence from M to the whole of X.

As \mathcal F is equicontinuous, we will find for any \varepsilon>0 some \delta>0 with \left|f_{nn}(x)-f_{nn}(y)\right| < \frac\varepsilon3, for all n\in\mathbb{N}, as long as \left|x-y\right|<2\delta. Since X is compact, there are some points y_1,\ldots,y_p\in X with X\subset\bigcup_{j=1}^pU_\delta(y_j). And as M is dense in X, we can find some \xi_j\in U_\delta(y_j)\cap M for any j=1,\ldots,p.

Let x\in U_\delta(y_j), then

\displaystyle \left|x-\xi_j\right| \leq \left|x-y_j\right|+\left|y_j-\xi_j\right| < 2\delta,

which shows

\displaystyle \left| f_{nn}(x)-f_{nn}(\xi_j)\right| < \frac\varepsilon 3\qquad\text{ for any }n\in\mathbb{N}\text{ and }x\in X\cap U_\delta(y_j).

We have already seen that (f_{nn})_n is convergent on M, and hence (convergent sequences are Cauchy-sequences)

\displaystyle \left|f_{nn}(\xi_j) - f_{mm}(\xi_j)\right| < \frac\varepsilon 3\qquad \text{ for sufficiently large }m,n\text{ and for any }j=1,\ldots,p.

Now, let x\in X, no longer restricted. Then, there is some j=1,\ldots,p such that x\in U_\delta(x_j), and

\displaystyle    \begin{aligned}    \left|f_{nn}(x)-f_{mm}(x)\right| &\leq \left| f_{nn}(x)-f_{nn}(\xi_j)\right| + \left|f_{nn}(\xi_j) - f_{mm}(\xi_j)\right| + \left|f_{mm}(\xi_j) - f_{mm}(x)\right| \\    &< \frac\varepsilon3+\frac\varepsilon3+\frac\varepsilon3 = \varepsilon.    \end{aligned}

Thus, \left\|f_{nn}-f_{mm}\right\|_\infty < \varepsilon for sufficiently large n,m. This sequence is a Cauchy sequence and hence convergent. q.e.d.

 

This was our last stepping stone towards Schauder’s Theorem. Let’s see what we can do.

 

Theorem (Schauder, 1930): Let E be a normed vector space, \emptyset\neq K\subset E convex and closed, let f:K\to K continuous, f(K) relatively compact. Then f has a fixed point.

 

Proof: 1st step. As f(K) is relatively compact, its closure is compact. We construct a finite approximating subset of \overline{f(K)}.

Let \varepsilon>0. There are some finitely many points x_1,\ldots,x_m\in\overline{f(K)} with \overline{f(K)}\subset\bigcup_{j=1}^mU_\varepsilon(x_j). In particular, for any x\in f(K), there is some j=1,\ldots,m with \left|x_j-x\right| < \varepsilon. Let us consider the function for x\in f(K)

\displaystyle \varphi_j(x):=\mathbf{1}_{\left|x_j-x\right|<\varepsilon}\bigl(\varepsilon-\left|x-x_j\right|\bigr).

It is obviously continuous, and as \overline{f(K)} is covered by these U_\varepsilon,

\displaystyle \varphi(x)=\sum_{j=1}^m\varphi_j(x) > 0.

This allows \psi_j(x):=\frac{\varphi_j(x)}{\varphi(x)} to be well-defined, and by construction \psi(x)=\sum_{j=1}^m\psi_j(x) = 1. Hence, the function g:f(K)\to\mathrm{conv}(x_1,\ldots,x_m)

\displaystyle g(x):=\sum_{j=1}^m\psi_j(x) x_j

is continuous (the Lemma on convex sets tells us that this actually maps into the convex hull). Now, let x\in f(K). We find

\displaystyle g(x)-x = \sum_{j=1}^m\psi_j(x)x_j - x = \sum_{j=1}^m\psi_j(x)\bigl(x_j-x\bigr) = \sum_{\substack{j=1\\\left|x_j-x\right|<\varepsilon}}^m\psi_j(x)\bigl(x_j-x),

and therefore, for any x\in f(K),

\displaystyle \left|g(x)-x\right| \leq \sum_{\substack{j=1\\\left|x_j-x\right|<\varepsilon}}^m\psi_j(x)\left|x_j-x\right| < \varepsilon\sum_{j=1}^m\psi_j(x) = \varepsilon.

This shows that g uniformly approximates the identity on \mathrm{conv}(x_1,\ldots,x_m)\subset f(K). Note that g depends on the choice of \varepsilon.

2nd step. Reference to the Theorem on fixed points in convex sets and approximation of the fixed point.

We set h:=g\circ f, which is a continuous mapping

\displaystyle h:K\to\mathrm{conv}(x_1,\ldots,x_m)\subset f(K) \subset K.

We can restrict it to \mathrm{conv}(x_1,\ldots,x_m) and then re-name it \tilde h.  By the Lemma on convex sets, \mathrm{conv}(x_1,\ldots,x_m) is compact, it is finite-dimensional, and by the Corollary on fixed point sets in normed spaces, \tilde h has a fixed point z:

z = \tilde h(z) = g\bigl(f(z)\bigr)\qquad\text{ for some }z\in\mathrm{conv}(x_1,\ldots,x_m).

Therefore,

\displaystyle \left|f(z)-z\right| = \left|f(z)-g\bigl(f(z)\bigr)\right| < \varepsilon.

Note that z depends on g and hence on \varepsilon.

3rd step. Construction of the fixed point.

For any n\in\mathbb{N}, by step 2, we find some z_n\in\mathrm{conv}(x_1^{(n)},\ldots,x_{m(n)}^{(n)})\subset f(K)\subset K with

\displaystyle\left|f(z_n)-z_n\right| < \frac1n.

As f(K) is relatively compact, the sequence \bigl(f(z_n)\bigr)_n has a convergent subsequence: there is some \tilde z\in\overline{f(K)} with \tilde z=\lim_{k\to\infty}f(z_{n_k}). As K is closed, we get \tilde z\in \overline{f(K)}\subset\overline K = K. Now,

\displaystyle\left|z_{n_k} - \tilde z\right| \leq \left|z_{n_k} - f(z_{n_k})\right| + \left|f(z_{n_k}) - \tilde z\right| < \frac1{n_k} + \varepsilon_{n_k},

which means that z_{n_k} and \tilde z get arbitrarily close: \tilde z = \lim_{k\to\infty}z_{n_k}. Since f is continuous, we arrive at

\displaystyle f(\tilde z) = \lim_{k\to\infty}f(z_{n_k}) = \tilde z. q.e.d.

 

It is apparent that Schauder’s Theorem already has very general conditions that are tough to weaken further. Obviously the Theorem gets false if f is not continuous. If K were not closed, we’d get the counter-example of f:(0,1)\to(0,1), x\mapsto x^2, which doesn’t have any fixed points. If K were not convex, we’d get the counter-example of f:\partial B_1(0)\to \partial B_1(0), e^{it} \mapsto e^{i(t+\pi)}. It is hard to give a counter-example if f(K) is not relatively compact – in fact I would be interested to hear of any such counter-example or of the generalization of Schauder’s Theorem to such cases. Which is the most general such fixed point theorem?

 

Now, we are able to harvest the ideas of all this work and apply it to differential equations. Usually, in courses on ordinary differential equations, the famous Picard-Lindelöf-Theorem is proved, which states that for well-behaved functions f (meaning that they satisfy a Lipschitz-condition), the initial-value problem

y'(x) = f\bigl(x,y(x)\bigr),\qquad y(x_0) = y_0,

has a unique solution. This is a powerful theorem which simplifies the entire theory of differential equations. However, a little more holds true: it suffices that f is continuous to guarantee a solution. However, uniqueness is lost in general. While in many applications one can assume continuity of f without remorse (especially in physics), a Lipschitz-condition is much harder to justify. This is not to diminish the usefulness of Picard and Lindelöf, as any model has assumptions to be justified – the Lipschitz-condition is just one of them (if one even bothers to demand for a proper justification of existence and uniqueness – sometimes this would seem obvious from the start).

Let us have a look at what Peano told us:

 

Theorem (Peano, 1886/1890): Let f:R\to\mathbb{R} be continuous, where

\displaystyle R:=\bigl\{(x,y)\in\mathbb{R}^2\colon \left|x-x_0\right| \leq a, \left|y-y_0\right|\leq b\bigr\},

let M:=\max_{(x,y)\in R}\left|f(x,y)\right|, \alpha := \min\bigl(a, \frac bM\bigr).

Then, the initial value problem y'(x)= f\bigl(x,y(x)\bigr), y(x_0)=y_0, has a solution on the interval [x_0-\alpha, x_0+\alpha].

 

Concerning the interval on which we claim the solution to exist, have a look at how such a solution y might behave: as we vary x, the solution may “leave” R either to the vertical bounds (to left/right) or to the horizontonal bounds (up/down). A solution y can at most have a slope of \pm M, and thus, if it leaves on the horizontal bounds, this will happen at x_0\pm\frac bM as the earliest point. If it doesn’t leave there, it will exist until x_0\pm a. Of course, it might exist even further, but we have only demanded f to be defined till there. A little more formally, the mean value theorem tells us

\displaystyle \left|y(x)-y_0\right| = \left|y'(\xi)\right|\left|x-x_0\right| = \left|f\bigl(\xi,y(\xi)\bigr)\right|\left|x-x_0\right| \leq M\alpha\leq b.

This guarantees that the solution y is well-defined on R, because f is defined there.

 

Proof: 0th step. To simplify notation, let us set

\displaystyle    \begin{aligned}    J&:=[x_0-\alpha, x_0+\alpha],\\    \mathcal{C}(J)&:=\bigl\{f:J\to\mathbb{R}\text{ continuous}\bigr\},\\    K&:=\bigl\{y\in\mathcal{C}(J)\colon \left|y(x)-y_0\right|\leq b\text{ for any }x\in J\bigr\}.    \end{aligned}

1st step. We twist the problem to another equivalent shape, making it more accessible to our tools.

First, let y(x) be a solution to the initial value problem on a sub-interval I\subset J. Then, for any x\in I,

\displaystyle y'(x) = f\bigl(x,y(x)\bigr),\quad y(x_0)=y_0,

and hence

\displaystyle y(x) = y_0 + \int_{x_0}^x f\bigl(t,y(t)\bigr)dt.\qquad (\heartsuit)

On the other hand, if we start from this equation and suppose that it holds for any x\in I, y must be differentiable with y'(x) = f\bigl(x,y(x)\bigr) and y(x_0)=y_0.

We have seen that a function y solves the initial value problem on J if and only if it satisfies the equation (\heartsuit) on J.

2nd step. We try to give a representation of the problem as a fixed-point-problem.

Let us consider the mapping

\displaystyle A:K\to\mathcal{C}(J),~ y\mapsto y_0 + \int_{x_0}^{\text{\large\textbf{.}}} f\bigl(t,y(t)\bigr)dt.

This is a functional where we plug in a continuous function and where we get a continuous function back. In particular, and to make it even more painfully obvious,

\displaystyle (Ay)(x) = y_0+\int_{x_0}^xf\bigl(t,y(t)\bigr)dt,\qquad\text{for any }x\in J.

Therefore, y is a solution to the intial value problem, if it is a fixed point of A, meaning Ay=y.

3rd step. We show that A maps K to itself. We have defined A only on K, so let y\in K and x\in J; then:

\displaystyle \left|(Ay)(x)-y_0\right| = \left|\int_{x_0}^x f\bigl(t,y(t)\bigr) dt\right| \leq M\left|x-x_0\right| \leq \alpha M\leq b.

The second-to-last inequality follows from x\in J, the last one from the definition of \alpha.

This shows that Ay\in K.

4th step. K\neq\emptyset is obvious, as the constant function y_0 is in K.

5th step. K is convex. Let f,g\in K and let \beta\in[0,1]. Then, for any x\in J,

\displaystyle    \begin{aligned}    \left|(1-\beta)f(x)+\beta g(x) - y_0\right| &= \left|(1-\beta)\bigl(f(x)-y_0\bigr) + \beta\bigl(g(x)-y_0\bigr)\right| \\    &\leq (1-\beta)\left|f(x)-y_0\right| + \beta\left|g(x)-y_0\right| \\    &\leq (1-\beta)b+\beta b = b.    \end{aligned}

This proves (1-\beta)f+\beta g\in K.

6th step. K is a closed set in \mathcal{C}(J), where we use the topology of uniform convergence.

Consider the sequence (f_n)_n\subset K which converges uniformly to some f\in\mathcal{C}(J). Remember that \mathcal{C}(J) is complete, which is why we can do this. Then, for any x\in J,

\displaystyle\left|f(x)-y_0\right| = \left|\lim_{n\to\infty}f_n(x)-y_0\right| = \lim_{n\to\infty}\left|f_n(x)-y_0\right| \leq \lim_{n\to\infty} b = b.

This shows that f\in K.

7th step. Using the topology of uniform convergence, the mapping A:K\to K is continuous.

Let \varepsilon>0. The function f is continuous on the compact set R and hence uniformly continuous. Therefore, there is some \delta>0 such that for \left|u-v\right|<\delta,

\displaystyle \left|f(t,u)-f(t,v)\right|<\frac\varepsilon\alpha.

Now, let y,z\in K with \left\|y-z\right\|_\infty < \delta. Then we have just seen that for any t\in J

\displaystyle \left|f\bigl(t,y(t)\bigr)-f\bigl(t,z(t)\bigr)\right| < \frac\varepsilon\alpha.

That yields

\displaystyle    \begin{aligned}    \left|(Ay)(x)-(Az)(x)\right| &= \left|\int_{x_0}^xf\bigl(t,y(t)\bigr)dt - \int_{x_0}^xf\bigl(t,z(t)\bigr)dt\right| \\    &< \left|x-x_0\right|\frac\varepsilon\alpha\\    &\leq\varepsilon.    \end{aligned}

In particular,

\displaystyle\left\|Ay-Az\right\|_\infty < \varepsilon.

8th step. The set A(K)\subset K is relatively compact. Note that A(K) is a set of continuous functions.

Let y\in K and let x,x_1,x_2\in J. Then, every function of A(K) is bounded pointwise, since

\displaystyle \left|(Ay)(x)\right| = \left|y_0+\int_{x_0}^xf\bigl(t,y(t)\bigr)dt\right|\leq \left|y_0\right|+\left|x-x_0\right|M \leq \left|y_0\right|+\alpha M.

Besides, A(K) is equicontinuous, because of

\displaystyle    \begin{aligned}    \left|(Ay)(x_1)-(Ay)(x_2)\right| &= \left|\int_{x_0}^{x_1}f\bigl(t,y(t)\bigr)dt - \int_ {x_0}^{x_2}f\bigl(t,y(t)\bigr)dt\right| \\    &= \left|\int_{x_1}^{x_2}f\bigl(t,y(t)\bigr) dt\right| \\    &\leq \left|x_1-x_2\right| M.    \end{aligned}

Arzelà and Ascoli now tell us that any sequence in A(K) has a uniformly convergent subsequence.

9th and final step. From Schauder’s Fixed Point Theorem and steps 3 to 8, A has a fixed point in K. From step 2, the initial value problem has a solution. q.e.d.

 

 

There was a lot of technical work that we have only needed to invoke Schauder’s Theorem. Some of this could have been avoided, if we had a more elementary proof of Schauder’s Theorem. Such a proof exists, however, some of our machinery is still needed – the proof cannot honestly be called elementary. In some way, the proof matches our procedure given above, however, not everything is needed in such a fine manner. Let’s have short look at it; this is taken from Walter’s book.

 

Proof (Peano’s Theorem in a more elementary fashion): We proceed in two parts. First, we shall prove the weaker statement that if f is continuous and bounded on the (non-compact) set [x_0,x_0+a]\times\mathbb{R}, then there is a solution to the intial-value problem on [x_0,x_0+a]. Afterwards, we extend this to our compact set R. We won’t deal with extending the solution to the left of x_0 as it’s neither important nor difficult. In the previous proof we didn’t need to bother about this.

1st step. Let us define a function on [x_0,x_0+a] using some parameter \alpha\in(0,a] by

\displaystyle z_\alpha(x) = y_0\mathbf{1}_{x\leq x_0} + \left(y_0+\int_{x_0}^xf\bigl(t,z_\alpha(t)\bigr)dt\right)\mathbf{1}_{x>x_0}.

This is well-defined, since on the sub-interval [x_0+k\alpha, x_0+(k+1)\alpha) we have t-\alpha \in[x_0+(k-1)\alpha, x_0+k\alpha), and thus z_\alpha(t-\alpha) has been recursively defined; hence z_\alpha is defined as well.

Let us denote \mathcal{F}:=\bigl\{z_\alpha\colon\alpha\in(0,a]\bigr\}\subset\mathcal{C}\bigl([x_0,x_0+a]\bigr).

2nd step. \mathcal F is equicontinuous. Let \varepsilon > 0 and let x_1,x_2\in[x_0,x_0+a]. Then we get, as f is bounded by some M,

\displaystyle \left|z_\alpha(x_1)-z_\alpha(x_2)\right| = \left|\int_{x_1}^{x_2} f\bigl(t, z_\alpha(t-\alpha)\bigr)dt\right| \leq \left|x_2-x_1\right|M,

which doesn’t depend on \alpha, x_1 or x_2 (only on their distance). Hence, if \left|x_1-x_2\right|<\delta = \frac\varepsilon M,

\displaystyle \left|z_\alpha(x_1)-z_\alpha(x_2)\right| \leq \varepsilon.

3rd step. \mathcal F is pointwise bounded. This is obvious from \left|z_\alpha(x)\right|\leq\left|y_0\right|+aM, which doesn’t depend on \alpha or x.

4th step. We determine a solution to the intial-value problem.

From steps 2 and 3 and from Arzelà-Ascoli, we know that the sequence (z_{1/n})_n\subset\mathcal{F} has a uniformly convergent subsequence. Let us denote its limit by y(x), which is defined for all x\in[x_0,x_0+a]. This allows us to get

\displaystyle    \begin{aligned}    \left|z_{1/n_k}\left(t-\frac1{n_k}\right) - y(t)\right| &\leq \left| z_{1/n_k}\left(t-\frac1{n_k}\right) - z_{1/n_k}(t)\right| + \left|z_{1/n_k}(t) - y(t)\right| \\    &\leq \frac M{n_k} + \varepsilon\\    &< \overline\delta,    \end{aligned}

for any t\in[x_0,x_0+a] and for sufficiently large K. It should be clear what we intend to say with \overline\delta (let’s bring in a little sloppiness here, shall we). Since f is continuous in its second component, this proves

\displaystyle \left|f\left(t, z_{1/n_k}\left(t-\frac1{n_k}\right)\right) - f\bigl(t,y(t)\bigr)\right| < \overline\varepsilon\qquad\text{for any }t\in[x_0,x_0+a].

Hence, as every participant here converges uniformly,

\displaystyle    \begin{aligned}    y(x) &= \lim_{k\to\infty}z_{1/n_k}(x) \\    &= \lim_{k\to\infty}\left(y_0 + \int_{x_0}^x f\left(t, z_{1/n_k}\left(t-\frac1{n_k}\right)\right)dt\right)\\    &= y_0 + \int_{x_0}^x \lim_{k\to\infty} f\left(t, z_{1/n_k}\left(t-\frac1{n_k}\right)\right) dt\\    &= y_0 + \int_{x_0}^x f\bigl(t, y(t)\bigr) dt.    \end{aligned}

This shows that

y'(x) = f\bigl(x, y(x)\bigr),\qquad y(x_0) = y_0.

5th step. Extension to the general case: Let f be defined on the compact rectangle R.

We give a continuation of f beyond [y_0-b,y_0+b] for all x\in[x_0-a, x_0+a] via

\displaystyle \tilde f(x,y) = \begin{cases}f(x, y_0-b) ,&\text{for }y < y_0-b\\ f(x,y), &\text{for }(x,y)\in R\\ f(x,y_0+b),&\text{for }y>y_0+b\end{cases}

Obviously, \tilde f is continuous and bounded. From Step 1, y' = \tilde f(x, y) has a solution on [x_0, x_0+a]. For \left|x-x_0\right|\leq\frac bM, we get

\displaystyle    \begin{aligned}    \left|y(x) - y_0\right| &\leq\left|y'(\xi)\right|\left|x-x_0\right| \\    &= \left|\tilde f\bigl(\xi,y(\xi)\bigr)\right|\left|x-x_0\right| \\    &\leq M\left|x-x_0\right|\leq b    \end{aligned}

Therefore, the solution of y'=f(x,y) is well-defined if \left|x-x_0\right|\leq\frac bM, and thus the solution is guaranteed to exist for \left|x-x_0\right|<\alpha = \min\bigl(a,\frac bM\bigr). q.e.d.

 

As a sort of last-minute addendum, I have stumbled upon two articles from the 1970s that shed some more light on the issue of elementary proofs to Peano’s Theorem which completely avoid the technicalties of Schauder’s Theorem and of Arzelà-Ascoli. One is called “There is an Elementary Proof of Peano’s Existence Theorem” by Wolfgang Walter (the author of the book we cited earlier; Amer. Math. Monthly 78 1971, 170-173), the other is “On Elementary Proofs of Peano’s Existence Theorems” by Johann Walter (Amer. Math. Monthly 80, 1973, 282-286). The issue of whether Arzelà-Ascoli can be avoided is solved by both papers positively: they give proofs of Peano’s Theorem which only deal with standard calculus methods. Basically, the employ the Euler polygon method to construct a solution of the intitial value problem. However, again, the proofs are not constructive. Besides, “elementary” is not to be confused with “easy”, Peano’s Theorem is still nothing that lies directly on the surface of things. A brief look at the second of those articles (to the best of my knowledge the identical names of the authors are a coincidence) raises hope that this proof is actually not too hard – it should be understandable with a lot less effort than the proof via Schauder’s Theorem that we gave above in full detail; remember that Schauder itself required many non-standard theorems on its way. The elementary proof will only work for one-dimensional differential equations, but we bothered only with those anyway; it uses monotonicity of its approximating sequence which is only applicable in the real numbers. On the plus side, the proof explicitly constructs a solution via the Euler method.

The papers also shed some light on the history of Peano’s Theorem and the quest for its proof (together with some rather unusual disagreement on whether an earlier proof is valid or not; some interesting lines to read in passing). This should be enough on this matter for now. If the interest holds up (which is, to this extent, rather unlikely), we’ll return to it. But not for now.

Die athenische Demokratie

In meiner naiven Vorstellung war das antike Griechenland eine der schöneren Epochen der Weltgeschichte. Nachdem ich mich längere Zeit mit Kriegen, Intrigen und ambivalenten Persönlichkeiten befasst hatte, wollte ich etwas über die Hochkultur, über die Entstehung der Philosophie und der Demokratie lesen. All das gab es im alten Griechenland; aber die Lektüre hat mir meine Naivität dennoch gründlich ausgetrieben.

Im Studienbuch von Linda Günther nehmen kulturelle Dinge einen eher kleinen Raum ein, es werden Theater, Olympische Spiele und auch die Philosophen erwähnt, aber kaum in der Tiefe beleuchtet. Bei dem Buch handelt es sich eher um eine politische Ereignisgeschichte, die also auch und gerade all das beleuchtet, vor dem ich auf der Suche nach einer erbaulicheren Lektüre die Augen verschließen wollte. Und selbstverständlich gehört all das auch in eine umfassende Arbeit über die griechische Antike: die griechischen Stadtstaates (Poleis) haben sich fortlaufend untereinander bekriegt, Allianzen geschmiedet und gebrochen, die Staatsmänner haben Mehrheiten gesammelt, die Volksversammlung aufgestachelt, Steuern von den Verbündeten abgepresst. So groß die kulturellen Leistungen dieser Epoche sind, die politischen Verwicklungen sind keinen Deut geringer als in anderen Zeiten.

Ebenfalls einen relativ kleinen Raum nehmen die Heldengeschichten ein (schon die aus der wirklichen Historie, erst recht die aus den Mythen Homers). In der Folklore gibt es viele Erzählungen aus den Perserkriegen, etwa von der Schlacht bei Marathon („νενικεκαμεν“), von der Schlacht bei Thermopylae („Komm und nimm sie“ – „Μολον λαβη“; „Wanderer, kommst du nach Sparta, verkündige dorten, du habest uns hier liegen gesehn, wie das Gesetz es befahl“ – „O ξειν αγγελειν Λακεδαιμονιοις οτι τηδε κειμεθα τοις κεινον πημασι πειθομενοι“), also insgesamt wie das verbündete Griechenland sich gegen die übermächtigen Perser erfolgreich verteidigte. Zwar werden die Perserkriege angemessen ausführlich beleuchtet, aber auch nicht übertrieben stark. Ein sehr viel stärkerer Fokus liegt auf dem Peloponnesischen Krieg, der die klassische Staatenwelt tatsächlich durcheinander mischte.

Abgesehen von Athen und Sparta ist in den meisten anderen Poleis ist die Quellenlage eher dürftig. Natürlich ist die klassische Vorherrschaft Athens mit verantwortlich dafür, dass es im Vordergrund der Überlieferung und der Geschichtsschreibung steht; durchaus ähnlich war es ja auch im Römischen Reich (Tacitus beispielsweise kümmert sich praktisch nicht um das Geschehen in den Provinzen, sondern fokussiert auf Rom und die kaiserliche Familie). Ein Verdienst der Darstellung Günthers ist darum, auch den Kontrast zu den restlichen Poleis zu suchen und die Quellenlage ausgiebig zu diskutieren. Natürlich lässt sich ohne belastbare Quellen nur eine Extrapolation anhand der vorhandenen Quellen leisten – sodass stets die Gefahr besteht, die Verhältnisse aus Athen und Sparta auf ganz Griechenland zu übertragen. Die Gefahr dabei liegt auf der Hand, zumal diese Verhältnisse so grundverschieden sind. Wie dürftig die Quellen grundsätzlich sind, ist daran erkennbar, worauf sich die Geschichtswissenschaft bei manchen Angelegenheiten bezieht: beispielsweise wird eine Erhöhung des Richtersolds von 2 auf 3 Obolen auf eine Randbemerkung in einer zeitgenössischen Komödie zurückgeführt. Es gibt offenkundig keine Akten, keinen aufgeschriebenen Beschluss, keine Rezeption in der Historiographie – nur diese Komödie, aus der der Sachverhalt implizit geschlossen wird. Aus neuzeitlicher Sicht („das tintenklecksende Säkulum“ ist auch schon einige Zeit her) eine beeindruckende Sache – selbstverständlich nur für den halbgebildeten Laien 🙂

Überhaupt trägt die Vielzahl der Poleis zum schwierigeren Verständnis bei; es ist eine der Eigenarten der Geographie Griechenlands, dass sich so viele kleine, nahezu autarke Stadtstaaten ausgebildet haben, die sich auch nie dauerhaft zu größeren Einheiten zusammengeschlossen haben. Die weitere Komplexität aufgrund der vielen handelnden Personen zieht sich wie ein roter Faden durch die griechische Geschichte – immer wieder gibt es ein Aha-Erlebnis mit bekannten Namen, die sich in das Gesamtbild einfügen lassen. Aber sehr häufig bleibt das ganze eine amorphe Masse von Namen, die sich manchmal sogar bei verschiedenen Personen wiederholen.

Die Entwicklung der Demokratie in Athen war in gewisser Weise ein Sonderweg, wenn auch nicht vollständig einzigartig. Nach dem Tyrannensturz um 510 v. Chr. wurde der Alleinherrschaft, der Tyrannis tatsächlich abgeschworen (wiewohl zu beachten ist, dass dieser Begriff keineswegs negativ besetzt war). Die Reformen Drakons, Solons und schließlich des Kleisthenes etablierten die Machtstellung der Volksversammlung und verringerten den Einfluss der Adligen. Es handelt sich allerdings noch um eine Phase mit insgesamt fragwürdiger Quellensituation, vieles ist erst die Rezeption und Redaktion aus dem Blickwinkel des 4. Jahrhunderts v. Chr.

Als die Blütezeit der griechischen Antike gilt die Zeit der Hegemonie Athens, zwischen dem Perserkrieg von 490 v. Chr. und dem Peloponnesischen Krieg (430 – 404 v. Chr.). Die Geschehnisse in dieser Phase sind ausreichend bekannt, um hier nicht referiert zu werden (wenn auch im Detail viele spannende Geschehnisse verborgen sind, die eine Lektüre immer wieder lohnen). Die glanzvolle und mächtige Ausgestaltung Athens unter Perikles mit der prachtvollen Akropolis, dem Parthenon und den „langen Mauern“ sei genannt, die auch erkauft ist durch die Ausbeutung der Verbündeten im attischen Seebund – hierdurch erst wurden die Bauwerke möglich. Die Schattenseiten voller Großmachtphantasien, die Unterdrückung der formal gleichberechtigten Bundesgenossen und die Anzettelung von Kriegen dürfen hier ebenso wenig fehlen. Als der Peloponnesische Krieg endet, ist die Vormachtstellung Athens vergangen, die Stadt entgeht nur knapp der Vernichtung durch die siegreichen Spartaner. Hier wird eher die Realpolitik eine Rolle gespielt haben, dass Sparta ein Machtvakuum zu verhindern versuchte, und nicht das heroische Gedenken an die Führungsmacht Athen in den Perserkriegen (zumal die Heerführung damals bei Sparta gelegen hatte und nicht bei Athen).

Die Demokratie während dieser klassischen Phase war vorhanden und hatte tatsächlich einige Züge der modernen Herrschaftsform gleichen Namens. Allerdings waren nur die Vollbürger stimmberechtigt, nicht die Frauen, Sklaven oder Zugezogenen. Die meisten Ämter wurden durch Los, nicht durch Wahlen bestimmt; schließlich wurden Diäten für die Teilnahme an der Volksversammlung vergeben. Die Demokratie ist besonders unter Perikles als eine Art von „gelenkter Volksherrschaft“ aufzufassen, da Demagogen, darunter eben auch Perikles, es verstanden, die Volksversammlung auf ihre Seite zu ziehen und so fast als demokratisch legitimierter Alleinherrscher zu agieren. Allerdings ist diese Sichtweise der Antike noch vollständig fremd. Im Peloponnesischen Krieg werden die Entscheidungen der Volksversammlung zusehends erratisch, die militärische Niederlage erklärt sich unter anderem daraus, dass die siegreichen Strategen wegen religiöser Verfehlungen hingerichtet werden (und nicht nur einmal, Athen hat mehrfach seine gesamte Heerführung abgesetzt und hingerichtet). Aber selbst unter der erdrückenden Erfahrung der vernichtenden Niederlage bleibt die Demokratie der Standardfall, der nur kurz von tyrannischen oder chaotischen Zuständen unterbrochen wird – die athenische Demokratie hat sich als sehr stabil erwiesen.

Nach dem Peloponnesischen Krieg beginnt eine Phase, über die es sich aus dem politischen Blickwinkel eher deprimierend liest. Es ist ein unübersichtliches Gewirr von entstehenden und vergehenden Bündnissen, es gibt keine bipolare Staatenwelt mehr wie zuvor. Die Bedrohung durch das Perserreich ist nennenswert schwächer als zuvor, wenn die Perser auch mächtig bleiben und beispielsweise den Königsfrieden diktieren können. Nach einem Intermezzo mit der griechischen Hegemonialmacht Theben steigt Makedonien vom Rand der griechischen Welt auf (es galt schon als grenzwertig, ob die Makedonen als des Griechischen nicht mächtige Barbaren zu bezeichnen waren oder nicht). Dieser Aufstieg kristallisiert sich in Alexander dem Großen.

Die Machtposition und der Erfolg Alexanders des Großen sind geradezu faszinierend anzusehen – beides erscheint vollständig unerklärbar. Mit allen Ambivalenzen, die auch ihm zu Eigen waren, ist er doch in der Rückschau zu einer fast mythischen Figur geworden. Dazu trägt auch sein früher Tod bei, der es ihm erspart hat, sein unermesslich großes Reich selbst zusammenhalten zu müssen – wer weiß, ob ihm das hätte gelingen können. Es kam anders, die Diadochenkämpfe sind wieder im Kontrast eine sehr deprimierende Lektüre. Der Reiz besteht hier aber darin, dass die griechische Kultur so große Räume durchdrungen hat und auf Jahrhunderte hin Einfluss genommen hat. Schließlich zerfallen alle Diadochenreiche nach und nach, viele fallen schließlich an das Römische Reich – eine ebenfalls gleichermaßen sehr faszinierende und sehr deprimierende Geschichte.

Über Jahrhunderte hinweg war die Rezeption alles Griechischen stilbildendes, grundlegendes Objekt aller gelehrten Beschäftigung. Philosophie und Wissenschaft wurden zur unbezweifelten Autorität, bis sie ab der Renaissance kritisch weiterentwickelt wurden; besonders im 19. Jahrhundert wurde die klassische Kunst imitiert, die wissenschaftliche Strenge wurde wieder belebt (vor allem in der axiomatischen Methode der Mathematik, aber nicht nur dort), und der Unterricht in altgriechischer Sprache an allgemeinbildenden Schulen wurde zum zentralen Element des Bildungskanons. Bei all dieser Rezeption erscheint es paradox, dass die Demokratiebewegung sich offenbar kaum auf die ursprünglichen griechischen Vorbilder stützte. Im Gegenteil gab es im 19. Jahrhundert eine große Fixierung auf die bestehenden Monarchien und das Gottesgnadentum, und wo die Demokratie Staatsform war, wurde sie eher als Weiterentwicklung der antiken Demokratie verstanden und nicht als Rückbesinnung: solche Überlegungen von einer tatsächlich gelenkten, nicht von der Massenstimmung beherrschten Demokratie finden sich etwa in der US-Verfassung mit der indirekten Wahl des Präsidenten. Möglicherweise war die Furcht vor dem Ableiten in Anarchie und Chaos hier maßgeblich, wie es sich in Athen während des Peloponnesischen Kriegs gezeigt hat, oder auch während der Spätphase der Römischen Republik. Tatsächlich haben schon die antiken Staatsphilosophen wie Platon und Cicero eher die Oligarchie als die Demokratie propagiert. Für mich war daran ein neuer Effekt, dass die Demokratie in Athen nach dem Peloponnesischen Krieg wieder hergestellt wurde und funktionierte wie in ihren besten Zeiten; tatsächlich haben die Makedonen die Demokratie in Athen abgeschafft, um die Einordnung in das Alexanderreich zu garantieren: die Demokratie galt den Makedonen als Grundursache für das Freiheitsstreben der Athener und für Aufstände gegen die Hegemonialmacht.

Darüber hinaus sind natürlich auch Elemente der direkten Demokratie wie die Volksversammlung nur in kleinen Stadtstaaten wie Athen oder Rom praktisch umsetzbar, was zur heutigen Ausgestaltung der repräsentativen Demokratie führt. Umgekehrt sind auch neuzeitliche Demokratien nicht gefeit vor Demagogie, vielleicht im Gegenteil. Aber die zusätzliche Stabilität, die sich heute beobachten lässt, ergibt sich auch aus der fest gefügten Beamtenwelt (in Deutschland etwa während der preußischen Reformen entstanden), da es keine Losverfahren zur Besetzung von öffentlichen Stellen mehr gibt. Die Kehrseite ist eine Art von Kastensystem. Die Demokratie in ihrer heutigen Form ist aber bei all ihren Schwächen eine funktionierende Herrschaftsform. Sie erträgt es, dass sie hinterfragt, verteidigt und verbessert wird, und dass niemand sie als gegeben hinnimmt. Die Abgründe, die von ihr wegführen, sind in der Historie vielfach gut zu sehen.

What is a Brachistochrone?

The cycloid was a core object of mathematical studies during the development of calculus and, before that, for geometry. It arises as a special case of curves in astronomy and it has been used as a challenge for competitors during the rise of the analytic method.

Let us have a look at its definition first, and what it describes heuristically. The cycloid is the planar curve parametized via

\displaystyle\begin{pmatrix}x(t)\\y(t)\end{pmatrix} = \begin{pmatrix}r(t-\sin t)\\r(1-\cos t)\end{pmatrix},\qquad t\in[0,2\pi], \quad r>0.

It is the curve of a point on the periphery of a circle that is rolled along the x-axis. The parametization follows like this:

The circle rolls along the x-axis with constant speed, therefore the angle \sphericalangle PMD = t. As \sin t = \frac{PD}{r}, we get BA = r\sin t. Now, the x-component of P is

\displaystyle x = OB = OA-BA = rt-r\sin t = r(t-\sin t).

For the y-component of PBP = AD = AM-DM = r- r\cos t, and thus

\displaystyle y = BP = r(1-\cos t).

The cycloid can be considered as a special case of the epicycloid. Those have been a matter of interest in the pre-Kepler era, when astronomers tried to explain the motion of the planets in the night sky. As they considered perfect circles as orbits only (as opposed to the ellipses that they actually are), and as they postulated the Earth to be in the center of all those orbits, it was tricky to explain away the observations of different arc speeds and loops that the planets sometimes take. The solution was to imagine the planets circling around Earth, but on this circle was the center of another circle, on which the planets moved. Thus, the planets travelled on an epicycle; and sometimes one of those wasn’t enough (“salvation of the phenomena”).

A first simplification of this theory came from Copernicus who dropped the assumption that the Earth would be in the center of all things, but who didn’t get rid of the perfect circles. For the final resolution, the world had to wait for Kepler and Tycho Brahe. But anyway, that’s not why we’re here.

The cycloid is the curve, on which a point of mass will travel the quickest, if it just rolls along it, drawn by gravitation only (if friction is disregarded); in Greek, this is called the “brachistochrone“. It is remarkable that this quickest path is not the shortest path – there are quicker ways than a straight line. There is some sort of trade-off between gaining speed quickly and between keeping the path sufficiently short. We will look at two different approaches to prove that the cycloid can do this trick.

Another remarkable property of the cycloid is being the “tautochrone“: if points of mass are placed anywhere on this curve, they will travel to another point on this curve in exactly the same amount of time. Points that are farther away will gain more speed in order to close the distance. This is a highly interesting property for building a pendulum: no matter how big the amplitude, the frequency will always be the same. This, in turn, is the core feature of an exact clock, which was a sort of holy grail for scientists to find during the 17th century (not just for ship navigation). This property has been found by Huygens, who had not been able to use calculus methods for this (his solution is hidden in quite cumbersome geometry).

More on this curve and some very nice experiments may be seen in this youtube-video from the highly interesting channel vsauce. I especially love the excitement of both guys when they actually see these properties of the cycloid curve in action.

The brachistochrone problem was posed by Johann Bernoulli in a journal as a quest for the most enlightened mathematicians of the world (“acutissimis mathematicis qui toto orbe florent“). We will see his very elegant approach right below. His brother Jacob found a more general approach, but his train of thought is much more cumbersome – we will see a modernized simplification of this later. Both brothers engaged in a non-friendly competition by posing problems like this one to each other, always hoping for each other’s errors to gloat over. In retrospect, both of them advanced the applications of calculus when it was conceived; note however, that very many of the things that are named after Bernoulli (Bernoulli numbers, Bernoulli distribution, the Law of Large Numbers) have come from Jacob, not from Johann. But the other enlightened mathematicians of the time also retrieved the solution, particularly Leibniz and Newton who both are said to have found the solution in a matter of few hours, and both of them appreciating the beauty of the problem.

Now, let’s see how Johann came to his solution. We will look at some physical properties first.

 

The Speed Lemma: Consider a point of mass m that travels without friction along any sort of curve in \mathbb{R}^2, the only force on it being the gravitation. Let g be Newton’s gravitational constant. Then, when it has travelled height h, its speed is v = \sqrt{2gh}.

Proof: As physics tells us, the sum of kinetic and potential energy is constant. One may prove this mathematically by doing very basic integration and thinking of Newton’s second axiom (the one with force, mass and acceleration); we won’t go into this. Now, the kinetic energy is \frac12mv^2 (for physicists that’s the definition, for mathematicians that’s an easy lemma), while the potential energy is mgh. Our zero-level for the potential energy is set such that the potential energy vanishes, when the point of mass has travelled height h. By our set-up, the point of mass has no speed in the beginning and hence no kinetic energy. We have found

\displaystyle  0 + mgh = E_{\mathrm{kin}}^{\mathrm{start}} + E_{\mathrm{pot}}^{\mathrm{start}} = E_{\mathrm{kin}}^{\mathrm{end}} + E_{\mathrm{kin}}^{\mathrm{end}} = \frac12mv^2 + 0,

which means

\displaystyle v^2 = 2gh,

which was to be shown. q.e.d.

 

One might wonder if there is some problem here, that the speed formula does not depend on the kind of curve that the point of mass moves on. Indeed, without friction there is no problem. One can argue in an entirely different way about decomposition of the gravitational force in a force directed along the (derivative of the) curve and a normal force orthogonal to this one. This decomposed force is of course smaller than the gravitation and hence brings less acceleration to our point. In turn, one can compute the time it takes the point to travel to height h, and the speed that it has gained by then. As physics is consistent in itself (surprise!), we arrive at the same result that we gained via kinetic and potential energy. Not being a physicist, I can’t tell with certainty if this connection just stems from a little proof that I didn’t see, or if this is some sort of recognition that the world actually behaves responsibly and rationally. I won’t even start to question this here.

 

The Time Lemma: Consider the same setting as in the Speed Lemma. On top of that, let the curve on which our point travels be given by a differentiable function y = f(x). Let the point travel from (0,0) to (b,d). The time it takes for this is

\displaystyle T = \int_0^b\sqrt{\frac{1+(f'(x))^2}{2gf(x)}}\mathrm{d}x.

 

Proof (by a little hand-waving): Consider any point (x,y) on the curve, with x\in(0,b). The infinitesimal time our point of mass spends in (x,y) is

\displaystyle \mathrm{d}t = \frac{\mathrm{d}s}{v(x)} = \frac{\sqrt{(\mathrm{d}x)^2 + (\mathrm{d}y)^2}}{\sqrt{2gf(x)}} = \sqrt{\frac{1+(\mathrm{d}y/\mathrm{d}x)^2}{2gf(x)}}\mathrm{d}x.

Taking a leap of faith and integrating this (which is supposed to amount to the sum of all such infinitesimal times) gives

\displaystyle T = \int_0^b \sqrt{\frac{1+(f'(x))^2}{2gf(x)}}\mathrm{d}x.

In a post on physical interprations of mathematics, a little physical computation can’t be too wrong now, can it. q.e.d.

 

The Reflection Principle: Consider a ray of light travelling in \mathbb{R}^2 from point (0,h_1) to point (a,h_2), being reflected somewhere on the x-axis. The resulting angles of reflection \alpha and \beta are equal.

Proof: The underlying physical principle is to choose the line of minimal length for the reflection. A mathematician would put this as an axiom, a physicist will consider this granted by the way that nature behaves. Let’s go with it: the length of the chosen path is, as long as the ray of light is reflected in the point (x,0),

\displaystyle L(x) = \sqrt{x^2+h_1^2} + \sqrt{(x-a)^2+h_2^2},

hence we look for some x with

\displaystyle 0 = L'(x) = \frac{x}{\sqrt{x^2+h_1^2}} + \frac{x-a}{\sqrt{(x-a)^2+h_2^2}} = \sin\alpha - \sin\beta.

As, \alpha, \beta\in(0,\frac\pi2) for obvious reasons, this is the assertion. q.e.d.

 

The Refraction Lemma: Consider a ray of light changing the medium in which it travels. Let the speeds of light in those media be c_1 and c_2. The resulting angles of refraction have a constant proportion:

\displaystyle\frac{\sin\alpha}{\sin\beta} = \frac{c_1}{c_2}.

Proof: Now, the speed of light gets relevant and the physical principle is to find the path of minimal time. By the basic laws on time and speed we get

\displaystyle T(x) = \frac{\sqrt{x^2+h_1^2}}{c_1} + \frac{\sqrt{(x-a)^2+h_2^2}}{c_2}

and we look for some x with

\displaystyle 0 = T'(x) = \frac1{c_1}\frac{x}{\sqrt{x^2+h_1^2}} + \frac1{c_2}\frac{x-a}{\sqrt{(x-a)^2+h_2^2}} = \frac1{c_1}\sin\alpha - \frac1{c_2}\sin\beta.

The lemma is proved. q.e.d.

 

We have all ingredients to follow Johann Bernoulli’s idea to find the brachistochrone now. The basic question is, what is the quickest path for a point of mass to take, if it is to travel from one point in the plane, (0,0) say, to another one (b,d)? Johann’s ingenious idea was to compare this to the path that a ray of light will take – as we have postulated, the ray of light will choose the quickest path as well. The acceleration may stem from gravitation or the path may result from the change of the media, but the aim is the same; as Bernoulli wrote: “who would deny us to replace one approach by the other?”

Hence, let us consider a “continous” change of media, for instance by making a limit of finer layers of media for the ray of light to traverse. As the Refraction Lemma showed, we will get a constant quotient of \frac{\sin\alpha}{v}. By the Speed Lemma, our point of mass has gained v=\sqrt{2gy}, if it has arrived at level y only being accelerated by gravitation.

Now, using the designations of the following picture (note that \beta=\frac\pi2-\alpha),

\begin{aligned}    \displaystyle \sin\alpha = \cos\beta = \sqrt{\frac{\cos^2\beta}{\cos^2\beta+\sin^2\beta}} = \sqrt{\frac1{1+\tan^2\beta}} = \sqrt{\frac1{1+(\frac{\mathrm{d}y}{\mathrm{d}x})^2}}.    \end{aligned}

In particular,

\displaystyle\sin\alpha = \frac{1}{\sqrt{1+(y')^2}}.

As \frac{\sin\alpha}{v} is constant, we find the differential equation

\displaystyle \frac{1}{\sqrt{1+(y')^2}} = k\cdot v = k\sqrt{2gy},

or equivalently,

\displaystyle y' = \sqrt{\frac{1}{k^2\sqrt{2gy}^2}-1} = \sqrt{\frac{1-2gk^2y}{2gk^2y}} = \sqrt{\frac{\frac{1}{2gk^2} - y}{y}}.

By setting a:=\frac{1}{2gk^2} and by separation of variables,

\displaystyle x+C = \int\sqrt{\frac{y}{a-y}} \mathrm{d}y.

Then, we substitute y(s):=a\sin^2s, yielding \frac{\mathrm{d}y}{\mathrm{d}s} = 2a\sin s \cos s,

\displaystyle    \begin{aligned}    \int\sqrt{\frac{a\sin^2 s}{a-a\sin^2s}}2a\sin s\cos s \mathrm{d}s &= 2a\int\sqrt{\frac{\sin^2s}{1-\sin^2s}}\sin s\cos s \mathrm{d}s \\    &= 2a\int\sin^2s\mathrm{d}s.    \end{aligned}

This integral can be readily solved via partial integration:

\displaystyle \int\sin^2s\mathrm{d}s = -\sin s\cos s + \int\cos^2s\mathrm{d}s = -\sin s\cos s + s - \int\sin^2s\mathrm{d}s,

meaning

\displaystyle \int\sin^2s\mathrm{d}s = \frac12(s-\sin s\cos s).\qquad(\spadesuit)

Altogether we have found (note that we do not re-substitute y for s, since we are not interested in a parametrization like x=x(y))

\displaystyle x+C = 2a\frac12(s-\sin s\cos s) = \frac a2\bigl(2s-\sin(2s)\bigr).

As we can set our coordinates such that x(0)=0 (the point will begin its voyage in (0,0)), we get C=0. This shows

\displaystyle    \begin{aligned}    x(s) &=  \frac a2\bigl(2s-\sin(2s)\bigr),\\    y(s) &= a\sin^2s = \frac a2\bigl((1-\cos^2s)+\sin^2s\bigr) = \frac a2\bigr(1-\cos(2s)\bigr).    \end{aligned}

Setting r:=\frac a2 and t:=2s, we retrieve the standard parametrization of the cycloid:

\displaystyle x(t) = r(t-\sin t),\qquad y(t) = r(1-\cos t).

The brachistochrone must be a cycloid.

 

But now for a completely different approach. The brachistochrone can also be found via calculus of variations, which is considerably harder, from a technical point of view, than what we did above. On the other hand, these techniques can be applied to a much broader spectrum of problems. We can only sketch many of the issues here.

Historically, the brachistochrone problem has been the start to calculus of variations. Jacob Bernoulli solved the problem with methods like this, much more general but much less elegant than his brother.

At the core is the observation that we wish to minimize a functional

\displaystyle J(f) = \int_a^bF\bigl(t, f(t), f'(t)\bigr) \mathrm{d}t,

over the set M:=\{f:[a,b]\to\mathbb{R}\colon f(a)=c, f(b)=d, f\in\mathcal{C}^2\}. Is there some g\in M such that J(g)\leq J(f) for all f\in M?

We consider the function F to be defined as F(t,y,p). The inputs y and p will play the roles of the solution function and its derivative, respectively.

Notice that we restrict ourselves already to smooth functions f\in\mathcal{C}^2. From a physical point of view, there is no reason why the brachistochrone shouldn’t be just continuous. However, tougher mathematics would be necessary to track down this one.

If the space M is well-behaved, usual compactness arguments tell us that there is a minimum. But it is much harder to pinpoint.

 

Theorem (Euler-Lagrange; tiny special case): A necessary condition for a \mathcal C^2-function g to be a solution to the minimization problem is

\displaystyle \frac{\partial}{\partial y}F\bigl(t,g(t),g'(t)\bigr) - \frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F\bigl(t,g(t),g'(t)\bigr) = 0.

In its expanded form, this is (dropping the arguments for reasons of better legibility)

\displaystyle \frac{\partial F}{\partial y}- \frac{\partial^2F}{\partial t\partial p}-\frac{\partial^2F}{\partial y\partial p}\cdot g'(t)-\frac{\partial^2F}{\partial p^2}\cdot g''(t) = 0.

 

Proof: Let g be the minimum and let \eta\in\mathcal{C}^2 with \eta(a)=\eta(b)=0. We then consider

\displaystyle \varphi(\varepsilon):=\int_a^bF\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr) \mathrm{d}t.

Since we chose everything to be well-behaved, \varphi will be differentiable. As g minimizes the functional J, \varphi(0) = J(g) \leq \varphi(\varepsilon), and hence \varphi'(0) = 0. Note that the derivative is a \frac{\mathrm{d}}{\mathrm{d}\varepsilon} here. For the function g, the derivative means \frac{\mathrm{d}}{\mathrm{d}t}.

Now, let us compute this (calculemus!)

\displaystyle    \begin{aligned}    \varphi'(\varepsilon) &= \int_a^b\frac{\mathrm{d}}{\mathrm{d}\varepsilon} F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr)\mathrm{d}t \\    &= \int_a^b \left[\frac{\partial}{\partial y}F\bigl(t, g(t)+\varepsilon\eta(t), g'(t) + \varepsilon \eta'(t)\bigr)\eta(t) +\right.\\    &\hphantom{=}\qquad\left.+ \frac{\partial}{\partial p}F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr)\eta'(t) \right]\mathrm{d}t    \end{aligned}

Integration by parts yields, together with the fact that \eta(a) = \eta(b) = 0,

\displaystyle    \begin{aligned}    \int_a^b \frac{\partial}{\partial p}F(t,y,p)\eta'(t) \mathrm{d}t &= \left[\frac{\partial}{\partial p}F(t,y,p)\eta(t)\right]_a^b - \int_a^b\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F(t,y,p)\eta(t) \mathrm{d}t \\    &= -\int_a^b\eta(t)\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F(t,y,p) \mathrm{d}t.    \end{aligned}

We conclude

\displaystyle    \begin{aligned}    \varphi'(\varepsilon) &= \int_a^b \left[\frac{\partial}{\partial y}F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr)\eta(t) \right.\\    &\hphantom{=}\qquad\left.- \eta(t)\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p} F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr) \right]\mathrm{d}t\\    &= \int_a^b\eta(t)\left[\frac{\partial}{\partial y}F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta'(t)\bigr)\right.\\    &\hphantom{=}\qquad\left. - \frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p} F\bigl(t, g(t)+\varepsilon\eta(t), g'(t)+\varepsilon\eta(t)\bigr)\right]\mathrm{d}t.    \end{aligned}

This expression must vanish, as we demand \varphi'(0)=0, if g is supposed to be a solution to the minimization problem. We have an arbitrary function \eta involved, so the expression in brackets will have to vanish entirely. Formally, one can see this by contradiction: if in some point t_0, the bracket-expression did not vanish, we could choose some interval [t_1,t_2]\subset [a,b] where this bracket-expression didn’t vanish at all (it is continuous, after all). On this interval, we set \eta(t):=(t-t_1)^4(t-t_2)^4, we find the integrand strictly positive there, and vanishing outside. Contradiction to \varphi'(0)=0.

For \varepsilon=0, the statement follows. We have thus proved the Euler-Lagrange equation in this particular case. q.e.d.

 

Notice that we didn’t speak about sufficient conditions. That would overstretch this text by far – let’s ignore this.

 

The Simplification Lemma: In the special case, when F only depends on y and p, and not directly on its first argument t, the Euler-Lagrange equation will simplify to the condition

\displaystyle\frac{\mathrm{d}}{\mathrm{d}t}\left(F\bigl(g(t), g'(t)\bigr)-g'(t)\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)\right) = 0.

 

Proof: This follows by a straight-forward computation:

\begin{aligned}    \displaystyle    &\hphantom{=}\frac{\mathrm{d}}{\mathrm{d}t}\left(F\bigl(g(t),g'(t)\bigr)-g'(t)\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)\right) \\    &\stackrel{(\circ)}{=} \frac{\partial}{\partial y}F\bigl(g(t),g'(t)\bigr)g'(t) + \frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)g''(t) +\\    &\hphantom{=}\quad- g''(t)\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)-g'(t)\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr) \\    &\stackrel{\hphantom{(\ast)}}{=} \frac{\partial}{\partial y}F\bigl(g(t),g'(t)\bigr)g'(t) - g'(t)\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)\\    &\stackrel{(\ast)}{=} \left(\frac{\partial^2}{\partial y\partial p}F\bigl(g(t),g'(t)\bigr) g'(t) + \frac{\partial^2}{\partial p^2}F\bigl(g(t),g'(t)\bigr)g''(t)\right) g'(t) +\\    &\hphantom{=}\quad - g'(t)\frac{\mathrm{d}}{\mathrm{d}t}\frac{\partial}{\partial p}F\bigl(g(t),g'(t)\bigr)\\    &\stackrel{(\circ)}{=} \frac{\partial^2}{\partial y\partial p}F\bigl(g(t),g'(t)\bigr) \bigl(g'(t)\bigr)^2 + \frac{\partial^2}{\partial p^2}F\bigl(g(t),g'(t)\bigr)g'(t)g''(t) +\\    &\hphantom{=}\quad - g'(t)\left(\frac{\partial^2}{\partial y\partial p}F\bigl(g(t),g'(t)\bigr)g'(t) + \frac{\partial^2}{\partial p^2}F\bigl(g(t),g'(t)\bigr)g''(t)\right)\\    &\stackrel{\hphantom{(\ast)}}{=} \frac{\partial^2}{\partial y\partial p}F\bigl(g(t),g'(t)\bigr) \bigl(g'(t)\bigr)^2 + \frac{\partial^2}{\partial p^2}F\bigl(g(t),g'(t)\bigr)g'(t)g''(t) +\\    &\hphantom{=}\quad - \frac{\partial^2}{\partial y\partial p}F\bigl(g(t),g'(t)\bigr)\bigl(g'(t)\bigr)^2 - \frac{\partial^2}{\partial p^2}F\bigl(g(t),g'(t)\bigr)g'(t)g''(t)\\    &\stackrel{\hphantom{(\ast)}}{=} 0.    \end{aligned}

We have used the expanded form of the Euler-Lagrange equation in (\ast) together with the chain-rule and the feature that in the present special case \frac{\partial}{\partial t}F=0, and the chain-rule all by itself in (\circ). All over the place, we have used that g is a solution to the Euler-Lagrange equation and thus needs to be plugged into F. q.e.d.

 

Now that we have the ingredients, let’s try and find the brachistochrone by calculus of variations. By the Time Lemma, we want to minimize the expression

\displaystyle \int_0^b F\bigl(f(x), f'(x)\bigr)\mathrm{d}x,\qquad F(y,p) = \sqrt{\frac{1+p^2}{2gy}}.

By the Simplification Lemma, any solution \varphi will have

\displaystyle    \begin{aligned}    c &= \sqrt{\frac{1+(\varphi'(x))^2}{2g\varphi(x)}} - \varphi'(x)\frac{\varphi'(x)}{2g\varphi(x)}\sqrt{\frac{2g\varphi(x)}{1+(\varphi'(x))^2}}\\    &= \sqrt{\frac{1+(\varphi'(x))^2}{2g\varphi(x)}}\left(1-\frac{(\varphi'(x))^2}{1+(\varphi'(x))^2}\right)\\    &= \sqrt{\frac{1+(\varphi'(x))^2}{2g\varphi(x)}}\frac1{1+(\varphi'(x))^2}\\    &= \frac1{\sqrt{2g\varphi(x)}\sqrt{1+(\varphi'(x))^2}},    \end{aligned}

which means

\displaystyle \varphi(x)\left(1+\bigl(\varphi'(x)\bigr)^2\right) = \frac1{2gc^2} =: C\qquad\qquad(\clubsuit)

\varphi will be a solution depending on x. On the other hand, we look for a parametrization of a curve in \mathbb{R}^2, hence we try to find both functions x(t) and y(t), that are connected via \varphi(x) = \varphi\bigl(x(t)\bigr) = y(t). We set, by divine insight,

\displaystyle y(t) = C\frac{1-\cos t}{2} = C\sin^2\frac t2.

The chain rule then says \frac{\mathrm{d}}{\mathrm{d}t}\varphi\bigl(x(t)\bigr) = \frac{\mathrm{d}}{\mathrm{d}x}\varphi(x)\frac{\mathrm{d}}{\mathrm{d}t}x(t), and hence

\displaystyle \frac{\mathrm{d}x}{\mathrm{d}t} = \frac{\frac{\mathrm{d}}{\mathrm{d}t}\varphi\bigl(x(t)\bigr)}{\frac{\mathrm{d}}{\mathrm{d}x}\varphi(x)} = \frac{\frac{\mathrm{d}}{\mathrm{d}t}y(t)}{\frac{\mathrm{d}}{\mathrm{d}x}\varphi(x)}.

By (\clubsuit),

\displaystyle    \begin{aligned}    \frac{\mathrm{d}}{\mathrm{d}x}\varphi(x) = \frac{\mathrm{d}}{\mathrm{d}x}\varphi\bigl(x(t)\bigr) &= \sqrt{\frac{C}{\varphi(x(t))} - 1} \\    &= \sqrt{\frac{C}{C\sin^2\frac t2}-1} \\    &= \sqrt{\frac{1-\sin^2\frac t2}{\sin^2\frac t2}} \\    &= \cot\frac t2.    \end{aligned}

Altogether,

\displaystyle    \begin{aligned}    \frac{\mathrm{d}x}{\mathrm{d}t} = \frac{\frac{\mathrm{d}}{\mathrm{d}t}y(t)}{\frac{\mathrm{d}}{\mathrm{d}x}\varphi(x)} &= \frac{C2\frac12\sin\frac t2\cos\frac t2}{\cot\frac t2} \\    &= \frac{C\sin\frac t2\cos\frac t2}{\cos\frac t2}\sin\frac t2 \\    &= C\sin^2\frac t2.    \end{aligned}

We already have almost integrated this one before in (\spadesuit), the substitution s(t)=\frac t2 yields

\displaystyle    \begin{aligned}    x(t) = C\int\sin^2\frac t2 \mathrm{d}t = 2C\int\sin^2(s)\mathrm{d}s &= 2C\frac{s-\sin s\cos s}{2} \\    &= C\left[s-\frac12\sin(2s)\right] \\    &= \frac C2(t-\sin t).    \end{aligned}

This shows, that any solution to the minimization problem must look like

\displaystyle\begin{pmatrix}x(t)\\y(t)\end{pmatrix} = \begin{pmatrix}\frac C2(t-\sin t)\\\frac C2(1-\cos t)\end{pmatrix},

and is hence a cycloid. What we haven’t proved is, that it actually is a solution to the minimization problem – we didn’t speak about the sufficient condition with Euler-Lagrange, not about regularity of our set M and only about \mathcal C^2-functions in the first place (I won’t even go into the physical hand-waving). But anyway, the little tricks and the big machinery of technique make both approaches really insightful and interesting. This makes it a good place to end.

Der Sommer des Jahrhunderts

Vor einigen Jahren ist ein Trend gestartet, ganze Bücher über einzelne Jahre zu schreiben. Mit diesen Büchern soll der „runden Geburtstage“ großer Ereignisse gedacht werden, etwa der 100-sten Wiederkehr des Ersten Weltkriegs, der 200-sten Wiederkehr des Wiener Kongresses oder 50-sten Wiederkehr der Studentenrevolution. In diese Reihe passt auch das Buch 1913 – Der Sommer des Jahrhunderts von Florian Illies. Es unterscheidet sich aber dadurch, dass es sich nicht um ein historisches Überblickswerk handelt. Im Gegenteil ist es ein locker zusammengestelltes Kaleidoskop feuilletonistischer Episoden aus dem Jahr 1913, einem Jahr, das im Wesentlichen nur durch das Hintergrundwissen über das darauffolgende Jahr von Relevanz ist.

Ich selbst habe mir inmitten des Hypes rund um 2013 dieses Buch aus Neugier gekauft und es damals nicht bereut. Jetzt habe ich es aus einer Laune heraus wieder gelesen und werde lebhaft an den Satz erinnert: Ein Buch, das man ein einziges Mal gelesen hat, hat man entweder einmal zu oft oder einmal zu wenig gelesen. Hier ist letzteres der Fall: es verbergen sich eine Menge kleine Perlen in diesem Buch, die sich erst durch mehrmaliges Lesen wirklich erkennen lassen: lege, lege, relege et invenies. Und kurzweilig ist es außerdem noch. Es verleitet durch die Kürze seiner unzähligen Episoden ein wenig dazu, es in vielen sehr kurzen Abschnitten zu lesen. Das ist möglich, aber nicht klug. Seine Pracht entfaltet das Kaleidoskop dadurch, dass es seine ganze Vielfalt aufzeigt – das ist nur möglich durch die Wahrnehmung all der vielen Episoden nebeneinander.

Illies schreibt mit allen literarischen Methoden, die ihm ein Roman an die Hand geben würde. Neben seinen diversen wiederkehrenden Figuren verwendet er auch allerhand Stilmittel und greift episodenübergreifend Themen auf – so etwa das Zitat „Der Rest ist Schweigen“ aus dem akademischen Disput zwischen Freud und C.G.Jung, der zu Jahresbeginn ausbricht und sich nie wieder kitten lässt. Der Satz „Der Rest ist Schweigen“ taucht in der Folge immer wieder unvermittelt, aber nicht unpassend, auf und spannt so den Bogen über viele Schauplätze und über das ganze Jahr hinweg. Tatsächlich wird das Buch in einigen Rezensionen als Roman bezeichnet, es trägt aber vollkommen zurecht nicht diese Selbstbezeichnung und ist in der Spiegel-Bestsellerliste unter den Sachbüchern geführt worden.

Es kann kaum verwundern, dass das Buch dem Feuilleton entnommen zu sein scheint: der Autor Illies war jahrelang Leiter des Feuilletons der FAZ. Ähnliche Beobachtungen wie er sie über das Jahr vor Ausbruch des Ersten Weltkriegs gesammelt hat, hat er bereits aus anderer Perspektive über seine eigene Jugendzeit angestellt: in seinem Erstlingswerk Generation Golf.

Illies entwirft ein Panorama des Jahres 1913, nach Monaten geordnet und mit wiederkehrenden Hauptpersonen. Sein Grundgerüst entnimmt er wahren Begebenheiten, die er leicht ausschmückt und mit sparsamer Erfindung ergänzt. Auf diese Weise entstehen hübsche Charakterstudien etwa von Franz Kafka, Ernst Jünger und Sigmund Freud, auf deren Spuren sich Illies begibt. Er wechselt zwischen den damals schon berühmten Persönlichkeiten wie Freud, Einstein oder Albert Schweitzer hin und her, und er bezieht auch solche Personen ein, die 1913 noch vollkommen unbekannt waren und erst später relevant für den Lauf der Welt werden sollen: neben Kafka etwa auch Hitler und Stalin. Von letzteren beiden erfindet Illies die Episode, dass sie sich im Januar 1913 bei einem Spaziergang durch Wien getroffen haben könnten – unstreitig ist der Fakt, dass beide sich niemals so nahe gekommen sind wie in diesem Monat.

Famos ist die enge Begleitung Kafkas durch das Jahr, die vor allem durch seine umfangreiche Korrespondenz mit seiner Verlobten Felice Bauer möglich wird. Prompt als die beiden sich ein Wochenende lang persönlich treffen lässt sich nichts mehr über sie aussagen, da in diesem Moment keine Briefe geschrieben werden. Aber abgesehen von diesen wenigen Tagen ergibt sich eine 360°-Ansicht von einem gnadenlos neurotischen und unsicheren Kafka, der sogar in seinem Heiratsantrag seitenweise Gründe aufzählt, warum Felice ihn unter keinen Umständen heiraten sollte (was sie auch nicht getan hat).

Überhaupt bewegen sich unverhältnismäßig viele der Akteure des Buches im Künstlermilieu, es tritt zwar der deutsche Kaiser, nicht aber sein Reichskanzler auf (nicht, dass das ein Verlust wäre). Das ist dem Feuilleton-Charakter des Buches geschuldet, erfordert aber eine gewisse Wikipedia-Zeit vom nur allgemeingebildeten Leser, der sich eben nicht tiefgehend in der Kunstgeschichte des Kubismus und Futurismus auskennt. Auch Details über die Literatenfamilie Mann (in der Thomas gerade den Zauberberg beginnt und Heinrich soeben den Untertan beendet), den Wiener Dichter Georg Trakl oder über den Lehrer James Joyce (der in Triest zu seinem Ulysses ermutigt wird, den er im Folgejahr tatsächlich in Angriff nimmt) lassen sich durch ein gewisses Fundament in der Wikipedia besser verkraften.

Ein schöner selbstreflexiver Moment des Buchs ist die Bemerkung, dass in diesem Jahr 1913 der Schöpfer des Kulturfahrplans geboren wird. In tabellarischer Form wäre Illies‘ Werk in den Kulturfahrplan zu gießen, und mit etwas literarischer Ausschmückung entspräche der Kulturfahrplan dem Buch von Illies. Ein wirklich ästhetischer Fixpunkt für meinen Geschmack.

Meistens hält Illies eine strenge zeitgenössische Perspektive ein. Was nach 1913 geschieht, ist seinen Akteuren unbekannt und wird auch durch ihn selbst meist ausgeblendet. Hin und wieder bricht er jedoch auch diesem Korsett aus, mal augenzwinkernd, mal prophetisch. Er erreicht dadurch den Verweis darauf, dass das Jahr erst im Kontrast zum Ersten Weltkrieg heute noch von Interesse ist (sicherlich hätte das Jahr 1912 mehr spektakuläre Ereignisse zu bieten gehabt – aber sein Abstand zum Weltkrieg ist größer, und sicher gewinnt das Buch gerade durch die Belanglosigkeit und Alltäglichkeit vieler seiner Inhalte).

Gelegentlich begibt Illies sich in die Vogelperspektive und blickt etwa losgelöst von allen Episoden auf die vier Zentren der Moderne (Paris, Berlin, München und Wien) und deren unterschiedliche Sicht auf die Welt. Ein anderes Mal zitiert er den Kunstkritiker Meier-Graefe und entspinnt daraus die treffende (und beinahe atemlose) Erkenntnis: „‘Bei dem Namen Picasso wird der Historiker der Zukunft stillhalten und feststellen: Hier hörte es auf.‘ Ende. Unvorstellbar, dass es nach der Formzertrümmerung des Kubismus noch einmal weitergehen könnte. Der große Autor, der vielleicht feurigste kunstkritische Stilist des Jahrhunderts, der ein Meister des Erzählens der ‚Entwicklung‘ der Kunst war, der sieht sie, ganz nüchtern, jetzt an ihr Ende gekommen. Dort, wo wir heute ihren Anfang sehen.

Das Kaleidoskop von 1913 setzt sich mit der Zeit zu einem Gesamtbild, einem Panorama der Epoche zusammen. Die Zeit vor dem Ersten Weltkrieg ist hoch ambivalent, das macht ihren Reiz aus heutiger Betrachtung aus: sowohl hochmodern als auch rückwärtsgewandt; sowohl moralisch streng konservativ als auch alle Grenzen testend und überschreitend. Ganz richtig beschwört Illies nicht den „Abendglanz“, der in der Rückschau gern herbeigerufen wird: in der Sicht der Zeitgenossen war das Ende ihrer Welt durch den Krieg nicht absehbar, im Gegenteil. Ein großer Krieg galt als zunehmend unwahrscheinlich, die Welt und die Wirtschaft waren fast wie in heutiger Zeit verflochten und vernetzt. Die Kultur schritt von Höhepunkt zu Höhepunkt voran, das Fin de Siècle war vorbei, die vielen Kunstrichtungen gingen voran und wurden zunehmend abstrakter.

Eine gewisse Untergangsstimmung will Illies sich aber nicht entgehen lassen. Er zitiert die Weltuntergangsszenarien, von denen C.G.Jung träumt, und er führt eine zeitgenössische Novelle an, in der ein spannungsreiches Duell beschrieben wird, „empfindlich und feinschalig wie eine Frucht, die auf dem Südhange gereift ist“ – daraus macht er 1913 zum Jahr „am Südhang der Geschichte“. Als wollte er den Untergang am Horizont sehen können, der für die Zeitgenossen unsichtbar sein musste. Aber die latente Depression muss er bei seinen Künstlern nicht lange suchen, die Empfindsamkeit ist ihnen angesichts der immer weiter voranstürmenden Moderne ganz natürlich zu eigen. Und in der Tat waren einige Zeitgenossen ihrer Umwelt überdrüssig; in welcher Gestalt auch immer sie eine Veränderung wollten.

Das soll für den groben Eindruck genügen. Alles Weitere lässt sich nur durch das Buch selbst erleben – und erleben muss man das Buch, sodass man tatsächlich in das Jahr 1913 eintauchen kann (oder das, was Illies durch seine Auswahl und seinen Blickwinkel daraus gemacht hat). Ein Buch, das sich mit ein wenig Abstand wieder lohnen wird zu lesen.

Brouwer’s Fixed Point Theorem

Recently, we have concluded the text on the Transformation formula, remarking that it was a tool in an elementary proof of Brouwer’s Fixed Point Theorem. Let’s have a closer look at that.

Brouwer’s Fixed Point Theorem is at the core of many insights in topology and functional analysis. As many other powerful theorems, it can be stated and understood very easily, however the proof is quite deep. In particular, the conclusions that are drawn from it, are considered even deeper. As we shall see, Brouwer’s theorem can be shown in an elementary fashion, where the Transformation Formula, the Inverse Function Theorem and Weierstrass’ Approximation Theorem are the toughest stepping stones; note that we have given a perfectly elementary proof of Weierstrass’ Theorem before. This makes Brouwer’s theorem accessible to undergraduate calculus students (even though, of course, these stepping stones already mean bringing the big guns to the fight). The downside is that the proof, even though elementary, is quite long-ish. The undergraduate student needs to exercise some patience.

 

Theorem (Brouwer, 1910): Let K:=\{x\in\mathbb{R}^p\colon \left|x\right|\leq1\} be the compact unit ball, and let f:K\to K be continuous. Then f has a fixed point, i.e. there is some x\in K such that f(x)=x.

 

There are many generalizations of the Theorem, considering more complex sets instead of K, and taking place in the infinite-dimensional space. We shall get back to that later. First, we shall look at a perfectly trivial and then a slightly less trivial special case.

 

For p=1, the statement asks to find a fixed point for the continuous mapping f:[0,1]\to[0,1]. W.l.o.g. we have shrunk the set K to [0,1] instead of [-1,1] to avoid some useless notational difficulty. This is a standard exercise on the intermediate value theorem with the function g(x):=f(x)-x. Either, f(1)=1 is the fixed point, or else f(1)<1, meaning g(1)<0 and g(0)=f(0)\geq0. As g is continuous, some point needs to be the zero of g, meaning 0=g(\xi) = f(\xi)-\xi and hence f(\xi)=\xi. q.e.d. (p=1)

 

For p=2, things are still easy to see, even though a little less trivial. This is an application of homotopy theory (even though one doesn’t need to know much about it). The proof is by contradiction however. We will show an auxiliary statement first: there is no continuous mapping h:K\to\partial K, which is the identity on \partial K, i.e. h(x)=x for x\in\partial K. If there was, we would set

\displaystyle H(t,s):=h(se^{it}), \qquad t\in[0,2\pi], s\in[0,1].

H is a homotopy of the constant curve h(0) = H(t,0) to the circle e^{it} = h(e^{it}) = H(t,1). This means, we can continuously transform the constant curve to the circle. This is a contradiction, as the winding number of the constant is 0, but the winding number of the circle is 1. There can be no such h.

Now, we turn to the proof of the actual statement of Brouwer’s Theorem: If f had no fixed point, we could define a continuous mapping as follows: let x\in K, and consider the line through x and f(x) (which is well-defined by assumption). This line crosses \partial K in the point h(x); actually there are two such points, we shall use the one that is closer to x itself. Apparently, h(x)=x for x\in\partial K. By the auxiliary statement, there is no such h and the assumption fails. f must have a fixed point. q.e.d. (p=2)

 

For the general proof, we shall follow the lines of Heuser who has found this elementary fashion in the 1970’s and who made it accessible in his second volume of his book on calculus. It is interesting, that most of the standard literature for undergraduate students shies away from any proof of Brouwer’s theorem. Often, the theorem is stated without proof and then some conclusions and applications are drawn from it. Sometimes, a proof via differential forms is given (such as in Königsberger’s book, where it is somewhat downgraded to an exercise after the proof of Stoke’s Theorem) which I wouldn’t call elementary because of the theory which is needed to be developed first. The same holds for proofs using homology groups and the like (even though this is one of the simplest fashions to prove the auxiliary statement given above – it was done in my topology class, but this is by no means elementary).

A little downside is the non-constructiveness of the proof we are about to give. It is a proof by contradiction and it won’t give any indication on how to find the fixed point. For many applications, even the existence of a fixed point is already a gift (think of Peano’s theorem on the existence of solutions to a differential equation, for instance). On the other hand, there are constructive proofs as well, a fact that is quite in the spirit of Brouwer.

In some way, the basic structure of the following proof is similar to the proof that we gave for the case p=2. We will apply the same reasoning that concluded the proof for the special case (after the auxiliary statement), we will just add a little more formality to show that the mapping g is actually continuous and well-defined. The trickier part in higher dimensions is to show the corresponding half from which the contradiction followed. Our auxiliary statement within this previous proof involved the non-existence of a certain continuous mapping, that is called a retraction: for a subset A of a topological space X, f:X\to A is called a retraction of X to A, if f(x)=x for all x\in A. We have found that there is no retraction from K to \partial K. As a matter of fact, Brouwer’s Fixed Point Theorem and the non-existence of a retraction are equivalent (we’ll get back to that at the end).

The basic structure of the proof is like this:

  • we reduce the problem to polynomials, so we only have to deal with those functions instead of a general continuous f;
  • we formalize the geometric intuition that came across in the special case p=2 (this step is in essence identical to what we did above): basing on the assumption that Brouwer’s Theorem is wrong, we define a mapping quite similar to a retraction of K to \partial K;
  • we show that this almost-retraction is locally bijective;
  • we find, via the Transformation Formula, a contradiction: there can be no retraction and there must be a fixed point.

Steps 3 and 4 are the tricky part. They may be replaced by some other argument that yields a contradiction (homology theory, for instance), but we’ll stick to the elementary parts. Let’s go.

 

Lemma (The polynomial simplification): It will suffice to show Brouwer’s Fixed Point Theorem for those functions f:K\to K, whose components are polynomials on K and which have f(K)\subset\mathring K.

 

Proof: Let f:K\to K continuous, it has the components f = (f_1,\ldots,f_p), each of which has the arguments x_1,\ldots,x_p. By Weierstrass’ Approximation Theorem, for any \varepsilon>0 there are polynomials p_k^\varepsilon such that \left|f_k(x)-p_k^\varepsilon(x)\right| < \varepsilon, k=1,\ldots,p, for any x\in K. In particular, there are polynomials \varphi_{k,n} such that

\displaystyle \left|f_k(x)-\varphi_{k,n}(x)\right| < \frac{1}{\sqrt{p}n}\qquad\text{for any }x\in K.

If we define the function \varphi_n:=(\varphi_{1,n},\ldots,\varphi_{p,n}) which maps K to \mathbb{R}^p, we get

\displaystyle    \begin{aligned}    \left|f(x)-\varphi_n(x)\right|^2 &= \sum_{k=1}^p\left|f_k(x)-\varphi_{k,n}(x)\right|^2 \\    &< \frac{p}{pn^2} \\    &= \frac1{n^2},\qquad\text{for any }x\in K    \end{aligned}

and in particular \varphi_n\to f uniformly in K.

Besides,

\displaystyle \left|\varphi_n(x)\right|\leq\left|\varphi_n(x)-f(x)\right| + \left|f(x)\right| < \frac1n + \left|f(x)\right| \leq \frac1n + 1 =:\alpha_n.

This allows us to set

\displaystyle \psi_n(x) = \frac{\varphi_n(x)}{\alpha_n}.

This function also converges uniformly to f, as for any x\in K,

\displaystyle    \begin{aligned}    \left|\psi_n(x)-f(x)\right| &= \left|\frac{\varphi_n(x)}{\alpha_n} - f(x)\right| \\    &= \frac1{\left|\alpha_n\right|}\left|\varphi_n(x)-\alpha_nf(x)\right|\\    &\leq \frac1{\left|\alpha_n\right|}\left|\varphi_n(x)-f(x)\right| + \frac1{\left|\alpha_n\right|}\left|f(x)-\alpha_nf(x)\right|\\    &< \frac1{\left|\alpha_n\right|}\frac1n + \frac1{\left|\alpha_n\right|}\left|f(x)\right|\left|1-\alpha_n\right|\\    &< (1+\delta)\frac1n + \frac{\delta}{1+\delta}\left|f(x)\right|\\    &< \varepsilon \qquad\text{for }n\gg0.    \end{aligned}

Finally, for x\in K, by construction, \left|\varphi_n(x)\right|\leq\alpha_n, and so \left|\psi_n(x)\right| = \frac{\left|\varphi_n(x)\right|}{\alpha_n} < 1, which means that \psi_n:K\to\mathring K.

The point of this lemma is to state that if we had shown Brouwer’s Fixed Point Theorem for every such function \psi_n:K\to\mathring K, whose components are polynomials, we had proved it for the general continuous function f. This can be seen as follows:

As we suppose Brouwer’s Theorem was true for the \psi_n, there would be a sequence (x_n)\subset K with \psi_n(x_n) = x_n. As K is (sequentially) compact, there is a convergent subsequence (x_{n_j})\subset(x_n), and \lim_jx_{n_j} = x_0\in K. For sufficiently large j, we see

\displaystyle \left|\psi_{n_j}(x_{n_j})-f(x_0)\right| \leq\left|\psi_{n_j}(x_{n_j})-f(x_{n_j})\right| + \left|f(x_{n_j})-f(x_0)\right| < \frac\varepsilon2 + \frac\varepsilon2.

The first bound follows from the fact that \psi_{n_j}\to f uniformly, the second bound is the continuity of f itself, with the fact that x_{n_j}\to x_0. In particular,

\displaystyle x_0 = \lim_{j} x_{n_j} = \lim_{j} \psi_{n_j}(x_{n_j}) = f(x_0).

So, f has the fixed point x_0, which proves Brouwer’s Theorem.

In effect, it suffices to deal with functions like the \psi_n for the rest of this text. q.e.d.

 

Slogan (The geometric intuition): If Brouwer’s Fixed Point Theorem is wrong, then there is “almost” a retraction of K to \partial K.

Or, rephrased as a proper lemma:

Lemma: For f being polynomially simplified as in the previous lemma, assuming x\neq f(x) for any x\in K, we can construct a continuously differentiable function g_t:K\to K, t\in[0,1], with g_t(x)=x for x\in\partial K. This function is given via

\displaystyle g_t(x) =x + t\lambda(x)\bigl(x-f(x)\bigr),

\displaystyle \lambda(x)=\frac{-x\cdot\bigl(x-f(x)\bigr)+\sqrt{\left(x\cdot\bigl(x-f(x)\bigr)\right)^2+\bigl(1-\left|x\right|^2\bigr)\left|x-f(x)\right|^2}}{\left|x-f(x)\right|^2}.

The mapping t\mapsto g_t is the direct line from x to the boundary of \partial K, which also passes through f(x). \lambda(x) is the parameter in the straight line that defines the intersection with \partial K.

 

Proof: As we suppose, Brouwer’s Fixed Point Theorem is wrong the continuous function \left|x-f(x)\right| is positive for any x\in K. Because of continuity, for every y\in \partial K, there is some \varepsilon = \varepsilon(y) > 0, such that still \left|x-f(x)\right|>0 in the neighborhood U_{\varepsilon(y)}(y).

Here, we have been in technical need of a continuation of f beyond K. As f is only defined on K itself, we might take f(x):=f\bigl(\frac{x}{\left|x\right|}\bigr) for \left|x\right|>1. We still have \left|f(x)\right| < 1 and f(x)\neq x, which means that we don’t get contradictions to our assumptions on f. Let’s not dwell on this for longer than necessary.

On the compact set \partial K, finitely many of the neighborhoods U_{\varepsilon(y)}(y) will suffice to cover \partial K. One of them will have a minimal radius. We shall set \delta =  \min_y\varepsilon(y) +1, to find: there is an open set U = U_\delta(0)\supset K with \left|x-f(x)\right| >0 for all x\in U.

Let us define for any x\in U

\displaystyle d(x):=\frac{\left(x\cdot\bigl(x-f(x)\bigr)\right)^2+\bigl(1-\left|x\right|\bigr)^2\left|x-f(x)\right|^2}{\left|x-f(x)\right|^4}.

It is well-defined by assumption. We distinguish three cases:

 

a) \left|x\right|<1: Then 1-\left|x\right|^2>0 and the numerator of d(x) is positive.

b) \left|x\right|=1: Then the numerator of d(x) is

\displaystyle \left(x\cdot\bigl(x-f(x)\bigr)\right)^2 = \bigl(x\cdot x - x\cdot f(x)\bigr)^2 = \bigl(\left|x\right|^2-x\cdot f(x)\bigr)^2 = \bigl(1-x\cdot f(x)\bigr)^2,

where by Cauchy-Schwarz and by assumption on f, we get

\displaystyle x\cdot f(x) \leq \left|x\right|\left|f(x)\right| = \left|f(x)\right| < 1\qquad (\spadesuit).

In particular, the numerator of d(x) is strictly positive.

c) \left|x\right|>1: This case is not relevant for what’s to come.

 

We have seen that d(x)>0 for all \left|x\right|\leq 1. Since d is continuous, a compactness argument similar to the one above shows that there is some V = V_{\delta'}(0)\supset K with d(x)>0 for all x\in V. If we pick \delta'=\delta if \delta is smaller, we find: d is positive and well-defined on V.

The reason why we have looked at d is not clear yet. Let us grasp at some geometry first. Let x\in V and \Gamma_x = \left\{x+\lambda\bigl(x-f(x)\bigr)\colon\lambda\in\mathbb{R}\right\} the straight line through x and f(x). If we look for the intersection of \Gamma_x with \partial K, we solve the equation

\displaystyle\left|x+\lambda\bigl(x-f(x)\bigr)\right| = 1.

The intersection “closer to” x is denoted by some \lambda>0.

This equation comes down to

\displaystyle    \begin{aligned}    && \left(x+\lambda\bigl(x-f(x)\bigr)\right) \cdot \left(x+\lambda\bigl(x-f(x)\bigr)\right) &=1 \\    &\iff& \left|x\right|^2 + 2\lambda x\cdot\bigl(x-f(x)\bigr) + \lambda^2\left|x-f(x)\right|^2 &=1\\    &\iff& \lambda^2\left|x-f(x)\right|^2 + 2\lambda x\cdot\bigl(x-f(x)\bigr) &= 1-\left|x\right|^2\\    &\iff& \left(\lambda+\frac{x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^2}\right)^2 &= \frac{1-\left|x\right|^2}{\left|x-f(x)\right|^2} + \left(\frac{x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^2}\right)^2 \\    &\iff& \left(\lambda+\frac{x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^2}\right)^2 &= \frac{(1-\left|x\right|)^2\left|x-f(x)\right|^2+\left(x\cdot\bigl(x-f(x)\bigr)\right)^2}{\left|x-f(x)\right|^4} \\    &\iff& \left(\lambda+\frac{x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^2}\right)^2 &= d(x).    \end{aligned}

As x\in V, d(x)>0, and hence there are two real solutions to the last displayed equation. Let \lambda(x) be the larger one (to get the intersection with \partial K closer to x), then we find

\displaystyle    \begin{aligned}    \lambda(x) &= \sqrt{d(x)} - \frac{x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^2}\\    &= \frac{-x\cdot\bigl(x-f(x)\bigr)+\sqrt{\left(x\cdot\bigl(x-f(x)\bigr)\right)^2+\bigl(1-\left|x\right|^2\bigr)\left|x-f(x)\right|^2}}{\left|x-f(x)\right|^2}.    \end{aligned}

By construction,

\displaystyle \left|x+\lambda(x)\bigl(x-f(x)\bigr)\right| = 1,\qquad\text{for all }x\in V.\qquad(\clubsuit)

Let us define

\displaystyle g_t(x) = x+t\lambda(x)\bigl(x-f(x)\bigr),\qquad t\in[0,1],~x\in V.

This is (at least) a continuously differentiable function, as we simplified f to be a polynomial and the denominator in \lambda(x) is bounded away from 0. Trivially and by construction, g_0(x)=x and \left|g_1(x)\right| = 1 for all x\in V.

For \left|x\right|<1 and t<1, we have

\displaystyle    \begin{aligned}    \left|x+t\lambda(x)\bigl(x-f(x)\bigr)\right| &\stackrel{\hphantom{(\clubsuit)}}{=} \left|\bigl(t+(1-t)\bigr)x + t\lambda(x)\bigl(x-f(x)\bigr)\right|\\    &\stackrel{\hphantom{(\clubsuit)}}{=}\left|t\left(x+\lambda(x)\bigl(x-f(x)\bigr)\right)+(1-t)x\right|\\    &\stackrel{\hphantom{(\clubsuit)}}{\leq} t\left|x+\lambda(x)\bigl(x-f(x)\bigr)\right|+(1-t)\left|x\right|\\    &\stackrel{(\clubsuit)}{=} t+(1-t)\left|x\right|\\    &\stackrel{\hphantom{(\clubsuit)}}{<} t+(1-t) = 1\qquad (\heartsuit).    \end{aligned}

Hence, \left|g_t(x)\right|<1 for \left|x\right|<1 and t\in[0,1). This means g_t(\mathring K)\subset\mathring K for t<1.

For \left|x\right|=1, we find (notice that x\cdot\bigl(x-f(x)\bigr)>0 for \left|x\right|=1, by (\spadesuit)).

\displaystyle    \begin{aligned}    \lambda(x) &= \frac{-x\cdot\bigl(x-f(x)\bigr)+\sqrt{\left(x\cdot\bigl(x-f(x)\bigr)\right)^2}}{\left|x-f(x)\right|^4} \\    &= \frac{-x\cdot\bigl(x-f(x)\bigr)+x\cdot\bigl(x-f(x)\bigr)}{\left|x-f(x)\right|^4} = 0.    \end{aligned}

This is geometrically entirely obvious, since \lambda(x) denotes the distance of x to the intersection with \partial K; if x\in\partial K, this distance is apparently 0.

We have seen that g_t(x)=x for \left|x\right|=1 for any t\in[0,1]. Hence, g_t(\partial K)=\partial K for all t. g_t is almost a retraction, g_1 actually is a retraction. q.e.d.

 

Note how tricky the general formality gets, compared to the more compact and descriptive proof that we gave in the special case p=2. The arguments of the lemma and in the special case are identical.

 

Lemma (The bijection): Let \hat K be a closed ball around 0, K\subset\hat K\subset V. The function g_t is a bijection on \hat K, for t\geq0 sufficiently small.

 

Proof: We first show that g_t is injective. Let us define h(x):=\lambda(x)\bigl(x-f(x)\bigr), for reasons of legibility. As we saw above, h is (at least) continuously differentiable. We have

\displaystyle g_t(x) = x+th(x),\qquad g_t'(x)=\mathrm{Id}+th'(x).

As \hat K is compact, h' is bounded by \left|h'(x)\right|\leq C, say. By enlarging C if necessary, we can take C\geq1. Now let x,y\in\hat K with g_t(x)=g_t(y). That means x+th(x)=y+th(y) and so, by the mean value theorem,

\displaystyle \left|x-y\right| = t\left|h(x)-h(y)\right|\leq tC\left|x-y\right|.

By setting \varepsilon:=\frac1C and taking t\in[0,\varepsilon), we get \left|x-y\right| = 0. g_t is injective for t<\varepsilon.

Our arguments also proved \left|th'(x)\right| < 1. Let us briefly look at the convergent Neumann series \sum_{k=0}^\infty\bigl(th'(x)\bigr)^k, having the limit s, say. We find

\displaystyle sth'(x) = \sum_{k=0}^\infty\bigl(th'(x)\bigr)^{k+1} = s-\mathrm{Id},

which tells us

\displaystyle \mathrm{Id} = s-s\cdot th'(x) = s\bigl(\mathrm{Id}-th'(x)\bigr).

In particular, g_t'(x) = \mathrm{Id}-th'(x) is invertible, with the inverse s. Therefore, \det g_t'(x)\neq0. Since this determinant is a continuous function of t, and \det g_0'(x) = \det\mathrm{Id} = 1, we have found

\displaystyle \det g_t'(x) > 0 \text{ for any }t\in[0,\varepsilon),~x\in\hat K.

Now, let us show that g_t is surjective. As \det g_t'(x) never vanishes on \hat K, g_t is an open mapping (by an argument involving the inverse function theorem; g_t can be inverted locally in any point, hence no point can be a boundary point of the image). This means that g_t(\mathring K) is open.

Let z\in K with z\notin g_t(\mathring K); this makes z the test case for non-surjectivity. Let y\in g_t(\mathring K); there is some such y due to (\heartsuit). The straight line between y and z is

\displaystyle \overline{yz}:=\left\{(1-\lambda)y+\lambda z\colon \lambda\in[0,1]\right\}.

As g_t is continuous, there must be some point v\in\partial g_t(\mathring K)\cap\overline{yz}; we have to leave the set g_t(\mathring K) somewhere. Let us walk the line until we do, and then set

\displaystyle v=(1-\lambda_0)y+\lambda_0z,\qquad\text{with }\lambda_0=\sup\left\{\lambda\in[0,1]\colon\overline{y;(1-\lambda)y+\lambda z}\subset g_t(\mathring K)\right\}.

Now, continuous images of compact sets remain compact: g_t(K) is compact and hence closed. Therefore, we can conclude

\displaystyle g_t(\mathring K)\subset g_t(K)\quad\implies\quad \overline{g_t(\mathring K)}\subset g_t(K)\quad\implies\quad v\in\overline{g_t(\mathring K)}\subset g_t(K).

This means that there is some u\in K such that v=g_t(u). As g_t(\mathring K) is open, u\in\partial K (since otherwise, v\notin\partial g_t(\mathring K) which contradicts the construction). Therefore, \left|u\right|=1, and since g_t is almost a retraction, g_t(u)=u. Now,

\displaystyle v=g_t(u) = u \quad\implies\quad v\in\partial K.

But by construction, v is a point between z\in K and y\in g_t(\mathring K); however, y\notin\partial K, since g_t(\mathring K) is open. Due to the convexity of K, we have no choice but z\in\partial K, and by retraction again, g_t(z)=z. In particular, z\in g_t(\partial K).

We have shown that if z\notin g_t(\mathring K), then z\in g_t(\partial K). In particular, z\in g_t(K) for any z\in K. g_t is surjective. q.e.d.

 

Lemma (The Integral Application): The real-valued function

\displaystyle V(t)=\int_K\det g_t'(x)dx

is a polynomial and satisfies V(1)>0.

 

Proof: We have already seen in the previous lemma that \det g_t'(x)>0 on x\in\mathring{\hat K} for t<\varepsilon. This fact allows us to apply the transformation formula to the integral:

\displaystyle V(t) = \int_{g_t(K)}1dx.

As g_t is surjective, provided t is this small, g_t(K) = K, and therefore

\displaystyle V(t) = \int_K1dx = \mu(K).

In particular, this no longer depends on t, which implies V(t)>0 for any t<\varepsilon.

By the Leibniz representation of the determinant, \det g_t'(x) is a polynomial in t, and therefore, so is V(t). The identity theorem shows that V is constant altogether: in particular V(1)=V(0)>0. q.e.d.

 

Now we can readily conclude the proof of Brouwer’s Fixed Point Theorem, and we do it in a rather unexpected way. After the construction of g_t, we had found \left|g_1(x)\right|=1 for all x\in V. Let us write this in its components and take a partial derivative (j=1,\ldots,p)

\displaystyle    \begin{aligned}    &&1 &= \sum_{k=1}^p\bigl(g_{1,k}(x)\bigr)^2\\    &\implies& 0 &= \frac\partial{\partial x_j}\sum_{k=1}^p\bigl(g_{1,k}(x)\bigr)^2 = \sum_{k=1}^p2\frac{\partial g_{1,k}(x)}{\partial x_j}g_{1,k}(x)    \end{aligned}

This last line is a homogeneous system of linear equations, that we might also write like this

\displaystyle \begin{pmatrix}\frac{\partial g_{1,1}(x)}{\partial x_1}&\cdots &\frac{\partial g_{1,p}(x)}{\partial x_1}\\ \ldots&&\ldots\\ \frac{\partial g_{1,1}(x)}{\partial x_p}&\cdots&\frac{\partial g_{1,p}(x)}{\partial x_p}\end{pmatrix} \begin{pmatrix}\xi_1\\\ldots\\\xi_p\end{pmatrix} = 0,

and our computation has shown that the vector \bigl(g_{1,1}(x),\ldots,g_{1,p}(x)\bigr) is a solution. But the vector 0 is a solution as well. These solutions are different because of \left|g_1(x)\right| = 1. If a system of linear equations has two different solutions, it must be singular (it is not injective), and the determinant of the linear system vanishes:

\displaystyle 0 = \det \begin{pmatrix}\frac{\partial g_{1,1}(x)}{\partial x_1}&\cdots &\frac{\partial g_{1,p}(x)}{\partial x_1}\\ \ldots&&\ldots\\ \frac{\partial g_{1,1}(x)}{\partial x_p}&\cdots&\frac{\partial g_{1,p}(x)}{\partial x_p}\end{pmatrix} = \det g_1'(x).

This means

\displaystyle 0 = \int_K\det g_1'(x)dx = V(1) > 0.

A contradiction, which stems from the basic assumption that Brouwer’s Fixed Point Theorem were wrong. The Theorem is thus proved. q.e.d.

 

Let us make some concluding remarks. Our proof made vivid use of the fact that if there is a retraction, Brouwer’s Theorem must be wrong (this is where we got our contradiction in the end: the retraction cannot exist). The proof may also be started the other way round. If we had proved Brouwer’s Theorem without reference to retractions (this is how Elstrodt does it), you can conclude that there is no retraction from K to \partial K as follows: if there was a retraction g:K\to\partial K, we could consider the mapping -g. It is, in particular, a mapping of K to itself, but it does not have any fixed point – a contradiction to Brouwer’s Theorem.

 

Brouwer’s Theorem, as we have stated it here, is not yet ready to drink. For many applications, the set K is too much of a restriction. It turns out, however, that the hardest work has been done. Some little approximation argument (which in the end amounts to continuous projections) allows to formulate, for instance:

  • Let C\subset\mathbb{R}^p be convex, compact and C\neq\emptyset. Let f:C\to C be continuous. Then f has a fixed point.
  • Let E be a normed space, K\subset E convex and \emptyset\neq C\subset K compact. Let f:K\to C be continuous. Then f has a fixed point.
  • Let E be a normed space, K\subset E convex and K\neq\emptyset. Let f:K\to K be continuous. Let either K be compact or K bounded and f(K) relatively compact. Then f has a fixed point.

The last two statements are called Schauder’s Fixed Point Theorems, which may often be applied in functional analysis, or are famously used for proofs of Peano’s Theorem in differential equations. But at the core of all of them is Brouwer’s Theorem. This seems like a good place to end.