Mit welchen Legierungsbestandteilen macht man einen Stahl besonders biegefest, extrem hart und rostfrei? Gibt es Halbleiter, die höhere Wirkungsgrade für Solarmodule versprechen und zugleich flexibler einsetzbar sind als Silicium? Welches wäre der beste Katalysator für eine ganz konkrete chemische Reaktion? Oder auch: Wie sollte man eine Oberfläche beschichten, um einen bestmöglichen Hitzeschutz zu erreichen? Um auf diese typischen Fragen von Materialwissenschaftlern künftig einfacher Antworten zu finden, möchten Forscher aus zwölf Einrichtungen der Max-Planck-Gesellschaft die Möglichkeiten besser ausschöpfen, die mit der Analyse großer Datenmengen verbunden sind. Zu diesem Zweck kooperieren sie sie im MaxNet on Big-Data-Driven Materials Science oder kurz BigMax.
Wenn Wissenschaftler nach einem neuen Material für einen bestimmten Zweck suchen, sind sie in der Regel bislang auf Experimente an ausgewählten Werkstoffen angewiesen. Und wissen dann doch nie, ob es nicht vielleicht eine noch bessere Lösung gibt. Wie praktisch wäre es da, wenn sowohl akademische als auch industrielle Forscher einfach in eine Tabelle schauen könnten, um das für ihren Zweck optimale Material zu finden? Doch bis dahin ist es noch ein weiter Weg. „Bisher sind allein rund 240.000 anorganische Materialien bekannt, aber manche Eigenschaften kennen wir nicht mal von 100 dieser Stoffe“, sagt Matthias Scheffler, Direktor am Berliner Fritz-Haber-Institut der Max-Planck-Gesellschaft. Als Theoretischer Physiker ist er sicher, dass die überall anfallenden großen Datenmengen, die sogenannten Big Data, dabei helfen können, der genannten Tabelle näherzukommen. Wobei ihm diese Tabelle eher als eine Art mehrdimensionale Materiallandkarte vorschwebt.
Scheffler ist Mitinitiator des institutsübergreifenden Bündnisses MaxNet on Big-Data-Driven Materials Science innerhalb der Max-Planck-Gesellschaft. BigMax hat sich zum Ziel gesetzt die großen, zum Teil schon vorhandenen Datenmengen in neuer Weise nutzbar und damit zu einer treibenden Kraft in der Materialforschung zu machen. An der Kooperation beteiligen sich neben dem Fritz-Haber-Institut noch elf weitere MPG-Einrichtungen: die Max-Planck-Institute für Dynamik komplexer technischer Systeme (in Magdeburg), für Kolloid- und Grenzflächenforschung (Potsdam-Golm), für Mikrostrukturphysik (Halle), für Polymerforschung (Mainz), für Eisenforschung GmbH (Düsseldorf), für Biogeochemie (Jena), für Physik komplexer Systeme (Dresden), für Struktur und Dynamik der Materie (Hamburg), für intelligente Systeme (Tübingen), für Informatik (Saarbrücken) sowie die Max Planck Computing and Data Facility (Garching).
Muster in großen Datenmengen liefern völlig neue Informationen
„In all diesen Einrichtungen wird bereits jetzt mit großen Datenmengen gearbeitet, die in Experimenten oder Computersimulationen anfallen“, erklärt Peter Benner. Der Mathematiker leitet am Magdeburger Max-Planck-Institut für Dynamik komplexer technischer Systeme die Fachgruppe „Computational Methods in Systems and Control Theory“. Beispielsweise, so Benner, liefern Verfahren wie die Röntgenstrukturanalyse oder auch die Atomsondentomographie allein pro Minute Millionen Daten. Daten, aus denen Forscher zum Beispiel Erkenntnisse über die Anordnung von Atomen in einem Festkörper gewinnen. Und auch die in Festkörperphysik und Chemie üblichen quantenmechanischen Rechnungen führen zu riesigen Datenvolumina. Aus ihnen leiten die Forscher schon jetzt Aussagen über Materialeigenschaften ab.
Das neue Bündnis möchte nun aber noch mehr Erkenntnisse aus solchen Daten gewinnen. Dazu sollen neue Methoden entwickelt und existierende weiterentwickelt werden. „Beispielsweise stellt die Datenlage in der Materialforschung sehr spezifische Herausforderungen an die Computeralgorithmen“, erklärt Benner, der die neue Kooperation nun gemeinsam mit Matthias Scheffler maßgeblich koordiniert. „All das geht am besten gemeinsam“, so Benner weiter. „Denn auch wenn wir in unterschiedlichen Disziplinen forschen, so stellen sich bei den jeweiligen Datenanalysen doch dieselben methodischen Fragen.
Ein zentrales Ziel: die Datenmengen auf besondere Strukturen oder Muster zu untersuchen, die es dann erlauben, neben den bisherigen noch weitere, völlig neue Informationen zu bekommen. Matthias Scheffler aus Berlin verweist auf andere Disziplinen, wo dies schon gelinge. Epidemieforscher etwa hätten aus Nutzeranfragen in Internetsuchmaschinen herauslesen können, in welchen Regionen gerade eine Grippe auftritt. Und sie konnten die Ausbreitung der Krankheit verfolgen und auf dieser Basis sogar ihren weiteren Verbreitungsweg vorhersagen. Man müsse das Muster in den Datenmengen nur erkennen, so Scheffler.
Ein neues Paradigma in den Materialwissenschaften
Dass künftig auch Materialforscher in ihrem vorhandenen Datenmaterial auf neue Erkenntnisse stoßen, ist daher eine der Hoffnungen der nun kooperierenden Max-Planck-Wissenschaftler. Das Netzwerk will die gemeinsamen Aktivitäten auf fünf verschiedene Themengebiete konzentrieren. Dabei geht es darum, die Eigenschaften von Metallen und Legierungen theoretisch vorhersagbar zu machen, die kausalen Zusammenhänge zwischen Materialeigenschaften und Datenstrukturen zu ermitteln, datendiagnostische Methoden zu entwickeln, um experimentelle Messdaten noch schneller in Bildinformationen zu überführen, sowie darum, Polymerwerkstoffe mit gewünschten Eigenschaften gezielt designen zu können. Als fünftes Gebiet will das Netzwerk eine schon begonnene Materials Encyclopedia weiterentwickeln. An dieser Enzyklopädie mit ausschließlich theoretisch berechneten Einträgen hatte bislang das Novel Materials Discovery Laboratory (NOMAD Center of Excellence) gearbeitet. Im Rahmen von BigMax sollen jetzt auch experimentelle Daten berücksichtigt werden.
Für Peter Benner steht dabei außer Frage, dass die institutsübergreifende Kooperation komplementäres Wissen zusammenbringen und so die Arbeit deutlich erleichtern wird. Als Beispiel sieht er die Datendiagnostik, bei der seine Magdeburger Gruppe mit Kollegen in Potsdam-Golm kooperiert. „In Golm forscht man an bildgebenden Verfahren, die neue Einblicke in die Nanostrukturen etwa von Biomaterialien wie Knochen erlauben“, erklärt Benner. „Wir Mathematiker können dabei helfen, die dabei anfallenden Datenmengen geeignet zu komprimieren, so dass sie sich schnell in informative Bilder überführen lassen.“
Bis sich der Traum der mehrdimensionalen Materiallandkarte erfüllt, in der man einfach nur noch nachschaut, welchen Stoff man gerade am besten einsetzen sollte, ist es noch ein weiter Weg. Dass Big Data dabei hilft, dem Ziel näherzukommen, steht für Matthias Scheffler außer Frage. Er sieht hier ein neues Paradigma in den Materialwissenschaften: „Bisher haben Forscher gezielt ausgesuchte Systeme untersucht und dazu, basierend auf einem allgemeinen theoretischen Verständnis, Modelle entwickelt“, so Scheffler. „Ich glaube, dass mit Big-Data-Analysen die Aufgabe künftig vor allem darin besteht, in großen Datenmengen nach Strukturen und Mustern zu suchen. Und wenn wir dann die Gleichungen haben, um diese zu beschreiben, können wir diese auch auf solche Materialien anwenden, die wir noch gar nicht analysiert haben.“
Mit Daten von Solarzellen zu neuenThermoelektrika
Der Physiker glaubt, mit diesem Vorgehen auch viel leichter auf unkonventionelle Lösungen stoßen zu können. „Im einzelnen Experiment geht man üblicherweise von etablierten Kriterien aus“, so Scheffler. „Das heißt: Man sucht vor allem in jener Substanzklasse nach Supraleitern, in der man vielleicht schon mal fündig geworden ist.“ Das erschwere aber gerade den Weg zu revolutionären Entwicklungen. Die Strukturanalyse in großen Datenmengen sei da viel unvoreingenommener. Matthias Scheffler kann sich daher gut vorstellen, dass man künftig beispielsweise in Daten, die im Zuge der Forschung an Solarzellen erzeugt wurden, etwa auch auf neue Thermoelektrika stößt – also Materialien, die unerwünschte Abwärme in nützliche Elektrizität umwandeln könnten.
Wenn es eines Tages tatsächlich gelänge, Materialeigenschaften theoretisch herzuleiten, dann hätte das für Peter Benner noch einen weiteren Vorteil. „Das Geld und die Zeit für manches Experiment ließen sich dann einsparen“, so der Mathematiker vom Magdeburger Max-Planck-Institut. Und auch die Geduld der Forscher würde dann weniger strapaziert, die sich manchem Erfolg derzeit nach der mühsamen Versuch-und-Irrtum-Methode annähern müssen.
Forschungsthemen von BigMax:
1. Structure and plasticity of metals: Es sollen Wege gefunden werden, aus den riesigen Datenmengen über die Positionen der einzelnen Atome ein wissenschaftliches Verständnis darüber zu erreichen, wie ein Stahl legiert und behandelt werden muss, um bestimmte Eigenschaften zu haben.
2. Data diagnostics in x-ray spectroscopy and tomography: Die Forscher wollen Methoden entwickeln, um die bei der sogenannten Kleinwinkel-Röntgenstreuungs-Tomographie (SAXS tomography) anfallenden immensen Datenmengen schneller in 3-D-Bilder zu überführen. Auf die Art würden überflüssige Messvorgänge schneller als solche erkannt – und könnten abgebrochen werden. Bisher dauert das Erstellen eines Bildes Stunden oder gar Tage.
3. Discovering interpretable patterns, correlations and causality: Mit neu zu entwickelnden wollen die Wissenschaftler in Daten Strukturen finden und diese interpretieren können. Ein Ziel ist es dabei, Zusammenhänge dieser Strukturen mit bestimmten Materialeigenschaften zu erkennen – und die Gründe dafür.
4. Learning Thermodynamic properties of soft-matter materials: Sowohl bei organischen als auch anorganischen Materialien werden manche Eigenschaften maßgeblich durch thermodynamische Größen wie die Entropie bestimmt. Dafür möchten die Forscher ein tieferes Verständnis erlangen und Wege finden, zum Beispiel den Temperatureinfluss auf solche Zusammenhänge beschreiben zu können. Dabei spielen Big-Data-basierte Techniken wie das sogenannte maschinelle Lernen eine wichtige Rolle.
5. The NOMAD Encyclopedia: Eine Materialien-Enzyklopädie, die im Rahmen des NOMAD (Novel Materials Discovery) Center of Excellence erstellt wurde (s.a. https://nomad-coe.eu), soll weiterentwickelt werden. Bisher enthält die Enzyklopädie ausschließlich berechnete Daten, nämlich die Ergebnisse von Millionen aufwendiger Simulationen. Künftig soll sie um experimentelle Daten erweitert werden.