Machine-Learning-Projekt: Stellar Classification Dataset - SDSS17

Gewählter Datensatz

Name: Stellar Classification Dataset - SDSS17 Quelle: Öffentliche Datenquelle (Kaggle.com) Lizenz: Public Domain (SDSS) Anzahl der Einträge: 100.000 Zeilen, 18 Spalten

Warum dieser Datensatz?

Ich habe diesen Datensatz gewählt, da die Klassifikation von Himmelsobjekten eine spannende Anwendung für Machine Learning ist. Besonders interessant ist es, zu analysieren, welche Faktoren eine Rolle spielen, um Sterne, Galaxien und Quasare voneinander zu unterscheiden. Der Datensatz bietet:

Reale astronomische Beobachtungen zur Kategorisierung von Objekten im Universum.
Eine wissenschaftlich relevante Basis für Supervised Learning (Klassifikation).
Die Möglichkeit, astronomische Muster durch Clustering oder Anomalieerkennung zu entdecken.

Datensatzbeschreibung

Der Stellar Classification Dataset - SDSS17 enthält 100.000 Beobachtungen aus dem Sloan Digital Sky Survey (SDSS), einer der grössten astronomischen Datenbanken. Ziel ist es, Machine-Learning-Modelle zu entwickeln, die basierend auf spektralen Merkmalen automatisch Sterne, Galaxien oder Quasare klassifizieren können.

Beschreibung

obj_ID: Einzigartige ID für jedes Objekt in der SDSS-Datenbank.

alpha, delta: Himmelskoordinaten (Rektaszension & Deklination).

u, g, r, i, z: Helligkeitswerte in verschiedenen Spektralbändern. (ultraviolett; grün; rot; Licht im nahen Infrafrotbereich; Licht im weiten Infrarotbereich)

class: Zielvariable (Stern, Galaxie oder Quasar). (Heisser Glaskörper - Lichterzeugung durch Kernfusion; Ansammlung von Sternen, Gas, Staub; Heller Kern einer galaxie - sehr weit entfernt) redshift: Mass für die Rotverschiebung – gibt Hinweise auf die Entfernung.

plate, MJD, fiber_ID: Technische Identifikatoren für die Beobachtung.

Datenschutzmassnahmen

Der Datensatz enthält keine persönlichen Daten und wurde ausschliesslich für wissenschaftliche Zwecke erhoben.

Alle Informationen sind frei verfügbar und öffentlich zugänglich.

Die Daten stammen von einer astronomischen Himmelsbeobachtung und beeinträchtigen keine Datenschutzrichtlinien.

Einschränkungen des Datensatzes

Ein Nachteil dieses Datensatzes ist, dass er keine Zeitreiheninformationen enthält – zukünftige oder sich verändernde Objekte können nicht vorhergesagt werden. Zudem sind einige Kategorien möglicherweise nicht gleichmässig verteilt, was zu Class Imbalance führen könnte. Eine Verbesserung wäre die Ergänzung weiterer astronomischer Merkmale oder neuer Daten aus zukünftigen SDSS-Releases.

Mögliche Machine-Learning-Anwendungen

Klassifikation: Vorhersage, ob ein Objekt ein Stern, eine Galaxie oder ein Quasar ist.
Clustering: Entdeckung unbekannter Gruppen oder Muster in den Daten.
Anomalieerkennung: Identifikation von seltenen oder aussergewöhnlichen Objekten.

Randinfos

Ich habe den Stellar Classification Dataset - SDSS17 gewählt, weil mich das Universum und die Astrophysik schon immer fasziniert haben. Schon als Kind habe ich gerne Dokumentationen über den Weltraum geschaut und mir vorgestellt, wie es wäre, ferne Galaxien zu erforschen. Einer meiner Lieblingsfilme ist Interstellar, weil er auf spannende Weise Wissenschaft und Science-Fiction verbindet.

Mit diesem Datensatz kann ich meine Begeisterung für den Weltraum mit Machine Learning verknüpfen. Ich finde es spannend, dass echte astronomische Beobachtungen aus dem Sloan Digital Sky Survey (SDSS) genutzt werden können, um Sterne, Galaxien und Quasare automatisch zu klassifizieren. Das zeigt, wie moderne Technologien uns helfen, das Universum besser zu verstehen.

Besonders interessant finde ich, dass die Rotverschiebung (Redshift) im Datensatz enthalten ist, die eine entscheidende Rolle bei der Erforschung der Expansion des Universums spielt. Mit Machine Learning kann ich untersuchen, welche Merkmale dabei helfen, Himmelsobjekte voneinander zu unterscheiden – genau wie Astronomen es in der realen Forschung tun. Dieses Projekt gibt mir die Möglichkeit, mit echten Weltraumdaten zu arbeiten und mein Wissen über KI und Astrophysik zu erweitern.

Was kann man vorhersagen?

Falls Ihnen der Datensatz nichts sagt, kann ich kurz erklären was man mithilfe ML vorhersagen kann:

Klassifikation des Objekttyps (GALAXY, QSO, STAR)
Vorhersage des Redshifts
Unterscheidung zwischen Sternen und fernen Objekten
Bestimmung von ungewöhnlichen Objekten (Outlier Detection)

Teil 2

Für den zweiten Teil dieser LB, schauen sie sich die Jupyter Notebook Datei an.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
README.md		README.md
data_description.ipynb		data_description.ipynb
evaluation.ipynb		evaluation.ipynb
model.ipynb		model.ipynb
star_classification.csv		star_classification.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Machine-Learning-Projekt: Stellar Classification Dataset - SDSS17

Gewählter Datensatz

Warum dieser Datensatz?

Datensatzbeschreibung

Beschreibung

Datenschutzmassnahmen

Einschränkungen des Datensatzes

Mögliche Machine-Learning-Anwendungen

Randinfos

Was kann man vorhersagen?

Teil 2

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Machine-Learning-Projekt: Stellar Classification Dataset - SDSS17

Gewählter Datensatz

Warum dieser Datensatz?

Datensatzbeschreibung

Beschreibung

Datenschutzmassnahmen

Einschränkungen des Datensatzes

Mögliche Machine-Learning-Anwendungen

Randinfos

Was kann man vorhersagen?

Teil 2

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages