Projekt: Vorhersage von Diabetes bei Patienten mithilfe von Machine Learning in MATLAB

Machine Learning · MATLAB · Klassifikation

MATLAB Dataset
Datensatz in MATLAB

Wobei die ersten acht Spalten unsere X-Eingaben sind und die letzte Spalte unsere Y-Ausgabe ist.

Künstliches Neuron
Modellstruktur (Neuron)

Das Modell besteht aus mehreren Eingangsvariablen (Inputs) \[ x_1, x_2, x_3, \dots, x_n \] den dazugehörigen Gewichten \[ w_1, w_2, w_3, \dots, w_n \] und einem Bias-Term \( b \).

In dieses „Diabetes Prediction“-Modell arbeitet das Neuron so :

\[ y = f(\text{Glukose} \cdot w_1 + \text{BMI} \cdot w_2 + \text{Alter} \cdot w_3 +...+ b) \]

Bedeutung der Komponenten
Symbol Bedeutung Beschreibung
\( x_i \) Eingangsvariablen Patientendaten (z. B. Glukose, BMI, Alter etc.)
\( w_i \) Gewichte Bestimmen die Bedeutung jedes Eingabewerts
\( b \) Bias Verschiebt die Aktivierungsfunktion, um das Modell flexibler zu machen
\( f \) Aktivierungsfunktion Wandelt die gewichtete Summe in eine Ausgabe um (z. B. Sigmoid, ReLU)
\( y \) Ausgabe Vorhersage des Neurons (z. B. Wahrscheinlichkeit für Diabetes)

Das Ziel des Trainings ist es, ein Modell zu erstellen, das aus Beispieldaten (Patientendaten) lernt, Diabetes vorherzusagen.

Dazu werden die Eingabedaten (Glukos, Alter, ...) und die Ausgabedaten Y verwendet, um optimale Gewichtungen \( W \) und den Bias \( b \) zu bestimmen. Dadurch „lernt“ das Modell, Zusammenhänge zwischen den Eingangsvariablen (z. B. Glukose, BMI, Alter) und der Zielvariable (Diabetes ja/nein) zu erkennen.

Train Test Validate
Training / Validation / Test (Split)

MATLAB:

MATLAB Training
Training in MATLAB

- Bewertung der Leistung des Modells.

1- KPIs - Confusion Matrix
Confusion Matrix
Confusion Matrix (KPIs)
. Allgemeine Bedeutung

Eine Confusion Matrix zeigt, wie oft das Modell richtig oder falsch klassifiziert hat:

. Training Confusion Matrix

➡️ Bewertung:

Das Modell lernt die Muster recht gut, aber es hat noch Schwierigkeiten mit Klasse 1(diabetisch) (relativ viele Fehlklassifikationen). Es könnte ein Klassenungleichgewicht vorliegen oder die Merkmale von Klasse 1 sind schwerer zu unterscheiden.

. Validation Confusion Matrix

➡️ Bewertung:

Die Leistung bleibt ähnlich wie im Training → kein starkes Overfitting(Trainingsdaten fast „auswendig gelernt). (relativ viele Fehlklassifikationen). Aber die Klasse 1 bleibt deutlich schwächer, das Modell bevorzugt also vermutlich Klasse 0 (Bias).

. Test Confusion Matrix

➡️ Bewertung:

Das Modell generalisiert aber gut! Die Genauigkeit auf Testdaten ist sogar leicht höher, was auf einestabile Trainings- und Validierungsstrategie hinweist. Die Unterscheidung von Klasse 1 klappt hier etwas besser.

. Overall (All Confusion Matrix)

➡️ Gesamtbewertung:

2- Receiver Operating Characteristic (ROC)
ROC
ROC (All)
ROC
ROC (Details)