Unüberwachtes maschinelles Lernen: Algorithmen, Typen mit Beispielen

Grundlagen der Künstlichen Intelligenz | 0 Kommentare

Was ist unüberwachtes Lernen?

Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der die Nutzer/innen das Modell nicht überwachen müssen. Stattdessen lässt es das Modell selbständig arbeiten, um Muster und Informationen zu entdecken, die zuvor unentdeckt waren. Sie befasst sich hauptsächlich mit unmarkierten Daten.

Algorithmen für unüberwachtes Lernen

Unüberwachte Lernalgorithmen ermöglichen es den Nutzern, im Vergleich zum überwachten Lernen komplexere Verarbeitungsaufgaben durchzuführen. Allerdings kann das unüberwachte Lernen im Vergleich zu anderen natürlichen Lernmethoden unberechenbarer sein. Zu den Algorithmen des unüberwachten Lernens gehören Clustering, Anomalieerkennung, neuronale Netze usw.

In diesem Lernprogramm lernst du:

Beispiel für unüberwachtes maschinelles Lernen
Warum unüberwachtes Lernen?
Clustering Arten von Algorithmen des unüberwachten Lernens
Clustering
Clustering-Typen
Assoziation
Überwachtes vs. unüberwachtes maschinelles Lernen
Anwendungen des unüberwachten maschinellen Lernens
Nachteile des unüberwachten Lernens

Beispiel für unüberwachtes maschinelles Lernen

Nehmen wir ein Beispiel für unüberwachtes Lernen für ein Baby und seinen Familienhund.

Sie kennt und identifiziert den Hund. Ein paar Wochen später bringt ein Freund der Familie einen Hund mit und versucht, mit dem Baby zu spielen.

Das Baby hat diesen Hund vorher noch nicht gesehen. Aber es erkennt, dass viele Merkmale (2 Ohren, Augen, Laufen auf 4 Beinen) wie ihr Haushund sind. Sie identifiziert das neue Tier als Hund. Das ist unüberwachtes Lernen, bei dem dir nichts beigebracht wird, sondern du aus den Daten (in diesem Fall Daten über einen Hund) lernst. Wäre dies überwachtes Lernen gewesen, hätte der Familienfreund dem Baby gesagt, dass es ein Hund ist, wie im obigen Beispiel für unüberwachtes Lernen gezeigt.

Warum unüberwachtes Lernen?

Hier sind die Hauptgründe für den Einsatz von unüberwachtem Lernen beim maschinellen Lernen:

Unüberwachtes maschinelles Lernen findet alle Arten von unbekannten Mustern in Daten.
Unüberwachte Methoden helfen dir, Merkmale zu finden, die für die Kategorisierung nützlich sein können.
Sie findet in Echtzeit statt, so dass alle Eingabedaten in Gegenwart der Lernenden analysiert und beschriftet werden.
Es ist einfacher, unbeschriftete Daten von einem Computer zu erhalten als beschriftete Daten, die einen manuellen Eingriff erfordern.

Clustering Arten von Algorithmen des unüberwachten Lernens

Im Folgenden werden die Clustering-Typen der Algorithmen für unüberwachtes maschinelles Lernen beschrieben:

Unüberwachte Lernprobleme werden weiter in Clustering- und Assoziationsprobleme unterteilt.

Clustering

Clustering ist ein wichtiges Konzept, wenn es um unüberwachtes Lernen geht. Dabei geht es vor allem darum, eine Struktur oder ein Muster in einer Sammlung von nicht kategorisierten Daten zu finden. Unüberwachtes Lernen Clustering-Algorithmen verarbeiten deine Daten und finden natürliche Cluster (Gruppen), wenn sie in den Daten vorhanden sind. Du kannst auch festlegen, wie viele Cluster deine Algorithmen identifizieren sollen. So kannst du die Granularität dieser Gruppen anpassen.

Es gibt verschiedene Arten von Clustern, die du verwenden kannst:

Exklusiv (Partitionierung)

Bei dieser Clustermethode werden die Daten so gruppiert, dass sie nur zu einem Cluster gehören können.

Beispiel: K-means

Agglomerativ

Bei dieser Clustermethode ist jedes Datenpaket ein Cluster. Die iterative Zusammenführung der beiden nächstgelegenen Cluster reduziert die Anzahl der Cluster.

Beispiel: Hierarchisches Clustering

Überschneidungen

Bei dieser Technik werden Fuzzy-Mengen verwendet, um Daten zu clustern. Jeder Punkt kann zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören.

Hier werden die Daten mit einem entsprechenden Zugehörigkeitswert verknüpft. Beispiel: Fuzzy C-Means

Probabilistisch

Diese Technik verwendet eine Wahrscheinlichkeitsverteilung, um die Cluster zu erstellen

Beispiel: Folgende Schlüsselwörter

„Schuh des Mannes“.
„Frauenschuh“.
„Frauenhandschuh“.
„Männerhandschuh“.

kann in zwei Kategorien „Schuh“ und „Handschuh“ oder „Mann“ und „Frauen“ geclustert werden.

Clustering-Typen

Im Folgenden sind die Clustering-Typen des maschinellen Lernens aufgeführt:

Hierarchisches Clustering
K-means Clustering
K-NN (K-Nächste Nachbarn)
Hauptkomponentenanalyse (Principal Component Analysis)
Singulärwert-Zerlegung
Unabhängige Komponentenanalyse

Hierarchisches Clustering

Hierarchisches Clustering ist ein Algorithmus, der eine Hierarchie von Clustern aufbaut. Er beginnt mit allen Daten, die einem eigenen Cluster zugewiesen werden. Dabei werden zwei nahe beieinander liegende Cluster in denselben Cluster aufgenommen. Dieser Algorithmus endet, wenn nur noch ein Cluster übrig ist.

K-means Clustering

K bedeutet, dass es sich um einen iterativen Clustering-Algorithmus handelt, der dir hilft, bei jeder Iteration den höchsten Wert zu finden. Zu Beginn wird die gewünschte Anzahl von Clustern ausgewählt. Bei dieser Clustermethode musst du die Datenpunkte in k Gruppen zusammenfassen. Ein größeres k bedeutet kleinere Gruppen mit mehr Granularität in gleicher Weise. Ein niedrigeres k bedeutet größere Gruppen mit geringerer Granularität.

Die Ausgabe des Algorithmus ist eine Gruppe von „Labels“. Er ordnet die Datenpunkte einer der k Gruppen zu. Beim k-means Clustering wird jede Gruppe definiert, indem für jede Gruppe ein Schwerpunkt gebildet wird. Die Zentroide sind wie das Herz des Clusters, das die Punkte erfasst, die ihnen am nächsten liegen, und sie dem Cluster hinzufügt.

Beim K-Mittelwert-Clustering werden außerdem zwei Untergruppen definiert:

Agglomeratives Clustering
Dendrogramm

Agglomeratives Clustering

Diese Art des K-means Clustering beginnt mit einer festen Anzahl von Clustern. Sie ordnet alle Daten genau dieser Anzahl von Clustern zu. Bei dieser Clustermethode wird die Anzahl der Cluster K nicht als Eingabe benötigt. Der Agglomerationsprozess beginnt mit der Bildung eines einzelnen Clusters aus allen Daten.

Bei dieser Methode wird ein Abstandsmaß verwendet und die Anzahl der Cluster (einer in jeder Iteration) durch Zusammenführen reduziert. Am Ende haben wir einen großen Cluster, der alle Objekte enthält.

Dendrogramm

Bei der Dendrogramm-Clustermethode steht jede Ebene für einen möglichen Cluster. Die Höhe des Dendrogramms zeigt den Grad der Ähnlichkeit zwischen zwei verbundenen Clustern an. Je näher sie am unteren Ende des Prozesses liegen, desto ähnlicher sind die Cluster, die sich aus dem Dendrogramm ergeben.

K- Nächstgelegene Nachbarn

Der K- Nearest Neighbour ist der einfachste aller maschinellen Lernklassifikatoren. Er unterscheidet sich von anderen maschinellen Lernverfahren dadurch, dass er kein Modell erstellt. Es ist ein einfacher Algorithmus, der alle verfügbaren Fälle speichert und neue Instanzen anhand eines Ähnlichkeitsmaßes klassifiziert.

Er funktioniert sehr gut, wenn es einen Abstand zwischen den Beispielen gibt. Die Lerngeschwindigkeit ist langsam, wenn die Trainingsmenge groß ist, und die Berechnung des Abstands ist nicht trivial.

Hauptkomponentenanalyse

Wenn du einen höherdimensionalen Raum haben willst. Du musst eine Basis für diesen Raum und nur die 200 wichtigsten Werte dieser Basis auswählen. Diese Basis wird als Hauptkomponente bezeichnet. Die von dir ausgewählte Teilmenge bildet einen neuen Raum, der im Vergleich zum ursprünglichen Raum klein ist. Dabei bleibt die Komplexität der Daten so weit wie möglich erhalten.

Assoziation

Assoziationsregeln ermöglichen es dir, Assoziationen zwischen Datenobjekten in großen Datenbanken herzustellen. Bei dieser unüberwachten Technik geht es darum, interessante Beziehungen zwischen Variablen in großen Datenbanken zu entdecken. Ein Beispiel: Menschen, die ein neues Haus kaufen, kaufen mit hoher Wahrscheinlichkeit auch neue Möbel.

Andere Beispiele:

Eine Untergruppe von Krebspatienten, die nach ihren Genexpressionsmessungen gruppiert wurden
Gruppen von Käufern auf der Grundlage ihrer Surf- und Kaufhistorie
Filmgruppen nach der Bewertung durch die Kinobesucher

Überwachtes vs. unüberwachtes maschinelles Lernen

Hier ist der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen:

Parameter	Überwachte maschinelle Lerntechnik	Unüberwachte maschinelle Lerntechniken
Eingabedaten	Algorithmen werden mit gelabelten Daten trainiert.	Algorithmen werden auf nicht markierte Daten angewendet
Berechnungskomplexität	Das überwachte Lernen ist eine einfachere Methode.	Unüberwachtes Lernen ist rechenaufwändig
Genauigkeit	Sehr genaue und vertrauenswürdige Methode.	Weniger genaue und vertrauenswürdige Methode.

Anwendungen des unüberwachten maschinellen Lernens

Einige Anwendungen von unüberwachten Lerntechniken sind:

Clustering teilt den Datensatz automatisch in Gruppen ein, die auf ihren Ähnlichkeiten basieren
Die Anomalieerkennung kann ungewöhnliche Datenpunkte in deinem Datensatz entdecken. Sie ist nützlich, um betrügerische Transaktionen zu finden.
Die Assoziationsanalyse identifiziert Gruppen von Elementen, die häufig zusammen in deinem Datensatz vorkommen.
Latente Variablenmodelle werden häufig für die Datenvorverarbeitung verwendet. Wie die Reduzierung der Anzahl von Merkmalen in einem Datensatz oder die Zerlegung des Datensatzes in mehrere Komponenten

Nachteile des unüberwachten Lernens

Du kannst keine genauen Informationen über die Datensortierung und die Ausgabe erhalten, da die Daten, die beim unüberwachten Lernen verwendet werden, beschriftet und nicht bekannt sind
Die Genauigkeit der Ergebnisse ist geringer, weil die Eingabedaten nicht bekannt sind und nicht von Menschen im Voraus gekennzeichnet werden. Das bedeutet, dass die Maschine dies selbst tun muss.
Die Spektralklassen entsprechen nicht immer den Informationsklassen.
Der Nutzer muss Zeit aufwenden, um die Klassen zu interpretieren und zu benennen, die dieser Klassifizierung folgen.
Die spektralen Eigenschaften der Klassen können sich auch im Laufe der Zeit ändern, so dass du beim Wechsel von einem Bild zum anderen nicht die gleichen Klasseninformationen hast.

Zusammenfassung

Unüberwachtes Lernen ist eine Technik des maschinellen Lernens, bei der du das Modell nicht überwachen musst.
Unüberwachtes maschinelles Lernen hilft dir, alle Arten von unbekannten Mustern in Daten zu finden.
Clustering und Assoziation sind zwei Arten des unüberwachten Lernens.
Es gibt vier Arten von Clustermethoden: 1) Exklusiv 2) Agglomerativ 3) Überlappend 4) Probabilistisch.
Wichtige Clustering-Typen sind: 1) Hierarchisches Clustering 2) K-means Clustering 3) K-NN 4) Hauptkomponentenanalyse 5) Singulärwertzerlegung 6) Unabhängige Komponentenanalyse.
Mit Hilfe von Assoziationsregeln kannst du Assoziationen zwischen Datenobjekten in großen Datenbanken herstellen.
Beim überwachten Lernen werden die Algorithmen mit gelabelten Daten trainiert, während beim unüberwachten Lernen die Algorithmen mit nicht gelabelten Daten arbeiten.
Durch die Erkennung von Anomalien können wichtige Datenpunkte in deinem Datensatz entdeckt werden, die für die Aufdeckung betrügerischer Transaktionen nützlich sind.
Der größte Nachteil des unüberwachten Lernens ist, dass du keine genauen Informationen über die Sortierung der Daten erhalten kannst.