Was ist überwachtes maschinelles Lernen?
Überwachtes maschinelles Lernen ist ein Algorithmus, der aus markierten Trainingsdaten lernt, um dir zu helfen, Ergebnisse für unvorhergesehene Daten vorherzusagen. Beim überwachten Lernen trainierst du die Maschine mit Daten, die gut „markiert“ sind. Das bedeutet, dass einige Daten bereits mit den richtigen Antworten markiert sind. Man kann es mit dem Lernen in Anwesenheit eines Betreuers oder Lehrers vergleichen.
Erfolgreicher Aufbau, Skalierung und Einsatz von genau überwachte maschinelle Lernmodelle zu erstellen, braucht Zeit und das technische Know-how eines Teams hochqualifizierter Datenwissenschaftler. Außerdem, Daten Wissenschaftlerin muss neu aufbauen Modelle um sicherzustellen, dass die gegebenen Erkenntnisse wahr bleiben, bis sich die Daten ändern.
In diesem Lernprogramm lernst du:
- Was ist Überwachtes Maschinelles Lernen?
- Wie das überwachte Lernen funktioniert
- Arten von Algorithmen des überwachten maschinellen Lernens
- Überwachtes vs. unüberwachtes maschinelles Lernen
- Herausforderungen beim überwachten maschinellen Lernen
- Vorteile des überwachten Lernens:
- Nachteile des überwachten Lernens
- Bewährte Verfahren für überwachtes Lernen
Wie das überwachte Lernen funktioniert
Beim überwachten maschinellen Lernen werden Trainingsdatensätze verwendet, um die gewünschten Ergebnisse zu erzielen. Diese Datensätze enthalten Eingaben und die richtige Ausgabe, die dem Modell hilft, schneller zu lernen. Du möchtest zum Beispiel eine Maschine trainieren, die dir dabei hilft, vorherzusagen, wie lange du brauchst, um von deinem Arbeitsplatz nach Hause zu fahren.
Hier beginnst du damit, einen Satz markierter Daten zu erstellen. Diese Daten umfassen:
- Wetterbedingungen
- Zeit des Tages
- Feiertage
Alle diese Angaben sind deine Eingaben in diesem Beispiel für überwachtes Lernen. Die Ausgabe ist die Zeit, die du an diesem Tag für die Fahrt nach Hause gebraucht hast.
Du weißt instinktiv: Wenn es draußen regnet, brauchst du länger, um nach Hause zu fahren. Aber die Maschine braucht Daten und Statistiken.
Schauen wir uns ein paar Beispiele für überwachtes Lernen an, wie du ein überwachtes Lernmodell für dieses Beispiel entwickeln kannst, das dem Benutzer hilft, die Pendelzeit zu bestimmen. Als Erstes musst du eine Trainingsmenge erstellen. Dieser Trainingsdatensatz enthält die gesamte Pendelzeit und entsprechende Faktoren wie Wetter, Uhrzeit usw. Anhand dieser Trainingsmenge könnte deine Maschine erkennen, dass es einen direkten Zusammenhang zwischen der Regenmenge und der Zeit gibt, die du für den Heimweg brauchst.
Sie stellt also fest, dass du umso länger nach Hause fahren musst, je mehr es regnet. Es könnte auch einen Zusammenhang zwischen der Zeit, zu der du die Arbeit verlässt, und der Zeit, die du unterwegs bist, erkennen.
Je näher du an 18 Uhr bist, desto länger dauert es, bis du zu Hause bist. Deine Maschine kann einige der Zusammenhänge mit deinen beschrifteten Daten finden.
Dies ist der Anfang deines Datenmodells. Es beginnt zu erkennen, wie Regen die Fahrweise der Menschen beeinflusst. Es wird auch deutlich, dass mehr Menschen zu einer bestimmten Tageszeit unterwegs sind.
Arten von Algorithmen des überwachten maschinellen Lernens
Im Folgenden sind die Arten von Algorithmen des überwachten maschinellen Lernens aufgeführt:
Regression:
Die Regressionstechnik sagt anhand von Trainingsdaten einen einzelnen Ausgangswert voraus.
Beispiel: Du kannst die Regression nutzen, um den Hauspreis aus Trainingsdaten vorherzusagen. Die Eingangsvariablen sind der Ort, die Größe des Hauses usw.
Stärken: Die Ergebnisse haben immer eine probabilistische Interpretation, und der Algorithmus kann reguliert werden, um eine Überanpassung zu vermeiden.
Schwachstellen: Die logistische Regression kann unterdurchschnittlich abschneiden, wenn es mehrere oder nicht lineare Entscheidungsgrenzen gibt. Diese Methode ist nicht flexibel und erfasst daher keine komplexeren Beziehungen.
Logistische Regression:
Die logistische Regressionsmethode wird verwendet, um diskrete Werte auf der Grundlage einer Reihe von unabhängigen Variablen zu schätzen. Sie hilft dir, die Wahrscheinlichkeit des Auftretens eines Ereignisses vorherzusagen, indem du die Daten an eine Logit-Funktion anpasst. Daher wird sie auch als logistische Regression bezeichnet. Da sie die Wahrscheinlichkeit vorhersagt, liegt ihr Ausgangswert zwischen 0 und 1.
Hier sind ein paar Arten von Regressionsalgorithmen
Klassifizierung:
Klassifizierung bedeutet, dass die Ausgabe in eine Klasse eingeteilt wird. Wenn der Algorithmus versucht, die Eingabe in zwei verschiedene Klassen einzuteilen, nennt man das binäre Klassifizierung. Die Auswahl zwischen mehr als zwei Klassen wird als Multiklassenklassifizierung bezeichnet.
Beispiel: Feststellen, ob jemand ein säumiger Zahler des Kredits sein wird oder nicht.
Stärken: Der Klassifikationsbaum funktioniert in der Praxis sehr gut
Schwachstellen: Ungezwungene, individuelle Bäume sind anfällig für Overfitting.
Hier sind ein paar Arten von Klassifizierungsalgorithmen
Naive Bayes-Klassifikatoren
Das Naive Bayes-Modell (NBN) ist einfach zu erstellen und sehr nützlich für große Datensätze. Diese Methode besteht aus direkten azyklischen Graphen mit einem Elternteil und mehreren Kindern. Sie geht von der Unabhängigkeit der von ihren Eltern getrennten Kindknoten aus.
Entscheidungsbäume
Entscheidungsbäume klassifizieren Instanzen, indem sie sie auf der Grundlage des Merkmalswertes sortieren. Bei dieser Methode ist jeder Modus das Merkmal einer Instanz. Sie soll klassifiziert werden, und jeder Zweig steht für einen Wert, den der Knoten annehmen kann. Dies ist eine weit verbreitete Technik zur Klassifizierung. Bei dieser Methode ist die Klassifizierung ein Baum, der auch als Entscheidungsbaum bezeichnet wird.
Sie hilft dir, reale Werte zu schätzen (Kosten für den Kauf eines Autos, Anzahl der Anrufe, monatlicher Gesamtumsatz usw.).
Support-Vektor-Maschine
Die Support Vector Machine (SVM) ist eine Art von Lernalgorithmus, der 1990 entwickelt wurde. Diese Methode basiert auf den Ergebnissen der statistischen Lerntheorie, die von Vap Nik eingeführt wurde.
SVM-Maschinen sind auch eng mit Kernel-Funktionen verbunden, die ein zentrales Konzept für die meisten Lernaufgaben sind. Das Kernel-Framework und SVM werden in einer Vielzahl von Bereichen eingesetzt. Dazu gehören Multimedia Information Retrieval, Bioinformatik und Mustererkennung.
Überwachtes vs. unüberwachtes maschinelles Lernen
Basierend auf | Überwachte maschinelle Lerntechnik | Unüberwachte maschinelle Lerntechniken |
---|---|---|
Eingabedaten | Algorithmen werden mit gelabelten Daten trainiert. | Algorithmen werden auf nicht markierte Daten angewendet |
Berechnungskomplexität | Das überwachte Lernen ist eine einfachere Methode. | Unüberwachtes Lernen ist rechenaufwändig |
Genauigkeit | Sehr genaue und vertrauenswürdige Methode. | Weniger genaue und vertrauenswürdige Methode. |
Herausforderungen beim überwachten maschinellen Lernen
Hier sind die Herausforderungen, die sich beim überwachten maschinellen Lernen stellen:
- Irrelevante Eingangsmerkmale in den Trainingsdaten können zu ungenauen Ergebnissen führen.
- Die Aufbereitung und Vorverarbeitung von Daten ist immer eine Herausforderung.
- Die Genauigkeit leidet, wenn unmögliche, unwahrscheinliche und unvollständige Werte als Trainingsdaten eingegeben wurden
- Wenn der betreffende Experte nicht verfügbar ist, ist der andere Ansatz „Brute-Force“. Das bedeutet, dass du dir die richtigen Merkmale (Eingabevariablen) ausdenken musst, um die Maschine darauf zu trainieren. Das könnte ungenau sein.
Vorteile des überwachten Lernens
Hier sind die Vorteile des überwachten maschinellen Lernens:
- Überwachtes Lernen beim maschinellen Lernen ermöglicht es dir, Daten zu sammeln oder einen Datenoutput zu produzieren, der auf den bisherigen Erfahrungen
- Hilft dir, Leistungskriterien anhand von Erfahrungen zu optimieren
- Überwachtes maschinelles Lernen hilft dir, verschiedene Arten von Rechenproblemen in der realen Welt zu lösen.
Nachteile des überwachten Lernens
Im Folgenden findest du die Nachteile des überwachten maschinellen Lernens:
- Die Entscheidungsgrenze kann übertrainiert werden, wenn deine Trainingsmenge nicht die Beispiele enthält, die du in einer Klasse haben möchtest.
- Du musst viele gute Beispiele aus jeder Klasse auswählen, während du den Klassifikator trainierst.
- Die Klassifizierung großer Datenmengen kann eine echte Herausforderung sein.
- Das Training für überwachtes Lernen benötigt viel Rechenzeit.
Bewährte Verfahren für überwachtes Lernen
- Bevor du irgendetwas anderes tust, musst du entscheiden, welche Art von Daten als Trainingsmenge verwendet werden soll
- Du musst die Struktur der Lernfunktion und des Lernalgorithmus festlegen.
- Sammle entsprechende Ergebnisse entweder von menschlichen Experten oder von Messungen
Zusammenfassung
- Bei Algorithmen des überwachten Lernens trainierst du die Maschine mit Daten, die gut „gelabelt“ sind.
- Wenn du eine Maschine trainieren willst, die dir hilft, vorherzusagen, wie lange du brauchst, um von deinem Arbeitsplatz nach Hause zu fahren, ist das ein Beispiel für Überwachtes Lernen.
- Regression und Klassifizierung sind zwei Dimensionen eines Algorithmus des überwachten maschinellen Lernens.
- Überwachtes Lernen ist eine einfachere Methode, während unüberwachtes Lernen eine komplexe Methode ist.
- Die größte Herausforderung beim überwachten Lernen ist, dass irrelevante Eingangsmerkmale in den Trainingsdaten zu ungenauen Ergebnissen führen können.
- Der Hauptvorteil des überwachten Lernens besteht darin, dass es dir erlaubt, Daten zu sammeln oder einen Datenoutput aus der vorherigen Erfahrung zu produzieren.
- Der Nachteil dieses Modells ist, dass die Entscheidungsgrenze überfordert sein kann, wenn deine Trainingsmenge keine Beispiele enthält, die du in einer Klasse haben möchtest.
- Als Best Practice des überwachten Lernens musst du zunächst entscheiden, welche Art von Daten als Trainingsmenge verwendet werden soll.
0 Kommentare