Was ist maschinelles Lernen?
Maschinelles Lernen ist ein System von Computeralgorithmen, die durch Selbstverbesserung aus Beispielen lernen können, ohne dass sie von einem Programmierer explizit kodiert werden. Maschinelles Lernen ist ein Teilbereich der künstlichen Intelligenz, der Daten mit statistischen Werkzeugen kombiniert, um ein Ergebnis vorherzusagen, das für verwertbare Erkenntnisse genutzt werden kann.
Der Durchbruch kommt mit der Idee, dass eine Maschine allein aus den Daten (d.h. aus Beispielen) lernen kann, um genaue Ergebnisse zu erzielen. Maschinelles Lernen ist eng mit Data Mining und Bayes’scher Vorhersagemodellierung verwandt. Die Maschine erhält Daten als Input und verwendet einen Algorithmus, um Antworten zu formulieren.
Eine typische Aufgabe des maschinellen Lernens ist es, eine Empfehlung auszusprechen. Wenn du ein Netflix-Konto hast, basieren alle Empfehlungen für Filme oder Serien auf den historischen Daten des Nutzers. Technologieunternehmen nutzen unüberwachtes Lernen, um das Nutzererlebnis durch personalisierte Empfehlungen zu verbessern.
Maschinelles Lernen wird auch für eine Vielzahl von Aufgaben eingesetzt, z. B. für die Erkennung von Betrug, vorausschauende Wartung, Portfolio-Optimierung, Automatisierung von Aufgaben und so weiter.
In diesem Tutorial zum maschinellen Lernen für Anfänger lernst du…
- Was ist maschinelles Lernen?
- Maschinelles Lernen vs. traditionelle Programmierung
- Wie funktioniert maschinelles Lernen?
- Algorithmen des maschinellen Lernens und wo werden sie eingesetzt?
- Wie man einen Algorithmus für maschinelles Lernen auswählt
- Herausforderungen und Grenzen des maschinellen Lernens
- Anwendung des maschinellen Lernens
- Warum ist maschinelles Lernen wichtig?
- Machine Learning Interview Fragen & Antworten
Maschinelles Lernen vs. Traditionelle Programmierung
Die traditionelle Programmierung unterscheidet sich erheblich vom maschinellen Lernen. Bei der traditionellen Programmierung programmiert ein Programmierer alle Regeln in Absprache mit einem Experten der Branche, für die die Software entwickelt wird. Jede Regel basiert auf einer logischen Grundlage; die Maschine führt eine Ausgabe aus, die der logischen Aussage folgt. Wenn das System komplexer wird, müssen mehr Regeln geschrieben werden. Es kann schnell untragbar werden, es zu pflegen.
Das maschinelle Lernen soll dieses Problem lösen. Die Maschine lernt, wie die Eingangs- und Ausgangsdaten zusammenhängen, und schreibt eine Regel. Die Programmierer/innen müssen nicht jedes Mal neue Regeln schreiben, wenn es neue Daten gibt. Die Algorithmen passen sich an neue Daten und Erfahrungen an, um ihre Effizienz mit der Zeit zu verbessern.
Wie funktioniert maschinelles Lernen?
In diesem Tutorial zu den Grundlagen des maschinellen Lernens für Anfänger lernst du, wie maschinelles Lernen (ML) funktioniert:
Maschinelles Lernen ist das Gehirn, in dem alles Lernen stattfindet. Die Art und Weise, wie die Maschine lernt, ist ähnlich wie beim Menschen. Der Mensch lernt aus Erfahrung. Je mehr wir wissen, desto besser können wir vorhersagen. Wenn wir mit einer unbekannten Situation konfrontiert werden, ist die Wahrscheinlichkeit, dass wir Erfolg haben, geringer als in einer bekannten Situation. Maschinen werden auf die gleiche Weise trainiert. Um eine genaue Vorhersage zu treffen, muss die Maschine ein Beispiel sehen. Wenn wir der Maschine ein ähnliches Beispiel geben, kann sie das Ergebnis herausfinden. Wenn sie jedoch wie ein Mensch mit einem Beispiel gefüttert wird, das sie noch nie zuvor gesehen hat, hat die Maschine Schwierigkeiten, eine Vorhersage zu treffen.
Das Hauptziel des maschinellen Lernens ist die Lernen und Inferenz. Zunächst einmal lernt die Maschine durch die Entdeckung von Mustern. Diese Entdeckung erfolgt dank der Daten. Eine wichtige Aufgabe des Datenwissenschaftlers ist es, sorgfältig auszuwählen, welche Daten er der Maschine zur Verfügung stellen will. Die Liste der Attribute, die zur Lösung eines Problems verwendet werden, nennt man eine Merkmalsvektor. Du kannst dir einen Merkmalsvektor als eine Teilmenge von Daten vorstellen, die zur Lösung eines Problems verwendet wird.
Die Maschine verwendet einige ausgeklügelte Algorithmen, um die Realität zu vereinfachen und diese Entdeckung in eine Modell. Daher wird die Lernphase genutzt, um die Daten zu beschreiben und zu einem Modell zusammenzufassen.
Die Maschine versucht zum Beispiel, den Zusammenhang zwischen dem Lohn einer Person und der Wahrscheinlichkeit, in ein Nobelrestaurant zu gehen, zu verstehen. Es stellt sich heraus, dass die Maschine einen positiven Zusammenhang zwischen dem Lohn und dem Besuch eines Nobelrestaurants findet: Das ist das Modell
Inferring
Wenn das Modell erstellt ist, kann man testen, wie leistungsfähig es bei noch nie gesehenen Daten ist. Die neuen Daten werden in einen Merkmalsvektor umgewandelt, durchlaufen das Modell und ergeben eine Vorhersage. Das ist der schöne Teil des maschinellen Lernens. Es ist nicht nötig, die Regeln zu aktualisieren oder das Modell erneut zu trainieren. Du kannst das zuvor trainierte Modell verwenden, um Rückschlüsse auf neue Daten zu ziehen.
Das Leben von Machine Learning Programmen ist einfach und lässt sich in den folgenden Punkten zusammenfassen:
- Definiere eine Frage
- Daten sammeln
- Daten visualisieren
- Algorithmus trainieren
- Teste den Algorithmus
- Feedback sammeln
- Verfeinere den Algorithmus
- Schleife 4-7, bis die Ergebnisse zufriedenstellend sind
- Verwende das Modell, um eine Vorhersage zu treffen
Sobald der Algorithmus gut darin ist, die richtigen Schlüsse zu ziehen, wendet er dieses Wissen auf neue Datensätze an.
Algorithmen des maschinellen Lernens und wo werden sie eingesetzt?
In diesem Tutorial zum maschinellen Lernen für Anfänger lernen wir, wo Algorithmen des maschinellen Lernens (ML) eingesetzt werden:
Maschinelles Lernen lässt sich in zwei große Lernaufgaben unterteilen: Überwachtes und unüberwachtes Lernen. Es gibt viele andere Algorithmen
Überwachtes Lernen
Ein Algorithmus nutzt Trainingsdaten und menschliches Feedback, um die Beziehung zwischen bestimmten Eingaben und einer bestimmten Ausgabe zu lernen. Ein Praktiker kann zum Beispiel Marketingausgaben und Wettervorhersagen als Eingabedaten verwenden, um den Verkauf von Dosen vorherzusagen.
Du kannst überwachtes Lernen verwenden, wenn die Ausgabedaten bekannt sind. Der Algorithmus wird neue Daten vorhersagen.
Es gibt zwei Kategorien des überwachten Lernens:
- Klassifizierungsaufgabe
- Regressionsaufgabe
Klassifizierung
Stell dir vor, du willst das Geschlecht eines Kunden für eine Werbung vorhersagen. Du beginnst damit, Daten über Größe, Gewicht, Beruf, Gehalt, Einkaufskorb usw. aus deiner Kundendatenbank zu sammeln. Du kennst das Geschlecht jedes deiner Kunden, es kann nur männlich oder weiblich sein. Das Ziel des Klassifizierers ist es, auf der Grundlage der gesammelten Informationen (d.h. der Merkmale) eine Wahrscheinlichkeit zuzuordnen, ob es sich um einen Mann oder eine Frau handelt (d.h. das Label). Wenn das Modell gelernt hat, wie man männlich oder weiblich erkennt, kannst du neue Daten nutzen, um eine Vorhersage zu treffen. Du hast z. B. gerade neue Informationen von einem unbekannten Kunden erhalten und möchtest wissen, ob es sich um einen Mann oder eine Frau handelt. Wenn der Klassifikator männlich = 70 % vorhersagt, bedeutet das, dass der Algorithmus zu 70 % sicher ist, dass dieser Kunde männlich ist, und zu 30 %, dass er eine Frau ist.
Das Label kann aus zwei oder mehr Klassen bestehen. Im obigen Beispiel für maschinelles Lernen gibt es nur zwei Klassen, aber wenn ein Klassifikator ein Objekt vorhersagen muss, gibt es Dutzende von Klassen (z. B. Glas, Tisch, Schuhe usw. – jedes Objekt steht für eine Klasse)
Regression
Wenn es sich bei der Ausgabe um einen kontinuierlichen Wert handelt, ist die Aufgabe eine Regression. Ein Finanzanalyst muss z. B. den Wert einer Aktie auf der Grundlage einer Reihe von Merkmalen wie Aktienkursen, früheren Aktienkursen und makroökonomischen Indizes vorhersagen. Das System wird so trainiert, dass es den Preis der Aktien mit dem geringstmöglichen Fehler schätzt.
Algorithmus | Beschreibung | Typ |
---|---|---|
Lineare Regression | Findet einen Weg, jedes Merkmal mit der Ausgabe zu korrelieren, um zukünftige Werte vorherzusagen. | Regression |
Logistische Regression | Eine Erweiterung der linearen Regression, die für Klassifizierungsaufgaben verwendet wird. Die Ausgangsvariable 3 ist binär (z. B. nur schwarz oder weiß) und nicht kontinuierlich (z. B. eine unendliche Liste von möglichen Farben). | Klassifizierung |
Entscheidungsbaum | Hochgradig interpretierbares Klassifizierungs- oder Regressionsmodell, das die Werte von Datenmerkmalen in Zweige an Entscheidungsknoten aufteilt (z. B. wenn ein Merkmal eine Farbe ist, wird jede mögliche Farbe zu einem neuen Zweig), bis eine endgültige Entscheidung getroffen wird | Regression Klassifizierung |
Naive Bayes | Die Bayes-Methode ist eine Klassifizierungsmethode, die sich das Bayes’sche Theorem zunutze macht. Das Theorem aktualisiert das Vorwissen über ein Ereignis mit der unabhängigen Wahrscheinlichkeit jedes Merkmals, das das Ereignis beeinflussen kann. | Regression Klassifizierung |
Support-Vektor-Maschine | Die Support Vector Machine (SVM) wird in der Regel für Klassifizierungsaufgaben verwendet. Der SVM-Algorithmus findet eine Hyperebene, die die Klassen optimal aufteilt. Er wird am besten mit einem nichtlinearen Solver verwendet. |
Regression (nicht sehr verbreitet) Klassifizierung |
Zufälliger Wald | Der Algorithmus baut auf einem Entscheidungsbaum auf, um die Genauigkeit drastisch zu verbessern. Random Forest erzeugt viele einfache Entscheidungsbäume und verwendet die Methode der „Mehrheitsabstimmung“, um zu entscheiden, welches Label zurückgegeben werden soll. Bei der Klassifizierungsaufgabe ist die endgültige Vorhersage diejenige mit den meisten Stimmen, während bei der Regressionsaufgabe die durchschnittliche Vorhersage aller Bäume die endgültige Vorhersage ist. | Regression Klassifizierung |
AdaBoost | Klassifizierungs- oder Regressionsverfahren, das eine Vielzahl von Modellen verwendet, um eine Entscheidung zu treffen, diese aber nach ihrer Genauigkeit bei der Vorhersage des Ergebnisses abwägt | Regression Klassifizierung |
Gradient-boosting Bäume | Gradient-Boosting-Bäume sind eine moderne Klassifizierungs-/Regressionstechnik. Sie konzentriert sich auf den Fehler, den die vorherigen Bäume begangen haben, und versucht, ihn zu korrigieren. | Regression Klassifizierung |
Unüberwachtes Lernen
Beim unüberwachten Lernen untersucht ein Algorithmus Eingabedaten, ohne dass er eine explizite Ausgabevariable erhält (z. B. untersucht er demografische Kundendaten, um Muster zu erkennen).
Du kannst es verwenden, wenn du nicht weißt, wie du die Daten klassifizieren sollst, und du möchtest, dass der Algorithmus Muster findet und die Daten für dich klassifiziert.
Algorithmus Name | Beschreibung | Typ |
---|---|---|
K-means Clustering | Ordnet Daten in einige Gruppen (k) ein, die jeweils Daten mit ähnlichen Merkmalen enthalten (wie vom Modell bestimmt, nicht im Voraus von Menschen) | Clustering |
Gaußsches Mischmodell | Eine Verallgemeinerung des k-means Clustering, die mehr Flexibilität bei der Größe und Form von Gruppen (Clustern) bietet | Clustering |
Hierarchisches Clustering | Teilt Cluster entlang eines hierarchischen Baums auf, um ein Klassifizierungssystem zu bilden.
Kann für Cluster Treuekartenkunden verwendet werden |
Clustering |
Empfehlungssystem | Helfen, die relevanten Daten für eine Empfehlung zu definieren. | Clustering |
PCA/T-SNE | Wird meist verwendet, um die Dimensionalität der Daten zu verringern. Die Algorithmen reduzieren die Anzahl der Merkmale auf 3 oder 4 Vektoren mit den höchsten Varianzen. | Dimensionsreduktion |
Wie man einen Algorithmus für maschinelles Lernen auswählt
In diesem Tutorial zu den Grundlagen des maschinellen Lernens lernen wir, wie man einen Algorithmus für maschinelles Lernen (ML) auswählt:
Es gibt eine Vielzahl von Algorithmen für maschinelles Lernen. Die Wahl des Algorithmus richtet sich nach dem Ziel.
In dem folgenden Beispiel für maschinelles Lernen besteht die Aufgabe darin, die Art der Blume unter den drei Sorten vorherzusagen. Die Vorhersagen basieren auf der Länge und der Breite des Blütenblatts. Das Bild zeigt die Ergebnisse von zehn verschiedenen Algorithmen. Das Bild oben links ist der Datensatz. Die Daten werden in drei Kategorien eingeteilt: rot, hellblau und dunkelblau. Es gibt einige Gruppierungen. Auf dem zweiten Bild gehört zum Beispiel alles oben links zur roten Kategorie, im mittleren Teil gibt es eine Mischung aus Unsicherheit und Hellblau, während der untere Teil der dunklen Kategorie entspricht. Die anderen Bilder zeigen verschiedene Algorithmen und wie sie versuchen, die Daten zu klassifizieren.
Herausforderungen und Grenzen des maschinellen Lernens
In diesem Lernprogramm zum maschinellen Lernen werden wir die Grenzen des maschinellen Lernens kennenlernen:
Die größte Herausforderung beim maschinellen Lernen ist der Mangel an Daten oder die Vielfalt des Datensatzes. Eine Maschine kann nicht lernen, wenn keine Daten vorhanden sind. Außerdem macht ein Datensatz mit mangelnder Vielfalt der Maschine das Leben schwer. Eine Maschine braucht Heterogenität, um sinnvolle Erkenntnisse zu gewinnen. Es ist selten, dass ein Algorithmus Informationen extrahieren kann, wenn es keine oder nur wenige Variationen gibt. Es wird empfohlen, mindestens 20 Beobachtungen pro Gruppe zu haben, damit die Maschine lernen kann. Diese Einschränkung führt zu einer schlechten Auswertung und Vorhersage.
Anwendung des maschinellen Lernens
In diesem Lernprogramm zum maschinellen Lernen lernen wir die Anwendungen des maschinellen Lernens kennen:
Erweiterung:
- Maschinelles Lernen, das Menschen bei ihren alltäglichen Aufgaben unterstützt, persönlich oder geschäftlich, ohne dass sie die vollständige Kontrolle über die Ergebnisse haben. Dieses maschinelle Lernen wird auf unterschiedliche Weise eingesetzt, z. B. als virtueller Assistent, zur Datenanalyse oder für Softwarelösungen. Der Hauptnutzen besteht darin, Fehler aufgrund menschlicher Voreingenommenheit zu reduzieren.
Automatisierung:
- Maschinelles Lernen, das in jedem Bereich völlig selbstständig arbeitet, ohne dass ein Mensch eingreifen muss. Zum Beispiel Roboter, die die wesentlichen Prozessschritte in Produktionsanlagen ausführen.
Finanzindustrie
- Maschinelles Lernen wird in der Finanzbranche immer beliebter. Banken nutzen ML vor allem, um Muster in den Daten zu finden, aber auch um Betrug zu verhindern.
Staatliche Organisation
- Die Regierung nutzt ML, um die öffentliche Sicherheit und die Versorgungsbetriebe zu verwalten. Nimm das Beispiel Chinas mit der massiven Gesichtserkennung. Die Regierung nutzt künstliche Intelligenz, um Verkehrsrowdys zu verhindern.
Gesundheitsbranche
- Das Gesundheitswesen war eine der ersten Branchen, die maschinelles Lernen bei der Bilderkennung eingesetzt hat.
Marketing
- Der breite Einsatz von KI im Marketing ist dem reichhaltigen Zugang zu Daten zu verdanken. Vor dem Zeitalter der Massendaten entwickelten Forscher fortschrittliche mathematische Werkzeuge wie die Bayes’sche Analyse, um den Wert eines Kunden zu schätzen. Mit dem Boom der Daten verlässt sich die Marketingabteilung auf KI, um die Kundenbeziehung und die Marketingkampagne zu optimieren.
Beispiel für die Anwendung von maschinellem Lernen in der Lieferkette
Maschinelles Lernen liefert hervorragende Ergebnisse bei der visuellen Mustererkennung, was viele potenzielle Anwendungen bei der physischen Inspektion und Wartung im gesamten Lieferkettennetzwerk eröffnet.
Unüberwachtes Lernen kann schnell nach vergleichbaren Mustern in dem vielfältigen Datensatz suchen. Im Gegenzug kann die Maschine im gesamten Logistikzentrum Qualitätskontrollen durchführen und die Sendungen auf Schäden und Verschleiß untersuchen.
Die Watson-Plattform von IBM kann zum Beispiel Schäden an Schiffscontainern feststellen. Watson kombiniert visuelle und systembasierte Daten, um sie in Echtzeit zu verfolgen, zu melden und Empfehlungen auszusprechen.
Im vergangenen Jahr haben sich Lagerverwalter/innen weitgehend auf die primäre Methode zur Bewertung und Prognose des Bestands verlassen. Durch die Kombination von Big Data und maschinellem Lernen wurden bessere Prognosetechniken implementiert (eine Verbesserung von 20 bis 30 % gegenüber herkömmlichen Prognosetools). In Bezug auf den Umsatz bedeutet dies eine Steigerung von 2 bis 3 % aufgrund der potenziellen Senkung der Lagerkosten.
Beispiel für maschinelles Lernen Google Car
Jeder kennt zum Beispiel das Google-Auto. Das Auto ist mit Lasern auf dem Dach ausgestattet, die ihm sagen, wo es sich in Bezug auf die Umgebung befindet. Vorne hat es ein Radar, das das Auto über die Geschwindigkeit und die Bewegungen aller Autos um es herum informiert. Es nutzt all diese Daten, um nicht nur herauszufinden, wie das Auto zu fahren ist, sondern auch, um vorherzusagen, was die Fahrer in der Umgebung des Autos tun werden. Beeindruckend ist, dass das Auto fast ein Gigabyte pro Sekunde an Daten verarbeitet.
Warum ist maschinelles Lernen so wichtig?
Maschinelles Lernen ist das bisher beste Werkzeug, um Daten zu analysieren, zu verstehen und Muster in ihnen zu erkennen. Eine der wichtigsten Ideen hinter dem maschinellen Lernen ist, dass der Computer darauf trainiert werden kann, Aufgaben zu automatisieren, die für einen Menschen anstrengend oder unmöglich wären. Der klare Unterschied zur traditionellen Analyse ist, dass maschinelles Lernen Entscheidungen mit minimalem menschlichem Eingriff treffen kann.
Nehmen wir das folgende Beispiel für dieses ML-Tutorial: Ein Handelsagent kann den Preis eines Hauses auf der Grundlage seiner eigenen Erfahrung und seiner Kenntnisse des Marktes schätzen.
Eine Maschine kann darauf trainiert werden, das Wissen eines Experten in Merkmale zu übersetzen. Die Merkmale sind alle Eigenschaften eines Hauses, der Nachbarschaft, des wirtschaftlichen Umfelds usw., die den Preisunterschied ausmachen. Der Experte hat wahrscheinlich einige Jahre gebraucht, um die Kunst zu beherrschen, den Preis für ein Haus zu schätzen. Sein Fachwissen wird nach jedem Verkauf besser und besser.
Die Maschine braucht Millionen von Daten (d. h. Beispiele), um diese Kunst zu beherrschen. Ganz am Anfang ihres Lernprozesses macht die Maschine einen Fehler, ähnlich wie der Juniorverkäufer. Sobald die Maschine alle Beispiele gesehen hat, verfügt sie über genügend Wissen, um ihre Schätzung abzugeben. Und das mit einer unglaublichen Genauigkeit. Die Maschine ist auch in der Lage, ihren Fehler entsprechend zu korrigieren.
Die meisten großen Unternehmen haben den Wert des maschinellen Lernens und der Datenhaltung erkannt. McKinsey hat geschätzt, dass der Wert der Analytik zwischen $9,5 Billionen bis $15,4 Billionen während $5 bis 7 Billionen können auf die fortschrittlichsten KI-Techniken zurückgeführt werden.
Lies auch Was ist Fuzzy Logic? Architektur, Anwendung und Beispiel: Hier klicken
0 Kommentare