close
close
Guide

How to Set Yourself Apart from Other Applicants with Data-Centric AI

Im Jahr 2012 wurde Data Scientist von der Harvard Business Review zum Sexiest Job of the 21st Century gekürt. Obwohl das Feld seitdem erheblich gereift ist und es mittlerweile viele „Geschmacksrichtungen“ von Data-Science-Jobs gibt, haben sich die Dinge nicht viel geändert: Data Scientist zu sein, ist eine äußerst wünschenswerte Karriere für frische Absolventen und zieht auch viele Menschen aus verschiedenen Bereichen an Felder.

Angesichts der schnellen Einführung des maschinellen Lernens in der gesamten Branche und der fantastischen Fortschritte in der KI-Forschung ist die gute Nachricht, dass der Bedarf an Datenwissenschaftlern so schnell nicht verschwinden wird. Jedes Jahr werden buchstäblich Hunderttausende neuer Data Science-Stellen eröffnet. Tatsächlich kämpfen Arbeitgeber in der Regel mit dem Arbeitskräftemangel. Bei so vielen Möglichkeiten auf dem Markt kann es also für Neueinsteiger nicht so schwer sein, den Job ihrer Träume zu ergattern, oder? Leider sind die Dinge nie so einfach, und die Realität sieht so aus, dass selbst bei so vielen offenen Stellen Nachwuchsbewerber immer noch vor großen Herausforderungen stehen, um in das Feld einzudringen.

Um zu verstehen, warum Arbeitgeber anscheinend keine passende Entsprechung für ihre Rollen in den Bereichen Data Science und maschinelles Lernen finden, ist es hilfreich zu verstehen, wie sich der Job der Data Science in der Technologiebranche durchgesetzt hat.

Obwohl der Begriff 2001 geprägt wurde, ist Data Science kein neues Gebiet. Die Art und Weise, wie es praktiziert wird, hat sich im Laufe der Zeit stark verändert. Allerdings wurde es erst in den späten 2000er und frühen 2010er Jahren, als das Sammeln und Verarbeiten mit der Popularisierung der GPU-Maschinen und dem plötzlichen Hype um Big Data einfacher wurde, für Unternehmen zum Mainstream, ganze Teams aufzubauen, die sich der Analyse und Nutzung ihrer Daten widmen . Das Problem? Die Leute, die sie anstellten, waren oft brillante Informatiker und Statistiker, aber sie waren selten in der Lage, ihre Fähigkeiten in greifbaren Geschäftswert umzuwandeln, oft weil die Unternehmen, die sie eingestellt hatten, keine Ahnung hatten, welche Daten sie sammeln und wie sie sie verwalten sollten. Dieselben Unternehmen erkannten schnell, dass sie Geld verloren (wie sie dieses Problem behoben haben, ist eine andere Geschichte) und lernten schließlich auf die harte Tour, dass technisches Fachwissen nicht ausreicht, um ein großartiger Datenwissenschaftler zu werden.

So neigen Unternehmen trotz des schnell wachsenden Bedarfs an Experten für Data Science und Machine Learning dazu, langsam einzustellen und haben oft unzureichende Einstellungsverfahren für solche Jobs.

Wenn Sie auf der Suche nach Ihrem ersten Job als Data Scientist sind, wissen Sie bereits, dass Sie ein Lebenslauf mit geladenen akademischen Zeugnissen möglicherweise nicht sehr weit bringt. Was Personalchefs sehen müssen, ist Ihre Fähigkeit, diese Fähigkeiten einzusetzen, um das Wachstum ihres Unternehmens zu unterstützen. Ihre lange Liste wissenschaftlicher Veröffentlichungen wird ihnen nicht die Gewissheit geben, dass Sie die richtige Person für den Job sind. Tatsächlich sind Personalvermittler besonders misstrauisch gegenüber Lebensläufen voller Schulprojekte, nur weil sie viele solcher Lebensläufe unter Kandidaten sehen, die nicht funktionieren.

Read  How to Start Developing a Profitable Amazon Marketing Strategy

Denn Data Science ist wahrscheinlich das technische Gebiet, das die meisten domänenübergreifenden Kompetenzen und die schärfsten Kommunikationsfähigkeiten erfordert. Es ist einfach kein Job, den man alleine machen kann. Es ist eine Aufgabe, bei der Sie Ihre Fähigkeiten erweitern müssen, um die Lücke zwischen den Engineering-, Produkt- und Geschäftsteams zu schließen, auf die Sie sich für Ihren Erfolg verlassen werden. Kurz gesagt, Sie müssen ein Tausendsassa werden und gleichzeitig Datenexperte bleiben. Die Lebensläufe, die ihnen ins Auge fallen, sind also diejenigen, die etwas anderes zeigen. Etwas, das man von einem frischen Absolventen nicht erwarten würde. Und etwas, das beweisen kann, dass der Kandidat bereit ist, reale Probleme anzugehen.

Auf diese Weise wurde es für aufstrebende Data Scientists sehr beliebt, an Kaggle-Wettbewerben teilzunehmen, da sie eine einfache Möglichkeit für sie darstellten, ihre Fähigkeit zur Arbeit an branchenüblichen Datensätzen in realer Größe unter Beweis zu stellen. Für eine Weile war ein einigermaßen gutes Ranking bei einem Kaggle-Wettbewerb ein Unterscheidungsmerkmal, und es führte ziemlich leicht zu Interviews mit Leuten. Aber heutzutage ist die Teilnahme an einem Kaggle-Wettbewerb zur neuen Norm geworden. Kandidaten fallen dadurch kaum auf; es ist eigentlich etwas, das heutzutage fast erwartet wird.

Wie kann man also 2023 als Kandidat glänzen? Keine Sorge, dazu kommen wir gleich.

Kaggle hat etwas absolut Erstaunliches erreicht: Es hat eine ganze Generation von Datenaspiranten dazu gebracht, ihre Fähigkeiten im maschinellen Lernen zu verbessern – und dabei Spaß zu haben. Eines konnte Kaggle jedoch nie erreichen: das gravierendste Manko der akademischen Data-Science-Ausbildung zu beschönigen: das mangelnde Bewusstsein für das Thema Datenaufbereitung. Da Kaggle vollständig fertige Datensätze zum Trainieren bereitstellt, müssen die Wettbewerber nur eines tun: Modelle erstellen, optimieren und trainieren, ohne sich jemals Gedanken über die Datenqualität machen zu müssen. Selbst mit mehreren hochkarätigen Einreichungen bei Kaggle, mit denen sie in ihrem Lebenslauf prahlen können, versagen Kandidaten daher immer noch, wenn es darum geht, Personalchefs das Vertrauen zu geben, dass sie mit realen Daten arbeiten können, anstatt sie in ein Modell einzuspeisen.

Dies stellt nach wie vor eine Herausforderung für Unternehmen dar, Datentalente zu finden. Was für die einen ein Problem darstellt, kann sich zum Glück für andere als große Chance erweisen. Data-Science-Kandidaten investieren immer noch den größten Teil ihrer Zeit, um ihre Modellbaufähigkeiten unter Beweis zu stellen, obwohl es einfach ist, sich durch die Demonstration hervorragender Fähigkeiten zur Datenvorbereitung von anderen abzuheben. Und wie man genau das tun kann, ist das Thema des nächsten Abschnitts.

Wie Sie sich mit Data-Centric AI von anderen Bewerbern abheben
Foto von Denys Nevozhai auf Unsplash

Aber bevor ich zum Teil mit praktischen Ratschlägen komme, möchte ich klären, was Data-Centric AI ist. Wie so oft in der Datenwissenschaft ist Data-Centric AI ein neuer Begriff, der sich auf eine alte Idee bezieht: Es ist das Konzept, die Leistung eines maschinellen Lernmodells zu optimieren, indem die Arbeit an den Trainingsdaten im Gegensatz zum Modell vorgenommen wird .

Read  How to find castles and historical hotels in the UK and Ireland

Wie Sie sich mit Data-Centric AI von anderen Bewerbern abheben
Der datenzentrierte KI-Workflow

Traditionell behandeln Data Scientists beim Erstellen und Trainieren eines Modells für maschinelles Lernen ihre Trainingsdaten als statisches Objekt, das sie in ein Modell einspeisen, das sie modifizieren, optimieren und perfektionieren, bis sie mit den Ergebnissen zufrieden sind. Sobald sie mit der Validierungsleistung einverstanden sind, betrachten sie das Modell als „bereit“ und fahren mit dem Testen fort, bevor sie ihr Modell bereitstellen. Das nennt man Modellzentrierte KIund das wird dir in der Schule beigebracht.

Aber bei der Arbeit werden Sie ganz andere Erfahrungen machen: Ihre Daten werden chaotisch sein, fehlende Felder aufweisen und beschädigt sein; Schlimmer noch: Es sind möglicherweise überhaupt keine Daten vorhanden, und es wird von Ihnen erwartet, dass Sie diese sammeln und organisieren. Sie müssen deutlich mehr Zeit für die Vorbereitung Ihrer Daten aufwenden als für den Aufbau des Modells, zumal die Verwendung von vortrainierten Modellen und ML-Bibliotheken immer mehr zum Mainstream wird. Die Branche fordert einfach (und hat immer gefordert) einen datenzentrierten Ansatz für KI.

Gibt es also einen besseren Weg, sich als großartiger Datenwissenschaftler zu verkaufen, als Ihre unglaublichen datenzentrierten KI-Fähigkeiten zu demonstrieren? Damit würden Sie die zwei größten Herausforderungen lösen, wenn es darum geht, Ihren ersten Job als Data Scientist zu bekommen:

  1. Sie können sich von anderen Kandidaten abheben und die Aufmerksamkeit von Personalvermittlern auf sich ziehen, indem Sie eine andere Art von Fachwissen zeigen. Dies wird auch Ihre Fähigkeit demonstrieren, über neue Technologietrends auf dem Laufenden zu bleiben, und somit Ihre Fähigkeit zum kontinuierlichen Lernen.
  2. Sie werden tatsächlich beweisen, dass Sie über einzigartige Fähigkeiten in der Datenaufbereitung verfügen und in der Lage sind, mit den Herausforderungen realer Daten umzugehen. Dies hebt Sie von anderen Personen mit ähnlicher Ausbildung, aber ohne praktische Erfahrung mit Datenbereinigung ab, was die Bedenken der meisten Personalvermittler zerstreuen wird.

Hier sind einige sehr gute Nachrichten: Das ist eigentlich überhaupt nicht schwer, sowohl weil noch nicht viele Leute diese Strategie anwenden, als auch weil es eine große Anzahl von Möglichkeiten dafür gibt. Und während die meisten Leute glauben, dass es bei der Datenvorbereitung hauptsächlich um die Datenkennzeichnung geht, ist die Wahrheit, dass Data-Centric AI tatsächlich eine Sammlung von Techniken und Prozessen ist, die darin bestehen, Trainingsdaten zu massieren, damit sie zur Trainingszeit bessere Ergebnisse erzielen. Dies bedeutet, dass es viele Themen gibt, zu denen Sie mit dem Aufbau von Fachwissen beginnen können.

5 Tipps, um Ihre datenzentrierten KI-Fähigkeiten zu demonstrieren

  1. Gewinnen Sie so viel Wissen wie möglich über die Datenkennzeichnung und nutzen Sie dieses Wissen, um bei Vorstellungsgesprächen zu glänzen. In Ihrem neuen Job werden die Daten höchstwahrscheinlich roh sein, also zeigen Sie, dass Sie wissen, wie man sie ML-fähig macht. Informieren Sie sich über die Tools und Techniken, die typischerweise zum Kennzeichnen von Daten verwendet werden (von der Verwendung von Drittanbietern zur manuellen Kommentierung von Daten bis hin zu fortgeschritteneren Techniken wie Weak Supervision). Vergessen Sie nicht, sich über die betriebliche und geschäftliche Seite der Datenkennzeichnung zu informieren (wie viel es kostet, wie die Weitergabe von Daten an Dritte von Datenschutzgesetzen wie der DSGVO beeinflusst wird usw.)
  2. Erstellen Sie ein kleines End-to-End-Tool zur Datenkennzeichnung als Portfolioprojekt. Sie können ganz einfach Open-Source-Tools wie Streamlit verwenden, um die Benutzeroberfläche zu erstellen.
  3. Erfahren Sie mehr über datenzentrierte Trainingsparadigmen wie Active Learning und Human-in-the-Loop Machine Learning. Sie können dies schnell tun, indem Sie zu Open-Source-Bibliotheken für aktives Lernen beitragen. Beachten Sie, dass aktives Lernen ein unglaublich reichhaltiges Thema für sich ist, also hören Sie nicht auf, zumindest zuversichtlich zu sein, aktives Lernen, sondern schauen Sie sich auch Transfer Active Learning, BALD usw. an.
  4. Schreiben Sie einführende und technische Inhalte zum Thema Data Labeling, Data Augmentation, Synthetic Data Generation und Data-Centric AI. Auf diese Weise können Sie Ihre eigenen Data Prep-Fähigkeiten verbessern und Ihr Verständnis des Themas unter Beweis stellen.
  5. Recyceln Sie Ihre bestehenden Projekte, indem Sie die Arbeit hervorheben, die Sie in Bezug auf die Datenvorbereitung geleistet haben. Wenn Sie beispielsweise Ihre eigenen Daten für ein Schulprojekt manuell annotieren mussten, geben Sie in Ihrem Lebenslauf klar an, wie Sie dies getan haben und wie sich dies auf die Qualität der Ergebnisse ausgewirkt hat. Viele Leute haben schon die ganze Zeit Data-Centric AI betrieben, aber es einfach nicht bemerkt.
Read  How to Take a Walk—in Buffalo, and Beyond: (Alternative) Places to Hang

Wie Sie sich mit Data-Centric AI von anderen Bewerbern abheben

Die Verwendung von Datenerweiterungen für Ihr Projekt ist eine einfache Möglichkeit, datenzentrierte KI-Fähigkeiten zu demonstrieren

Da Data-Centric AI immer beliebter und bekannter wird, werden Data-Centric AI-Fähigkeiten sicherlich zu einem Muss für jeden einzustellenden Data Scientist. Die Universitäten werden höchstwahrscheinlich ihre Lehrpläne dahingehend weiterentwickeln, dass sie dieses Thema zu einem Schlüsselthema machen. Aber vorerst wird Sie jedes Wissen über datenzentrierte KI sicherlich beiseite legen und Sie zu einem einzigartigen Kandidaten mit einem echten Interesse an praktischen Fragen des maschinellen Lernens machen. Verpassen Sie also nicht die Gelegenheit, zu glänzen und Ihren Traumjob zu ergattern.

Dr. Jennifer Prendki ist die Gründerin und CEO von Alectio, dem ersten KI-Startup, das sich auf das Konzept von DataPrepOps konzentriert, ein Kunstwort, das sie geprägt hat, um sich auf das aufstrebende Gebiet zu beziehen, das sich auf die Automatisierung der Optimierung eines Trainingsdatensatzes konzentriert. Sie hat die Mission, ML-Teams dabei zu helfen, Modelle mit weniger Daten zu erstellen (was sowohl zu einer Reduzierung der ML-Betriebskosten als auch der CO2-Emissionen führt), und hat eine Technologie entwickelt, die dynamisch einen Datensatz auswählt und optimiert, der den Trainingsprozess eines bestimmten ML-Modells erleichtert.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
x