WiWi Gast schrieb am 01.09.2023:
Das ist leider Quatsch. Wir reden hier um Data Science und nicht Statistik. Das Feld ist eben so groß und erfolgreich geworden, weil eben Neuronale Netze (leider) fast alle bisherigen statistischen Methoden schlagen.
R ist für Statistik. Das ist das "alte Zeug" welches eig. sich in den letzten 20 Jahren kaum entwickelt hat.
Data Science hingegen und dazu zähle ich auch Machine Learning hat bereits einige Revolutionen hervorgebracht, siehe ChatGPT, Sprachübersetzung, generative Modelle, etc. pp.
Was man häufig sieht, ist das "langweilige" statistik Jobs, wie z.B. Aktuar plötzlich als Data Science beschrieben werden. Naja kann man machen, ist aber im Grunde der gleiche Job wie eben vor zig Jahren. Da braucht man keine neue Berufsbezeichnung. Daher auch die Frage zum Einstiegsgehalt schwer zu beantworten, da viele Jobs wo man noch mit Excel arbeitet als "Data Science" oder auch Big Data bezeichnet werden...
Hand auf's Herz: Hast du das aus Trotz geschrieben oder sowas? Weil selbst wenn du dich mit den Begriffen mit denen du hier um dich wirfst auskennst, wovon ich jetzt mal nicht ausgehe, müsstest du wissen, dass du dir gerade selbst widersprichst. Wirklich kein Vorwurf aber: Studienanfänger, Quereinsteiger o.ä.? Ist ja auch egal.
Wenn du mal in gängige Literatur schaust, dann kannst du das von mir oben geschilderte schnell nachvollziehen. Ein Beispiel, ganz easy für dich: Neurnonale Netze ist Statistik mit Rechenpower. Du berechnest bestimmte Gewichte. Die kommen aus der Statistik und sind z.B. einfache Regressionkoeffizienten. Wenn das Vorhersageproblem linear trennbar ist, dann wird das mit der OLS oder Maximum Likelihood Methode geschätzt. Ersteres ist ziemlich "alt" und wird heute einfach als "Machine Learning Algorithmus" verkauft.
Gleiches gilt für Bootstrap Resampling (Erfunden von Bradley Efron, Statistiker) oder den CART-Algorithmus, Bagging und den Random Forest (Leo Breiman, auch Statistiker) oder Support Vector Machines (von Vapnik, wieder Statistiker). Alles Methoden die z.T. schon in dem 70er und 80er Jahren entwickelt wurden.
Auch der Punkt mit der Statistik ist nicht korrekt. Bayesianische Verfahren (Grundlage von vielen A.I. Methoden) haben Hochkonjunktur und wurden zeitgleich zur steigenden Rechenpower mit MCMC Methoden weiterentwickelt.
Noch ein Punkt zu den Programmiersprachen und dann ist glaub ich auch gut:
R wurde tatsächlich von und für Statistiker entwickelt. Im Data Science Bereich gibt es de facto nur R und Python (ich lasse jetzt Julia und Co. mal außen vor). Python ist klasse und ich selbst nutze es täglich bei der Arbeit für bspw. Webscraping oder Skriptautomatisierungen. Python kann alles ist aber in nichts ,,der Beste". R kann alles in Data Science was Python kann. R ist auch in vielen Bereichen "mächtiger" als Python, z.B. in Datenaufbereitung, Statistik, MCMC-bayes Verfahren, Visualiserung, Reporting, Model based prediction, Dashboarding mit Shiny, uvm.
Auch die Aussage, dass Neuronale Netze alles schlagen ist höchstens auf Journalistenniveau. Es gibt immer einen Tradeoff zwischen Vorhersagegenauigkeit, Interpetierbarkeit, Rechenpower, Speicherkapazitäten, Kosten, Datenqualität, usw. und sofort. Ich empfehle dir mal, wenn du mal ins höhere Semester dann kommst, das Buch von Hastie, Tibshirani et al. An Introduction to Statistical Learning. Ist kostenlos auf deren Homepage zu haben. Dort werden verschiedene Daten Simulationen gegenübergestellt, wie z.B. eine "alte" oder "langweilige" Lineare Regression ein Neuronales Netzt schlägt ;).
Wenn du dann mal ein gefestigtes Wissen in Statistik und Stochastik hast, was ist hoffe als echter Data Scientist, dann hol dir das Buch von Efron und Hastie - Computer Age statistical Inference. Daraus beziehe ich auch viele meiner Argumente die ich hier genannt habe. Das sind die Pioniere aus Stanford die neben dem Bootstrap z.B. Lasso und Ridge Regressionen (ebenfalls aus der Statistik) entwickelt haben.
Lange Rede kurzer Sinn: Als Statistiker bist du so ziemlich am besten ausgebildet für den heutigen Data Science Beruf, um Methoden auch ggf. weiterzuentwickeln und im Detail auch zu verstehen. Programmieren müssen die Statistiker allerdings noch etwas besser lernen... das ist leider noch Mangelware.
Ich hoffe ich konnte etwas Licht ins Dunkle bringen.
antworten