Póki co mam stanowisko data governence engineer, ale chciałem iść bardziej w stronę analizy danych.
Mam na studiach rachunek prawdopodobieństwa i statystykę, i myślałem nad jakimś projektem żeby dostać faktycznie pracę gdzie dostaję zestaw danych, i proszą mnie o informacje co robić.
Co uważacie o takim projekcie/serii "projektów":
Wszedłem na Kaggle, pobrałem losowy zestaw danych (tutaj informacje o osobach z ryzykiem zawału serca), i przez jakiś czas będę sobie z niego wyciągał różne informacje (korelacja zmiennych losowych, wartości oczekiwane etc.). Następnie zrobię prosty skrypt który z całego zestawu danych wylosuje mi kilka obiektów, i ukryje kilka wartości (jak np. wiek pacjenta etc.). Moim zadaniem jest na podstawie reszty danych wydedukować te zakryte wartości. Oceniane będzie to jak blisko będę prawdziwej wartości.
Całość dokumentuję w postaci notatek w latexu, z dodatkową konwersją do markdown i całość wrzucam na serwer gita, dzięki czemu można podejrzeć notatki online.
właśnie widze słabą dedukcje z tym że mogę porównać dane po kluczach, ale to już jutro poprawię bo zaspany jestem xd
Logiką sie kierowałem dobrą, ale źle to opisałem
poprawiłem na "Both datasets are the same length, and one is subset of another one, so they must have the same keys.".
Idę spać
Naucz się R i Pythona, a także Juniper Notebooks.
@redve a do tego PowerBI i DAX.
@FoxtrotLima dorzuc auto cada i prawojazdy na stara
@dolitd umiejętność żonglowania płonącymi kółkami też się przyda
@Sweet_acc_pr0sa a co jest złego w PowerBI?
@Sweet_acc_pr0sa i koniecznie papiery na wózki widłowe
@FoxtrotLima nic, kolega tylko żartuje xd
@redve o panie, ale bym chciał coś takiego umieć jako inżynier. Już teraz prosta statystyka, napisanie jakiegoś querry czy kradzież kodu do pythona sprawia, że jestem półbogiem dla kolegów xD
@redve jesli chcesz w tym pracowac to dobry pomysl, zawsze to jakis wpis do cv. Zasugeruję jedynie model klasyfikacyjny zamiast regresyjny - pisales, ze chcesz przewidywac wartosc jakichs parametrow, przewiduj po prostu czy ktos zachoruje czy nie. Jak bys mial jakies pytania to pisz, 5 lat juz jako ds.
@redve
Oceniane będzie to jak blisko będę prawdziwej wartości.
Overfitting?
@wombatDaiquiri dla każdej zmiennej losowej liczę ile wyniesie: X / (|X-GX|)
Gdzie X to faktyczna wartość, a GX to moje przewidywanie (Guess)
Finalnie będę miał wektor z punktami które opisują, jak blisko byłem prawdziwej wartości
Roboczo mam taką formułę, ale już wiem że ostatnia linijka będzie do zmiany bo nie jest to dobry sposób zliczania sumy punktów (jeżeli na 10 strzałów 1 będzie prawie idealny, a reszta totalnie zła, to i tak uzyskam dużo punktów przez ten jeden strzał)
@redve I zmień attemt na attempt.
@redve - ciągle narzekasz, że nic nie umiesz, że niepełnosprawność, że się już poddałeś... a tu taka pozytywa NIESPODZIANKA!
To co zaprezentowałeś to już są podstawowego umiejętności analizy danych!
Myślę, że masz problem z samooceną która nie przystoi do stanu faktycznego i jesteś dla siebie za surowy.
Jeśli chcesz kontynuować naukę to dobrze też znać narzędzia - najpopularniejsze obecnie są Python w połączeniu z Pandas lub Polars. Do tego Jupyter Notebooks oraz coś do rysowania wykresów jak Plotly czy robienia całych stron www prezentujących dane jak Dash.
Życzę Zaciętości i Powodzenia!
@koszotorobur nigdzie nie narzekam że nic nie umiem. W życiu jestem generalnie na całkiem niezłym etapie. A poddałem się dlatego, bo umiejętnościami czy pieniędzmi z pracy nie zasypię niektórych problemów. Praktycznie wszystko co osiągnąłem, osiągnąłem dlatego żeby odciągnąć uwagę od "nieco mniej optymistycznych" myśli.
Dzięki za rekomendacje tooli, próbuje właśnie sie przyzwyczaić do jupytera w neovimie
@redve - teraz nawet jakbyś narzekał, że nic nie umiesz to Ci nie uwierzę
Ja, pomimo że nie lubię Micro$oftu, to lubię Visual Studio Code (a właściwie VSCodium) i jak się w nim pracuje w Pythonie i z Jupyter Notebooks - tu masz cały tutorial: https://code.visualstudio.com/docs/datascience/jupyter-notebooks
Zaloguj się aby komentować