#datascience

6
39
Pytanie do ogarniających ludzi #machinelearning #uczeniemaszynowe #sztucznainteligencja #datascience
Dopiero wczoraj ogarnąłem podstawy PyTorch na tyle, żeby zrobić prosty model do klasyfikacji danych ze zbioru MNIST.
Ogólnie coś tam matematyki i ML ogarniam (wcześniej używałem tensorflow), więc to nie jest też tak że wczoraj sie nauczyłem co to jest ML.

Trafiłem na pracę Microsoftu o modelu do czytaniu struktury tabel ze zdjęć https://arxiv.org/pdf/2208.04921
Problem w tym że model nie został nigdzie opublikowany, ogólnie niewiele znalazłem na ten temat poza pracami naukowymi od tych samych ludzi.

Wg waszej oceny, jak bardzo możliwe odtworzenie tego modelu, i uzyskanie chociaż zbliżonej skuteczności?
Znalazłem nowszą, bardziej rozbudowaną wersje tej samej pracy https://arxiv.org/pdf/2303.11615 w które jest jakby więcej szczegółów. Niestety moja wiedza jest zbyt skromna żeby po przeczytaniu ocenić na podstawie tej pracy czy uda mi sie to powtórzyć
31a3cb2e-818d-489c-bd5d-8d4efe75c6f6
3

Zaloguj się aby komentować

#sztucznainteligencja #datascience
wielki sukces, udało mi sie wytrenować pierwszy model z wykorzystaniem karty graficznej.
Jako że w PC mam procesor oraz kartę graficzną od AMD to wszystkie treningi robiłem na ryzenie 5 2600.
Dostałem z pracy laptopa z rtx 3060, i w końcu udało mi się go zmusić do działania.
Czas treningu:
01:16m / batch -> 00:14m / batch

W sumie, spodziewałem się większej różnicy
5
entropy_

@redve ponad 5 razy szybciej to już zacnie jest chyba.

Zaloguj się aby komentować

#datascience #analizadanych

Czego używacie do tworzenia wykresów i diagramów?
Do wykresów do tej pory używałem excela i bibliotek z pythona, a diagramy rysuję od wczoraj i używałem jakiś darmowych edytorów UML online.

Są to jednak umiarkowanie wygodne rozwiązania, i myślę czy jest coś lepszego, działającego pod #linux
Najistotniejsze jest żeby dało się wyekstraktować rysunek do wrzucenia na notion
7
entropy_

@redve draw.io

Jakoś wczoraj widziałem na githubie bibliotekę co zamienia tekst

X -> y na diagramy, całkiem skomplikowane rzeczy można porobić i dużo przykładów, jak chcesz to poszukam linka

kkdawid

Python i matplotlib, bo używałem dużo w pracy, do wykresów jest ok. Jak coś prostego i dane już są w excelu to excel :)

Zaloguj się aby komentować

#budownictwo #datascience
Potrzebuję jak najwięcej rysunków budowlanych podobnych do tego, bo potrzebuję samych tabelek technicznych z tego (robię analizę danych, na jakim procencie rysunków jest np. nr uprawnień projektanta etc.)

Wiecie gdzie znajdę ich większe ilości?
56d87019-9963-4f36-a91d-641624af1665
12
Czy to co zrobiłem, można określić jako data pipeline?

Miałem jedną stronę, która miała w sumie na sobie 1600 linków.
Było to rozmieszczone na podstronach, gdzie każda miała 50 linków (więc trzeba było 32 razy przejść na nową stronę żeby zobaczyć wszystkie linki). Problem w tym że te linki to było zdjęcie albo film, i nie dało się wyekstraktować samych filmów.

Zrobiłem 3 skrypty w pythonie:
-pierwszy wyciągnął z każdej z tych podstron wszystkie linki, i umieścił je w jednym pliku
-drugi skrypt wziął dane z tego pliku, wszedł pod każdy link, sprawdził które z podstron zawierają filmy, i zapisał linki do pobrania filmów do kolejnego pliku
-Trzeci skrypt po prostu pobrał wszystkie filmy i umieścił je w jednym folderze

Wydaje mi sie że to jest pipeline, bo każdy kolejny skrypt posiłkował się wynikiem wykonania poprzedniego skryptu.

Do CV chyba tego nie wpisze co prawda, bo filmy które wyciągałem są z gatunku postów #jaszczomp i rekruter może sie krzywo patrzeć ( ͡° ͜ʖ ͡°)

Do samego zadania użyłem pythona i modułów requerts, threading oraz BeautifulSoup4. Czy jest do tego inne narzędzie, którego mógłbym sie nauczyć żeby sie przydało w pracy data engineera?
#datascience #programowanie
19

Zaloguj się aby komentować

#pracbaza
takq teraz czytam wpis na hejto że linkedin jest do wyjebania.
Gdzie w takim razie szukacie pracy?
Nofluffjobs, justjoin.it i czyjesteldorado.pl tylko znam

Jako data engineer, data scientist albo zwykły kodojebca
#datascience #programowanie
19
bartek555

Linkedin jest bardzo spoko do szukania pracy, polecam. W dzisiejszych czasach to najczesciej tam trafiaja oferty.

serel

@redve po ostatniej zmianie pracy potwierdzam. Przez LI "kontaktowali" się HRowcy bez pojęcia o stanowisku, znali tylko słowa klucze ("nie masz nic o AWS a wymagamy", bo miałem pełną nazwę), wysyłali masówkę, drugi koniec Polski, "full remote, 2x w tygodniu z biura w Krakowie". Dlatego można tam co najwyżej wyciągnąć nazwę firmy, sprawdzić kto tam pracuje (a nuż jakiś znajomy się znajdzie) i aplikować bezpośrednio przez ich stronę. I tak jak pisze @vrkr , znajomości to klucz. Bez polecajki nie miałem odpowiedzi przez 3 tygodnie, a po podbiciu przez ziomeczka nagle kontakt po 2h.


Ostatecznie dorwałem pracę z pominięciem LI, od wysłania CV do podesłania umowy minęło 6 dni.

wombatDaiquiri

@redve LinkedIn dobrze działa jak dłużej na nim jesteś i aktywnie dodajesz rekruterów do znajomych oraz odpisujesz im nawet jak niczego nie szukasz.


Za każdym razem jak szukałem pracy i wrzucałem posta na LinkedIn to jakaś ciekawa oferta się trafiała.

Zaloguj się aby komentować

cweliat

@redve wrzuc poszczegolne opisowe elementy cv w chata gpt, bo jak ktos bardzo dobrze zna angielski, to pare drobnych rzeczy razi w oczy. Nie mowie, ze twoj angielski jest zly, bo w jezyku mowionym nie takie biedy ludzie robia, ale jednak na papierze powinno byc idealnie glownie chodzi mi o brak “a/an/the” w niektorych miejscach

plemnik_w_piwie

@redve ale że tak bez wykresów i statystyk w cv? To ja mam ganta by dobrze zobrazować ile zapierdalałem w życiu :]

Zaloguj się aby komentować

Python jest obecnie najczęściej używanym językiem w serwisie GitHub!

Sztuczna inteligencja wprowadziła Pythona do czołówki języków programowania w 2024 roku.

Wiąże się to ze wzrostem liczby programistów "data science" oraz "machine learning" na świecie, przez co Python wyprzedził JavaScript jako najpopularniejszy język programowania na GitHubie.

Źródło: https://github.blog/news-insights/octoverse/octoverse-2024/

#programowanie #python #programista15k #sztucznainteligencja #machinelearning #datascience #github
31
AureliaNova

Ja nie uznaje za język coś, gdzie bloki się robi intendami i można pisać bez średników, brrr (⁠╯⁠°⁠□⁠°⁠)⁠╯⁠︵⁠ ⁠┻⁠━⁠┻

lurker_z_internetu

No i bomba, bo to świetny język, a popularność nadaje trakcji rozwojowi, bo i pieniążki się znajdują dla fundacji. Jest starszy niż Java, a wiele osób myśli, że to świeży język, bo długo był w cieniu.

Orzech

@koszotorobur A jakie duże aplikacje webowe/desktopowe sa napisane w Pythonie? Serio pytam, bo jak wieki temu wybierałem technologie pod jakieś mikroserwisy to Python może i był najwolniejszy, ale za to nie dało się go utrzymać in the long run. Może coś się zmieniło

Zaloguj się aby komentować

Suodka_Monia

@Only2Genders fake. Trochę mało rzułto przy 2137

Bystrygrzes

Mam w karty Maestro. Polska i Austriacka. Polska znajduje się w jasnym a Ausria w ciemnym kolorze. Co ciekawe pin był nadany przez maestro

Zaloguj się aby komentować

plemnik_w_piwie

@redve a jaka działka cię kręci? Finanse, nauki społeczne? Może zahacz się w branży na jakimkolwiek stanowisku i wydyfunduj

Zaloguj się aby komentować

Znacie kogoś kto potrzebuje pracownika przy analizie danych?
Jestem pod koniec licencjatu z matematyki (obrona ma być we wrześniu, praca jest o proceduralnym tworzeniu treści w grach). Głównie zajmuje sie statystyką, rachunkiem prawdopodobieństwa, oraz algorytmiką (rzeczy około programowania). Studiowałem takie zagadnienia jak procesy stochastyczne, rachunek Ito, jednorodne łańcuchy Markova, oraz zagadnienia pomocne przy tworzeniu modeli (takie jak teoria grafów, czy algebra liniowa i abstrakcyjna). Tworzyłem analizy techniczne wraz z dopasowaniem modelu do cen akcji na giełdzie, a następnie przeprowadzenie analizy ex ante i ex post. Wyznaczałem też współczynniki determinacji modelu. Na studiach też uczyłem się używania algorytmów genetycznych do optymalizacji zadań, tak samo jak tworzyłem sieci neuronowe oraz modele regresji wielorakiej

Mam zaplecze jeżeli chodzi o bycie zwykłym programistą. Tworzyłem skrypty w pythonie, gry w c++, serwery TCP w ruście, czy aplikacje mobilną w C# Xamarin. Jestem nawet autorem pluginu do neovima stworzonego w Lua który zebrał jakieś gwiazdki na githubie. Do tego kilka mniejszych kontrybucji do kodu open source. Selfhostuję usługi na prywatnym serwerze, więc podstawowe zarządzanie linuxem też mam opanowane (abstrachując od używania linuxa na desktopie od dzieciństwa w sumie)

Same dane zwykle analizuję używając kodu w pythonie lub arkuszy excela, a raporty tworzę w Latexu. Do pokazywania danych zwykle używam wykresów matplotliba albo seaborna.

Chcę pokazać że mam wiedzę, i że sobie poradzę z analizą danych. Porozsyłałem troche cv ale ciężko żeby ktoś dał szansę osobie bez doświadczenia stricte w analizie. Jeżeli chodzi o doświadczenie komercyjne w ogóle, to mam 1.5 roku doświadczenia jako junior data governance engineer gdzie głównie developowałem skrypty w pythonie do obsługi rest API, czy programy do szukania zepsutych plików w środowisku online wykorzystując selenium.

Podrzucam githuba na którym są moje pomniejsze kontrybucje. Reszte projektów mam na własnym serwerze gita
https://github.com/redve-dev

#pracbaza #datascience #niewiemjaktootagowac #matematyka
aae91771-a3ea-4bc1-8a6c-309ce106c84b
24
plemnik_w_piwie

@redve ja wiem gdzie potrzeba jest teoretyka-dobrego ziomka od doe, od trudnych przypadków I do pomocy z qbd. Ale ci co go potrzebują o tym nie wiedzą i wolą robić bezmyślną dłubaninę na lewych szablonach przez niekompetentnych przygłupów. A potem zdziwko, że nic nie wychodzi, więc metodologia jest zła, hurr durr kto to słyszał matematykie łączyć z inżynierią procesową!?

Jak będę zakładał swoją firmę o podobnym profilu to cię biorę z miejsca. Nie wiem czy cię to pocieszy:/

Papa_gregorio

@redve zerknij na instytut opi pib, mogą szukać kogoś

m_balazy

pokaz repo z pluginem do nvim'a

Zaloguj się aby komentować

Spróbowałem zrobić kalkulator który oblicza ile mniej więcej pieniędzy nam ubyło z portfela z powodu inflacji w 2023 (można łatwo zmodyfikować arkusz żeby był dla dowolnego miesiąca, można też wpisać inflację ukrytą).

Wyliczyłem to w następujący sposób:
Jeżeli inflacja w danym miesiącu wynosi np 16.6% w skali roku, to oznacza że gdyby przez 12 miesięcy pieniądze traciły na wartości tyle ile straciły w tym miesiącu, to w skali roku stracilibyśmy 16.6% pieniędzy z początkowego miesiąca.
Tym samym po roku te pieniądze są warte (1-0.166=0.834), a biorąc poprawkę na to że są to straty po 12 takich samych miesiącach, to stracone pieniądze w tym miesiącu są pierwiastkiem 12 stopnia z 0.834

W każdym miesiącu sumaryczne straty wyliczam w następujący sposób:
Zakładam że oszczędności to przychody-wydatki. Jako "wartość oszczędności względem pierwotnej kwoty" liczę oszczędności z obecnego miesiąca + dotychczasowe oszczędności, i całość mnożę przez straty z tego miesiąca.

Zakładałem przy tworzeniu tego szablonu że w każdym miesiącu uda się coś zaoszczędzić. Nie jestem pewien czy model będzie sie poprawnie zachowywał, jeżeli w jakimś miesiącu wydatki przekroczą przychody (np. kupimy samochód na który oszczędzaliśmy od dawna). Sprawdzając pobieżnie wydaje mi się że jest dobrze. Podrzucam wam arkusz jakby ktoś chciał sie pobawić, albo znalazł błąd.

Podrzucam link jakby ktoś chciał pobrać
https://docs.google.com/spreadsheets/d/10jh0JPqZvoBRwt9dF1QSozKUEaKS_39N/edit?usp=sharing&ouid=107715318295966714274&rtpof=true&sd=true

#datascience #pieniadze i nie wiem czy #gospodarka
9868ee5d-edec-4dab-b21f-cb9903725d3d
01980ce5-5719-406e-9114-d9c629396eea
1
michal-g-1

Możesz znaleźć też dane o inflacji w skali miesiąca i po prostu przemnażać $ po kolejnych miesiącach

Zaloguj się aby komentować

#programowanie
Od jakiego stanowiska można zająć karierę w #datascience ?
Mam licencjat z matematyki (a raczej we wrześniu powinienem mieć, bo wtedy sie bronie), a do tego póki co 1.5 roku komercyjnego expa w korpo, ale jako zwykły dev w data governence, to nie wiem czy ktoś na to spojrzy.

Na data scientista każdy wymaga kilku lat expa z AI, czy z samą analizą
#pracbaza
6
slawek-borowy

ja bym wbijał do firmy, która zajmuje się interesującym Cię tematem, na dowolne stanowisko specjalistyczne i wtedy dużo łatwiej będąc na pokładzie pogadać z ludźmi od tego, douczyć się na praktycznym przykładzie, etc.

Parę razy widziałem ten scenariusz na żywo i za każdym razem działał tak samo - ktoś chciał robić coś innego więc łaził do ludzi którzy to robią i im truł, potem dostawał jakieś projekty, albo sam sobie wymyślał i dalej truł, a potem już coś umiał i zaczynał stawiać warunki (niekiedy już innym firmom


Druga rzecz, że oczekiwanie kilku lat doświadczenia z AI to raczej pobożne życzenie, takie oferty w zasadzie same się filtrują.

wombatDaiquiri

@redve fake it till you make it, pozdrawiam

GrindFaterAnona

@redve śledząc twoje wpisy obstawiam, ze przejdziesz dowolną rekrutację na mid DS, a moze i senior. zapoznaj się z procesem pracy DS (EDA, feature engeneering, modelowanie, deployement) i próbuj. akurat w czwartek rekrutuję na seniora to mogę ci podpowiedziec na co zwracamy uwagę

Zaloguj się aby komentować

#programowanie #pracbaza #datascience
Czy wpisując do CV moje projekty, jest sens wpisywać prace zaliczeniowe ze studiów?
Konkretniej te prace to:
-Analiza techniczna cen akcji na giełdzie + próba przewidzenia danych w przyszłości. Z analizą ad hoc, ze sprawdzaniem założeń hipotez, z analizą ad hoc i post hoc
-Licencjat w którym opisuję metody proceduralnego tworzenia światów w grach od strony matematycznej
-Wyznaczenie najkrótszej drogi pomiędzy miastami z użyciem algorytmu genetycznego

Ewentualnie zrobić w projektach jakąś jedną rubrykę gdzie opiszę zbiorczo te 3 projekty
4
Konto_serwisowe

Licencjat tak, resztę tylko jeśli ma związek ze stanowiskiem.

monke

@redve wydaje mi się, że nie musisz pisać czy to praca zaliczeniowa czy własny projekt - jeśli jest ciekawy, wiesz co tam się dzieje i popiera on Twoje umiejętności to jak najbardziej wpisuj.

Wydaje mi się, że częstym problemem jest, że cv ludzi co dopiero zaczynają jest puste. Nie dlatego, że nic nie robili ale dlatego, że wpiszą nazwę jakiegoś projektu czy kursy i niech się Anetka z HR domyśla czy to pasuje do tego stanowiska czy nie.

dolitd

@redve Generalnie wpisuj wszystko co ma wspólnego ze stanowiskiem na jakie aplikujesz.

Zaloguj się aby komentować

#matematyka #informatyka #datascience #programowanie
Mój wykładowca od procesów stochastycznych powiedział że procesy stochastyczne i procesy Wienera są użyteczne w pracy z komputerami i z analizą danych. Może mi ktoś podać praktyczny przykład?
Przykładowo, umiem policzyć na kartce prawdopodobieństwo
P(W1 - W3 > W2 | W2 > 0) gdzie Wn jest 1 wymiarowym procesem Wienera o rozkładzie normalnym z (mu = 0, var = n)
i dostać konkretną liczbę która może oceniać np. prawdopodobieństwo na to że bitcoin przebije jakiś próg, żeby wchodzić w trade-y które są "pewniaczkiem", ale to wydaje się zdecydowanie za proste (na poziomie licencjatu uczyliby mnie tajnego sposobu na shackowanie rynku, który gdyby działał to każdy by go używał?).

Czy umiałby mi ktoś podać przykład praktycznego zadania z zastosowaniem takich procesów stochastycznych, a zwłaszcza procesu Wienera? Do tego fajnie by było podać interpretację i zastosowanie całki Ito.

Taguję #finanse bo w nich też się tego używa podobno
2
ataxbras

@redve procesy Wienera są procesami w sensie Markowa. Czyli właściwie mogą opisywać większość otaczającej nas rzeczywistości.

Zaloguj się aby komentować

#programowanie #datascience #matematyka
Mam na studiach zajęcia z projektu zespołowego (mamy coś zrobić w grupie 4 studentów).
Prowadzący nam podsunął żeby zrobić coś z algorytmami genetycznymi.
Umówiliśmy sie ze ekipą że przez tydzień poprzeglądamy literature na ten temat, i sprawdzimy czy jest to coś co damy radę ogarnąć.
Temat wydaje sie w miare łatwy, i nawet zrobiłem prosty program który wykorzystuje algorytm genetyczny (narazie tylko do szukania ekstremów funkcji 1 i 2 zmiennych, i faktycznie umie je dobrze przybliżać nie wiedząc jaki wzór ma funkcja), i tu pojawia się pytanie:

znacie jakiś praktyczny projekt który by wykorzystywał taki algorytm?
Nie musi być skomplikowany, ale zwykłe szukanie ekstremum funkcji zadanej znanym wzorem jest dosyć nudne.
Chce zrobić coś, co nie będzie nudne przy pracy, tylko faktycznie będzie można poobserwać jakieś ciekawe rezultaty

EDIT: Pytam sie o coś na czym można fajnie zaprezentować taki algorytm
b62a559b-2bb1-49d1-9149-fa06e0493bbb
18
inskpektor

@redve znajdowanie drogi w labiryncie

TryingMyBest

Na studiach rozwiązywaliśmy problem n-queens za pomocą genetycznego ale to chyba trochę mało jak na projekt zespołowy.

jakibytulogin

U mnie na studiach był problem optymalnego użycia elektrowni różnych rodzajów (węglowe, szczytowo-pompowe itd.) na podstawie dobowego wykresu zapotrzebowania i parametrów poszczególnych elektrowni. Zadanie na 6: dokładamy el. wiatrowe losowo generujące prąd.

Zaloguj się aby komentować

Fox

@Seele pies się dowie z innej psiej d⁎⁎y więcej niż my ze wszystkich wiadomości.

Zaloguj się aby komentować

koszotorobur

@GrindFaterAnona - to jest czyste zło - na szczęście w miarę łatwe do wychwycenia jak ma się jakikolwiek linter...

jestem_na_dworzu

@GrindFaterAnona ty zły człowieku xD zaraz jakiś junior zejdzie na zawał

koszotorobur

@jestem_na_dworzu - hmm... to nie jest taki zły pomysł by dać taki kod z 100-200 linijek juniorowi i tak właśnie porobić importy - doskonale to sprawdzi czy junior odpowiednio przeprowadza statyczną analizę kodu zgodnie ze standardami przedstawionymi mu podczas onboardingu

GrindFaterAnona

@koszotorobur to u Ciebie jest jakiś onboarding? xD

the_good_the_bad_the_ugly

@GrindFaterAnona That’s evilest thing I could ever imagine. xD

Zaloguj się aby komentować

#matematyka #statystyka #datascience
jak skonstruować taki przedział ufności?
Założyć że urządzenie sie psuje z rozkładem normalnym, czy może dwupunktowy?
Bo totalnie nie wiem jak sie za to zabrać
0a102068-35b9-4194-8339-12d8b1668f06
5
redve

@dolitd mógłbys objaśnic? Bo takiego sposobu jeszcze nie widzialem

redve

@dolitd faktycznie, metoda dobra ale walnąłeś się w obliczeniach. Długość przedziału to 0.30205, a nie 0.34. Dzięki wielkie

Zaloguj się aby komentować

#nauka #medycyna #biologia #datascience #matematyka
czy da się jakoś uniwersalnie sprawdzić "jak bardzo pijany/naćpany jestem"?
Nie mam na myśli alkoholu w wydychanym powietrzu, czy ilości substancji we krwi.
Chodzi mi stricte o to, czy da się określić przykładowo, że jestem pijany tak na 76.5pkt w skali redve123
Pytam, bo chciałem zrobić porównanie stan upojenia / ilość substancji, bo jestem ciekawy jakie jest optimum opłacalności.

Zgaduje że we wzorze na to pojawiłaby się jakaś całka po czasie, ilość substancji, czas od zażycia, i tempo półrozpadu (żeby określić stężenie), parametry ciała, no generalnie byłby to po⁎⁎⁎⁎ny wzór. Ale czy w ogóle tak się da?
9
m-q

Amerykańska drogówka każe przejść po linii prostej

redve

@m-q ale to jest test 0-1, albo jesteś pijany albo nie. A ja chce dokładną skale

m-q

@redve możesz zmierzyć "odchylenie standardowe" od tej prostej linii

GrindFaterAnona

@redve nie jesteś w stanie nawet koncepcyjnie opisać co to znaczy, ze dwie osoby są pijane/naćpane tak samo, a chcesz to matematycznie opisywać.

Niepowtarzalny2

Możesz zbudować własną skalę wykonując szereg testów po różnych stanach spożycia.

Przykadowe testy:

- przejście w Lini prostej 20m w funkcji czas

- rozwiązanie 3 równianie matematycznych z mnożeniem i dodawaniem w funkcji czasu i ilości podejść

Itp.


Na podstawie zebranych wyników możesz określić w jakim stopniu upośledzone są twoja percepcja otoczenia, logiczne myślenie itp

Zaloguj się aby komentować

Następna