#datascience

6
35
@rakieciara dodała fajny zbiór danych do wykrywania hejtu na podstawie moderacji serwisu wykop.pl
https://www.hejto.pl/wpis/polski-zbior-danych-do-wykrywania-hejtu-powstal-przy-wspolpracy-z-wykop-pl

Znalazłem kilka cytatów o partii:
8292,"> uważaj kolego już raz oddziały specjalne [pseudonym] skasowały ten obrazek
{USERNAME}: jebać pis też kasują za to jebać biedę już jest legalne
! debile",1

3548,"Jak myślicie, będzie coś dzisiaj w #tvpis o zabójstwie irańskiego generała? Czy standardowo broszurka wyborcza PiS i udajemy, że świat poza Polską nie istnieje? ( ͡° ͜ʖ ͡°)
#bekazpisu #kurwizja #polityka",1

8540,"Na S8 do Warszawy wjeżdża okolo 30 policyjnych suk. Czyby Pis coś szykował?
#warszawa #jebacpis",1

2763,No j mamy pierwsze blokady dróg . Jebac PiS ( ͡° ͜ʖ ͡°),1

Na szybko przejrzałem, ale jebać + OPA/Ciebie/[nazwisko]/grupę społeczną/policję/kraj jest na liście ale
jebać + inna niż pis partia nie ma w tym zbiorze albo jest w minimalnych ilościach

Znalazłem też w sumie 0 wystąpień dla jebać biedę i tagu jebacbiede

Jak ktoś będzie trenował na tym sieci neuronowe to niemożliwe będzie wypowiadanie się negatywnie o partii bo automoderacja nie pozwoli

#sztucznainteligencja #datascience #programowanie #ai
GrindFaterAnona

@entropy_ a co to z lista? Tego typu algorytm powinien wylapywac szerszy kontekst niz ograniczac sie do zlepku slow

entropy_

@GrindFaterAnona tyle, że tam jest negatywnie w 99% o Pisie.

Algorytm nauczy się, że negatywne komentarze o pisie to mowa nienawiści i nie będziesz mógł nic napisać złego o partii.

Zobacz przykład 3548. To nie jest mowa nienawiści ale uczysz algorytm banowania takich tekstów, które są partii nieprzychylne.

Szczerze to nie znalazłem za dużo o innych partiach

GrindFaterAnona

@entropy_ i dont care, wykop moze mi possać. Wolalbym porozmawiać o algorytmach pod tagiem #datascience

Zaloguj się aby komentować

Cześć,
czy jest tu jakiś ekspert z #datascience, który zechciałby mi pomóc w stworzeniu prostego modelu predykcyjnego? Mam wstępnie obrobione dane w .csv, ale utknąłem na modelowaniu, tj. nie jestem pewien w jaki sposób dobrać parametry żeby to miało ręce i nogi i żeby móc z tego wyciągnąć jakiekolwiek poprawne wnioski.
Z góry dzięki za pomoc!
plemnik_w_piwie

@kolorado a opiszesz po krotce co tam masz? Co chcesz zrobić?

kolorado

@plemnik_w_piwie tak, potrzebuję zrobić model predykcyjny, którego zadaniem będzie sprawdzenie szansy na to, że dany pociąg będzie opóźniony. Dane, które posiadam zawierają informacje o konkretnych pociągach, stacjach, datach i godzinach przyjazdu/odjazdu oraz o opóźnieniach na danych relacjach. Próbowałem to wszystko wymodelować w SAS Miner, ale wyniki raczej nie były satysfakcjonujące.

plemnik_w_piwie

@kolorado no to zacznij od prostej statystyki dla danej linii:

Wykres opożnienia linii w czasie, to od razu ci pokaże trendy.

Średnie opóźnienie i odchylenie standardowe ci pokażą, która linia ma ogolnie niejwieksze opóźnienia

Potem sprawdziłbym korelacje między nimi, bo spożnienia mogą chodzic parami.

Cykliczność i ogólnie postarał się zrozumieć przyczynę opóźnień, bo jeśli np na twoich liniach bywają opóźnienia z powodu problemów z pociągi spoza twojej listy, to powinieneś rozszerzyć badanie. Pkp kiedyś podawało powody opóźnienia pociągu przy portali z ich śledzeniem. Ale to trzebaby studiować na bieżąco, bo nie kojarzę archiwalnych danych z tego. Fajne zajęcie ogólnie:)

Zaloguj się aby komentować

Zostań Patronem Hejto i odblokuj dodatkowe korzyści tylko dla Patronów

  • Włączona możliwość zarabiania na swoich treściach
  • Całkowity brak reklam na każdym urządzeniu
  • Oznaczenie w postaci rogala , który świadczy o Twoim wsparciu
  • Wcześniejszy dostęp, do wybranych funkcji na Hejto
Zostań Patronem
Czy możesz mi wysłać CSV? Otworzyłbym to sobie u siebie w Excelu...
¯\_(ツ)_/¯
#datascience #pracbaza
95341885-6016-4994-b98a-9d71093f0520
kolorado

@motoinzyniere R powinien udźwignąć?

tellet

@motoinzyniere


CSV


anetko wyślę ci tego eksela bo u mnie coś się nie otwiera, pewno musze po informatyka dzwonić!

SzalonyNalesnik

sporo, najwieksza jaka ja widzialem byla 5x większa, tylko przy tych wielkościach to każdy select trzeba 10x przemyslec bo full backup leci 30 godzin na pure macierzach, strach dotykac:)

Zaloguj się aby komentować

tl;dr: założylem bloga o statystyce/danych jak narazie czekam na informacje zwrotne o tym czy jakoś to wygląda
Witajcie! Jestem właścicielem nowego polskiego bloga o danych https://datachaint.me i chciałbym Wam opowiedzieć trochę o tym, czego możecie się spodziewać od tej strony.
Dane to dziś jeden z najważniejszych zasobów, którymi dysponujemy. Mogą nam pomóc w podejmowaniu decyzji, rozwijaniu biznesu czy w codziennym życiu. Jednakże, by korzystać z danych należy wiedzieć jak je pozyskać, przetwarzać oraz interpretować. A to właśnie będzie tematem naszych artykułów.
Chcemy, aby nasz blog był miejscem, gdzie każdy, niezależnie od poziomu swojej wiedzy, mógł znaleźć interesujące informacje o danych i sposobach ich wykorzystania oraz dodać swój własny artykuł. Będziemy starali się pisać w prostych i zrozumiałych dla każdego słowach, tak aby nawet osoby, które nie są specjalistami w tej dziedzinie, mogły łatwo zrozumieć, o czym mówimy.
Nasze artykuły będą poruszać różne tematy, począwszy od podstawowych pojęć związanych z danymi, poprzez analizę danych, po machine learning i sztuczną inteligencję. Postaramy się również pisać o różnych zastosowaniach danych, takich jak marketing, zarządzanie firmą czy nauka.
Jeśli interesujesz się tematyką danych, chciałbyś nauczyć się czegoś nowego lub po prostu poszerzyć swoją wiedzę, to nasz blog jest dla Ciebie. Będziemy publikować artykuły regularnie, więc warto zaglądać na naszą stronę co jakiś czas.
Mamy nadzieję, że nasz blog stanie się dla Was cennym źródłem wiedzy o danych. Jeśli macie jakieś sugestie czy pytania, to zachęcamy do kontaktu. Chętnie odpowiedzielibyśmy na Wasze pytania i wysłuchalibyśmy Waszych sugestii.
Pierwszy post pojawił się 16 kwietnia, jednak dopiero dzisiaj staram się jakoś rozpromować moją stronę. Blog wystartował kilka dni temu i jestem świadom tego, że nie wszystkie funkcje działają (np. newsletter). Moim celem jak na tą chwile jest sprawdzenie tego czy chociażby jedna osoba byłaby zainteresowana taką działalnością. Jeżeli macie jakieś pomysły na poprawę lub chcielibyście dodać swój artykuł, prosiłbym o wysłanie informacji na email: datachaint@gmail.com
Dziękujemy, że jesteście z nami i zapraszamy do czytania naszych artykułów! https://datachaint.me
#blog #analizadanych #statystyka #statystyki #machinelearning #programowanie #python #datascience #nauka
Jason_Stafford

@datachaint przecież tam nic nie ma ¯\_(ツ)_/¯

datachaint

@Jason_Stafford witam co mógłbym zrobić, żeby coś się tam pojawiło, za wszelką pomoc dziękuje

Jason_Stafford

@datachaint Ty prowadzisz bloga o danej tematyce i pytasz się innych co tam umieścić? Coś mi się wydaje, że nie miałeś pomysłu i tak sobie o, zrobiłeś z nudów.

Zaloguj się aby komentować

Hej(to)!
Kiedy udostępniałam tu meetup Polish Machine Learning Community kilka osób pisało, ze nie mogą się pojawić, ale chętnie obejrzeliby nagrania po. I oto nagrania są dostępne, playlista na youtube.
Było to moje pierwsze poważne wystąpienie publiczne i stres trochę zjadł, ale będzie tylko lepiej!
#programowanie #naukaprogramowania #ai #python #datascience #machinelearning #astronomia #radioteleskop
10936156-4699-4719-9761-2852da987bdf
Opornik

@rakieciara brawo:)

biskitus

Super! Z każdym kolejnym będzies się czuć swobodniej. Wyobraź sobie że na sali siedzą twoi znajomi i opowiadasz im o swoim hobby

Zaloguj się aby komentować

Uwaga! 10 grudnia odbędzie się pierwsza konferencja zorganizowana pod marką Order of Devs.
Darmowy bilet oraz więcej informacji możesz znaleźć: https://www.subscribepage.com/orderofdevsconference
Na konferencji pojawią się 3 ścieżki tematyczne:
  • data science,
  • cloud,
  • frontend.
Każda osoba posiadająca bilet dostanie linki do transmisji mailem w dniu wydarzenia, dzięki czemu będzie mogła uczestniczyć w wydarzeniu online lub odtworzyć nagranie w innym momencie.
Właściciele biletów zostaną również zaproszeni do przedsprzedaży dostępu do naszego programu mentoringu grupowego.
Zapraszamy! Zapraszamy też do udostępniania
https://www.facebook.com/Order-of-Devs-238944198047414/
lubieplackijohn

@hackerman No dzień dobry

Zaloguj się aby komentować

Już 26.06.2021 od 11 do 18! na naszym discord Data Society Community, aż 7 prelekcji pełnych praktycznej wiedzy. Tematyka od data science, ML, AI i projektowanie architektury. Zapraszam!!! https://summer-data-society-conf.carrd.co/
hackerman

@lubieplackijohn Wpadnij na sam discord bo tam masz też różniaste tematy

Zaloguj się aby komentować

Best-of Machine Learning with Python - lista najpopularniejszych repozytoriów aktualizowana co tydzień. Przejrzałem zawartość i śmiało mogę polecić jako jedną z lepiej zorganizowanych list typu "awesome". Na + zasługuje duża przejrzystość, ogrom kategorii i posortowanie narzędzi po liczbie gwiazdek na GitHubie/ich jakości.
https://github.com/ml-tooling/best-of-ml-python
Polecam też sprawdzić resztę list "best of" od powyższych autorów (link znajdziecie w repo)

Zaloguj się aby komentować

Jednym z bardziej ciekawych wzorców architektonicznych jest architektura zwana Pipe And Filters.
Co nam daje?
Polega ona na utworzeniu za pomocą modułów w kodzie idempotentych przepływów danych.
Przykład na ML flow:
Dane => Mapowanie danych => Analiza danych => Imputacja danych => Transformacja danych (np scalowanie) => Uczenie na danych => Weryfikacja modelu => Deploy modelu
Co nam daje P&F?
Możemy bez problemu każdą z tych części zrównoleglić od siebie i użyć tak zwanych collectors do zbierania wyników i przekazania ich do kolejnego modułu.
Dane => 1..N osobnych procesów => Mapowanie danych => Analiza danych => Imputacja danych => Transformacja danych => Kolektor => Uczenie na danych => weryfikacja modelu => Deploy modelu
P. S. Co to podziału analizy statystycznej na mniejsze batche opieram się na Centralnym Twierdzeniu Granicznym, dlatego mogę robić na zatomizowanych ilościach
Z ciekawości czy ktoś chciałby coś o ML/DS ?
hackerman

@chusteczka_haftowana Yeap myślę, że temat fajny ale bardzo szeroki

chusteczka_haftowana

@hackerman takie są najlepsze, ale trzeba mieć o tym większe pojęcie, niż wydzierganie prostego programiku w konsoli

pyXelr

@hackerman Z chęcią poczytam. Sam ostatnio raczkuję w pracy w tematyce MLOps, dlatego też przyda się poszerzyć wiedzę

Zaloguj się aby komentować

Poprzednia