Cześć,
czy jest tu jakiś ekspert z #datascience, który zechciałby mi pomóc w stworzeniu prostego modelu predykcyjnego? Mam wstępnie obrobione dane w .csv, ale utknąłem na modelowaniu, tj. nie jestem pewien w jaki sposób dobrać parametry żeby to miało ręce i nogi i żeby móc z tego wyciągnąć jakiekolwiek poprawne wnioski.
Z góry dzięki za pomoc!
plemnik_w_piwie

@kolorado a opiszesz po krotce co tam masz? Co chcesz zrobić?

kolorado

@plemnik_w_piwie tak, potrzebuję zrobić model predykcyjny, którego zadaniem będzie sprawdzenie szansy na to, że dany pociąg będzie opóźniony. Dane, które posiadam zawierają informacje o konkretnych pociągach, stacjach, datach i godzinach przyjazdu/odjazdu oraz o opóźnieniach na danych relacjach. Próbowałem to wszystko wymodelować w SAS Miner, ale wyniki raczej nie były satysfakcjonujące.

plemnik_w_piwie

@kolorado no to zacznij od prostej statystyki dla danej linii:

Wykres opożnienia linii w czasie, to od razu ci pokaże trendy.

Średnie opóźnienie i odchylenie standardowe ci pokażą, która linia ma ogolnie niejwieksze opóźnienia

Potem sprawdziłbym korelacje między nimi, bo spożnienia mogą chodzic parami.

Cykliczność i ogólnie postarał się zrozumieć przyczynę opóźnień, bo jeśli np na twoich liniach bywają opóźnienia z powodu problemów z pociągi spoza twojej listy, to powinieneś rozszerzyć badanie. Pkp kiedyś podawało powody opóźnienia pociągu przy portali z ich śledzeniem. Ale to trzebaby studiować na bieżąco, bo nie kojarzę archiwalnych danych z tego. Fajne zajęcie ogólnie:)

plemnik_w_piwie

@kolorado ogolnie to polecam poczytac sobie:

https://www.itl.nist.gov/div898/handbook/eda/eda.htm

Super lektura, sako gęste

Edit: tam wyżej to tylko rozdział. Tu jest całość:

https://www.itl.nist.gov/div898/handbook/index.htm

GrindFaterAnona

potrzebuję zrobić model predykcyjny, którego zadaniem będzie sprawdzenie szansy na to, że dany pociąg będzie opóźniony. Dane, które posiadam zawierają informacje o konkretnych pociągach, stacjach, datach i godzinach przyjazdu/odjazdu oraz o opóźnieniach na danych relacjach.


@kolorado chyba nadal slabo zdefiniowany problem. Jezeli to jest tak jak piszesz to: if opoznienieNaPoprzedniejStacji == True:

print ('opoznienie na bierzacej stacji bardzo prawdopodobne')

Zaloguj się aby komentować