Miałem jedną stronę, która miała w sumie na sobie 1600 linków.
Było to rozmieszczone na podstronach, gdzie każda miała 50 linków (więc trzeba było 32 razy przejść na nową stronę żeby zobaczyć wszystkie linki). Problem w tym że te linki to było zdjęcie albo film, i nie dało się wyekstraktować samych filmów.
Zrobiłem 3 skrypty w pythonie:
-pierwszy wyciągnął z każdej z tych podstron wszystkie linki, i umieścił je w jednym pliku
-drugi skrypt wziął dane z tego pliku, wszedł pod każdy link, sprawdził które z podstron zawierają filmy, i zapisał linki do pobrania filmów do kolejnego pliku
-Trzeci skrypt po prostu pobrał wszystkie filmy i umieścił je w jednym folderze
Wydaje mi sie że to jest pipeline, bo każdy kolejny skrypt posiłkował się wynikiem wykonania poprzedniego skryptu.
Do CV chyba tego nie wpisze co prawda, bo filmy które wyciągałem są z gatunku postów #jaszczomp i rekruter może sie krzywo patrzeć ( ͡° ͜ʖ ͡°)
Do samego zadania użyłem pythona i modułów requerts, threading oraz BeautifulSoup4. Czy jest do tego inne narzędzie, którego mógłbym sie nauczyć żeby sie przydało w pracy data engineera?
#datascience #programowanie
@redve - jak juz używasz requests to polecamy użycie asyncio: https://www.hejto.pl/wpis/kod-na-uruchamianie-funkcji-synchronicznych-w-pythonie-w-asynchroniczny-sposob-i
A tak w ogóle to polecam od razu używać modułów asynchronicznych jak aiohttp.
@redve httrack robi takie rzeczy, jak chcesz miec offline kopie stron.
Cóż, zaczynałem od takich pierdół w perlu, bo można było dzikie regexy do tego pisać.
Jako devops, to zwykle bash i dodatki, np. jq
Zaloguj się aby komentować