Czy to co zrobiłem, można określić jako data pipeline? Miałem jedną stronę, która miała w sumie na sobie 1600 - redve

Gruba ryba

w Hydepark 2024-11-18T20:00:39+01:00

Czy to co zrobiłem, można określić jako data pipeline?

Miałem jedną stronę, która miała w sumie na sobie 1600 linków.
Było to rozmieszczone na podstronach, gdzie każda miała 50 linków (więc trzeba było 32 razy przejść na nową stronę żeby zobaczyć wszystkie linki). Problem w tym że te linki to było zdjęcie albo film, i nie dało się wyekstraktować samych filmów.

Zrobiłem 3 skrypty w pythonie:
-pierwszy wyciągnął z każdej z tych podstron wszystkie linki, i umieścił je w jednym pliku
-drugi skrypt wziął dane z tego pliku, wszedł pod każdy link, sprawdził które z podstron zawierają filmy, i zapisał linki do pobrania filmów do kolejnego pliku
-Trzeci skrypt po prostu pobrał wszystkie filmy i umieścił je w jednym folderze

Wydaje mi sie że to jest pipeline, bo każdy kolejny skrypt posiłkował się wynikiem wykonania poprzedniego skryptu.

Do CV chyba tego nie wpisze co prawda, bo filmy które wyciągałem są z gatunku postów #jaszczomp i rekruter może sie krzywo patrzeć ( ͡° ͜ʖ ͡°)

Do samego zadania użyłem pythona i modułów requerts, threading oraz BeautifulSoup4. Czy jest do tego inne narzędzie, którego mógłbym sie nauczyć żeby sie przydało w pracy data engineera?
#datascience #programowanie

Cybulion

★

2024-11-18T20:02:03+01:00

Czekaj czekaj, masowo sciagneles pornole? Pokaż no ten skrypt misiaczku

redve 2024-11-18T20:04:35+01:00

@Cybulion jakość kodu leży, ale pisałem na szybko z oczywistych przyczyn xD

https://pastebin.com/4eXwbW2E

# gatgher_link.pyimport requests as rfrom bs4 import BeautifulSoupdef pr - Pastebin.com

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

Pastebin

Cybulion

★

2024-11-18T20:18:25+01:00

@redve XD

Ważne że działa

Catharsis 2024-11-18T22:06:26+01:00

@redve coomer.su XDDDDDDD

Imagine, że napisałem w node.js cały skrypt na 2k linii kodu który służy do pobierania i archiwizowania twórców według nazwy i odpalałem go co jakiś czas i automatycznie sprawdzał czy pojawiło się coś nowego od ostatniego uruchomienia i zaciągał nowe wrzuty na dysk.

Znudziło mi się gdy zaczęło mi się kończyć miejsce na dysku.

P.S. coomer i kemono mają publiczne i darmowe API więc nie musisz scrapować strony.

P.S.2 są na githubie gotowe programy i skrypty do pobierania z tej strony nie musisz się męczyć z pisaniem własnego, ja to bardziej dla sportu robiłem xd

EDIT: Przypomniałeś mi w sumie, że miałem ten skrypt kiedyś dokończyć, dopracować i wrzucić na alternatywne konto na githubie xD

wombatDaiquiri 2024-11-18T20:16:28+01:00

@redve data pipeline for (paralel/sequential) online video processing

PornHub to akurat firma którą bardzo bym chciał mieć w CV, więc nie wiem czemu miałbyś nie opowiadać o projekcie hobbystycznym ( ͡° ͜ʖ ͡°)

redve 2024-11-18T20:17:42+01:00

@wombatDaiquiri to nie był pornhub, tylko spiracone filmiki onlyfansiary ( ͡° ͜ʖ ͡°)

Catharsis 2024-11-18T22:11:54+01:00

@redve Czysta ciekawość, której? Ciekawi mnie czy ja i moje uzależnienie od porno ją kojarzy xD.

redve 2024-11-18T22:27:19+01:00

Komentarz usunięty

Catharsis 2024-11-18T22:31:18+01:00

@redve A to ją jak najbardziej kojarzę, ma kilka fajnych filmów na PH xD.

koszotorobur 2024-11-18T20:19:59+01:00

@redve - jak juz używasz requests to polecamy użycie asyncio: https://www.hejto.pl/wpis/kod-na-uruchamianie-funkcji-synchronicznych-w-pythonie-w-asynchroniczny-sposob-i

A tak w ogóle to polecam od razu używać modułów asynchronicznych jak aiohttp.

Kod na uruchamianie funkcji synchronicznych w Pythonie w asynchroniczny sposób: # Oczywiście warto używać modułów - koszotorobur - Hejto.pl

Kod na uruchamianie funkcji synchronicznych w Pythonie w asynchroniczny sposób: # Oczywiście warto używać modułów natywnie asynchronicznych od razu jeśli jest to możliwe: https://github.com/timofurrer/awesome-asyncio import asyncio import urllib.request def get_page(url): ‎ ‎ ‎ ‎

Hejto.pl

redve 2024-11-18T20:37:30+01:00

@koszotorobur asyncio spoko, ale aiohttp wydaje sie bardziej pod serwery a nie zwykły scrape

koszotorobur 2024-11-18T21:01:00+01:00

@redve - to jest też klient:

Asynchronous HTTP Client/Server for asyncio and Python.

Tu masz przykład jak używać aiohttp z beautifulsoup4: https://www.zenrows.com/blog/asynchronous-web-scraping-python#parse-with-data-with-beautifulsoup

Just a moment...

Zenrows

globalbus 2024-11-18T22:00:08+01:00

@redve httrack robi takie rzeczy, jak chcesz miec offline kopie stron.

Cóż, zaczynałem od takich pierdół w perlu, bo można było dzikie regexy do tego pisać.

Jako devops, to zwykle bash i dodatki, np. jq

koszotorobur 2024-11-19T10:24:07+01:00

@globalbus - aby użyć jq, które służy do parsowania JSONa, to trzeba wydobywać rzeczy z jakiegoś API które zwraca JSONa - Op zdaje się wydobywał rzeczy z HTMLa.

Notabene jq to świetne narzędzie, które stało się właściwie standardem do parsowania JSONa z CLI (i nie tylko na Linuksie) i do szybkich rzeczy jest niezastąpione - niemniej do poważniejszych rzeczy gdy kod staje się bardziej skomplikowany i ma powyżej około 200 linii to sprawny DevOps najczęściej użyje Pythona.

Jqlang

globalbus 2024-11-19T11:01:07+01:00

@koszotorobur jak kod staje się skomplikowany, to przestaje to być robota dla pojedynczego devopsa

Python to używam tylko do pisania wtyczek do nagiosa. Plus ansible używa pod spodem.

koszotorobur 2024-11-19T12:00:32+01:00

@globalbus - pojedynczy DevOps to może w jakiejś małej firmie - albo dopiero jak dział startuje w korpo - wtedy to wręcz musi myśleć o innych ludziach którzy całe to gówno po nim przejmą i będą musieli dalej utrzymywać. Ale wtedy to przede wszystkim musi myśleć o sobie za kilka miesięcy by nie deszyfrować swoich spaghetti shell skryptów pisanych pod jednego taska, które się rozrosły - więc w takiej sytuacji Python jest wręcz niezbędny - i mówię tutaj przede wszystkim ze swojego doświadczenia jako ktoś kto bardzo nielubił Pythona kilkanaście lat temu ale zaczął go doceniać gdy musiał sam budować DevOpsowe teamy od podstaw.

Nagiosa to ja już nie używałem od lat - chociaż to nie był taki zły tool - niemniej wiele firm przeszło na SaaS typu Datadog - i ja z tego powodu wcale nie płaczę.

Ansible to świetne i potężne narzędzie - do momentu jak ktoś jego nie używa jak młotka widząc wszędzie gwoździe - wtedy niektórzy zaczynają niezłe potworki w nim tworzyć - zamiast używać narzędzi, które się lepiej do pewnych rzeczy nadają (jak choćby Terraform).

globalbus 2024-11-19T12:09:11+01:00

@koszotorobur ansible to kwestia podejścia. Jak masz całą firmę na redhacie, to nie stawiasz terraforma, tylko manageiq, a ono sobie wywołuje playbooki.

Ma to pewną zaletę, admini są po redhatowych szkoleniach, to nie musisz ludzi uczyć obsługiwać nowe młotki.

koszotorobur 2024-11-19T12:26:03+01:00

@globalbus - całe moje korpo stało do tej pory na Red Hacie - ale coś się mojemu korpo obecnie odwidziało i idzie troszkę w inną stronę (zostawiając jedynie RHELa jako OS do serwerów w colo). Na szczęście mamy chociaż Ansible Tower i mamy OpenShift więc zanim nam to zaorają to zajmie kilka lat.

Ale z korpo jest zawsze ten problem, że wierzą za bardzo vendorom i robią "strategiczne" deale na lata (bo przecież się tak oszcędza pieniądze ) - moje korpo wpierw uwierzyło Microsoftowi w Azure a teraz zaczyna wierzyć w bajeczki opowiadane przez Googla (jak to jeden wielki Kubernetes na GKE rozwiąże wszelkie problemy).

No ale ja i mój zespół jesteśmy elastyczni - jakąkolwiek technologie na nas wymuszą - poradzimy sobie bo to nie nasze pierwsze rodeo

gastlich 2024-11-19T00:31:54+01:00

Jeżeli chodzi o crawlery to polecam https://github.com/scrapy/scrapy

GitHub - scrapy/scrapy: Scrapy, a fast high-level web crawling & scraping framework for Python.

Scrapy, a fast high-level web crawling & scraping framework for Python. - scrapy/scrapy

GitHub

Zaloguj się aby komentować