Prowadzimy firmę zajmującą się pisaniem scraperów i pobieraniem danych z internetu.
Chcielibyśmy Wam pokazać jak wygląda nasza praca na przykładzie scrapowania danych ze Steam'a!
Ostatnio zrobiliśmy mały zarys pracy oraz napisaliśmy scrapowanie tagów:
Dzisiaj zajmiemy się analizą i rozgryzaniem kodu Steam'a.
Brzmi fajnie, lecz post jest dosyć ciężki i skomplikowany.
Z drugiej jednak strony pokazujemy jak wygląda praca z namierzaniem danych i próbami ekstrakcji ich. Oczywiście można uprościć ten kod korzystając z np. Selenium, ale jak poprzednio pisaliśmy sęk w tym, aby scraper był szybki i zużywał jak najmniej zasobów. Dlatego zostajemy przy HttpClient mimo, że wymaga to więcej pracy od nas.
Zapraszamy do lektury!
Komentarze, pytania, uwagi (krytyczne) oraz PIORUNY mile widziane!
#programowanie #selenium #webdriver #webscraping #scraping #datamining #csharp
Strona wam coś ucina na starcie napis
@rayros ach te mobilki, dzieki za zwrócenie uwagi
Scrapowanie danych często wymaga takiej analizy i zabawy w detektywa ale daje to satysfakcję.
Czasami trzeba używać Selenium jak na stronie dużo danych doładowywanych jest dynamicznie albo są zabezpieczenia antybotowe.
@szoz świetnie to określiłes "w detektywa", dokładnie tak jest! najlepsza zabawa jest właśnie z zabezpieczeniami antybotowymi
Scrapowanie nie podchodzi czasami pod celowe bombardowanie serwerów zapytaniami? Jak to wygląda pod względem prawnym?
@nazwa_uzytkownika
https://informatykzakladowy.pl/nieliczni-fani-portalu-albicla/#more-3975
wspomniany już LinkedIn koncertowo przewalił sprawę w sądzie. Scrapowanie publicznie dostępnych danych (w tym profili na Albicli) jest w pełni legalne i nie różni się niczym od ręcznego odwiedzania profili. Zupełnie inną sprawą byłoby gdyby scraping spowodował niedostępność usługi i to już mogłoby być potraktowane jako atak DoS i tutaj Albicla miałaby w sądzie pole do popisu.
@nazwa_uzytkownika zależy jak się zorganizuje scrapowanie. Zawsze można sie przyczepić ale generalnie jak to się robi z głową to jest wszystko OK
Zapraszamy wszystkich do zapoznania się z nowym postem!
Zaloguj się aby komentować