Co nam daje?
Polega ona na utworzeniu za pomocą modułów w kodzie idempotentych przepływów danych.
Przykład na ML flow:
Dane => Mapowanie danych => Analiza danych => Imputacja danych => Transformacja danych (np scalowanie) => Uczenie na danych => Weryfikacja modelu => Deploy modelu
Co nam daje P&F?
Możemy bez problemu każdą z tych części zrównoleglić od siebie i użyć tak zwanych collectors do zbierania wyników i przekazania ich do kolejnego modułu.
Dane => 1..N osobnych procesów => Mapowanie danych => Analiza danych => Imputacja danych => Transformacja danych => Kolektor => Uczenie na danych => weryfikacja modelu => Deploy modelu
P. S. Co to podziału analizy statystycznej na mniejsze batche opieram się na Centralnym Twierdzeniu Granicznym, dlatego mogę robić na zatomizowanych ilościach
Z ciekawości czy ktoś chciałby coś o ML/DS ?