Cześć. Wiem, że społeczność może nie na temat, lecz użytkownicy z tej społeczności pewnie będą znać odpowiedź. Pozwolę się tutaj zapytać.
  1. Mam kilkaset stron zapisanych w plikach html . Stamtąd chcę wyciągnąć z każdego pliku konkretnego diva, np. <div=teskt> wyciągnąć treść i ją zapisać do txt.
  2. Z tego tekstu, każdy kolejny... tekst, chciałbym oddzielić. Zaczyna się liczbą rzymską, potem jest opis jednosłowny i treść właściwa. Dokument ma budowę np.:
I. SŁOWO_KLUCZ,
teskt
II. SŁOWO_KLUCZ,
tekst
[...]
IX. SŁOWO_KLUCZ
tekst.
Chciałbym wrzucić każdy taki akapit do osobnego pliku txt.
I to chyba na razie tyle. Udałoby się to jakimś narzędziem ogarnąć?
#komputery
Reminev

Zwykły skrypt w bashu albo pythonie, poproś chatgpt napiszę ci to w sekundę

Argony

@Reminev

poproś chatgpt napiszę ci to w sekundę


ehh, staro się poczułem

Odwrocuawiacz

@Filip jakby przekopiować do excel i zastosować formuły to może i by się dało, ale też może być jakieś inne narzędzie.


Ja jak coś chcę zrobić "na lenia" to ogarniam w excelu formułami i wspomagam się poradnikami z neta.

Filip

@Odwrocuawiacz @Reminev dziękuję za podpowiedzi!

moniuszko

@Filip Można w Pythonie wykorzystując beautifulsoup4 do wyciagnięcia tekstu z html i dalej wyekstrachowac akapity używając regexa

arczy

@Reminev @Argony Albo w powershellu ( ͡~ ͜ʖ ͡°)

Zaloguj się aby komentować