BeautifulSoup este o librărie Python ce îți permite să parsezi date din HTML și XML. Aceasta face procesul de extragere a datelor din fișiere HTML mult mai ușor și mai eficient.
Pentru a utiliza BeautifulSoup, trebuie să instalezi mai întâi librăria. Odată ce ai făcut asta, poți să începi să utilizezi metodele sale pentru a extrage elementele din HTML.
De exemplu, poți utiliza BeautifulSoup()
pentru a crea un obiect BeautifulSoup dintr-un fișier HTML. Apoi, poți utiliza metode precum find_all()
pentru a extrage toate elementele din fișierul HTML care se potrivesc cu un anumit criteriu, cum ar fi un tag specific.
Iată un exemplu de cod care utilizează BeautifulSoup pentru a extrage toate tag-urile <p>
dintr-un fișier HTML și pentru a le afișa:
from bs4 import BeautifulSoup
with open("fisier.html") as fp:
soup = BeautifulSoup(fp, "html.parser")
for paragraph in soup.find_all("p"):
print(paragraph.text)
În acest exemplu, soup.find_all("p")
returnează o listă cu toate elementele <p>
din fișierul HTML. Apoi, utilizăm o buclă for pentru a parcurge lista și a afișa textul din fiecare element.
Aceasta este doar o mică parte din ceea ce poți face cu BeautifulSoup. Poți utiliza și alte metode, cum ar fi find()
, pentru a extrage un singur element din fișierul HTML, sau select()
, pentru a extrage elementele care se potrivesc cu un selector CSS.
În general, utilizarea BeautifulSoup este o modalitate eficientă de a extrage date din fișiere HTML, fără a fi nevoie să parcurgi manual fișierul.