Sunteți pe pagina 1din 4

Pasul 1 - Folosiți BeautifulSoup pentru a face scraping pentru

prețul produsului
1. Găsiți un produs pe Amazon pe care doriți să-l urmăriți și obțineți
adresa URL a produsului sau utilizați-l pe cel pe care îl urmăresc.
https://www.amazon.com/Instant-Pot-Duo-Evo-Plus/dp/
B07W55DDFB/ref=sr_1_1?qid=1597662463

Pe lângă adresa URL, atunci când browserul încearcă să încarce o


pagină în Amazon, acesta transmite și o mulțime de alte informații.
de exemplu. Ce browser utilizați, ce computer aveți etc.
Aceste informații suplimentare sunt transmise în anteturile cererii.
Puteți vedea anteturile browserului dvs. accesând acest site web:
http://myhttpheader.com/
2. Utilizați biblioteca de solicitări pentru a solicita pagina HTML a
produsului Amazon folosind adresa URL pe care ați primit-o de la 1.
SFAT 1: Va trebui să transmiteți câteva anteturi pentru ca cererea să
returneze HTML-ul propriu-zis al site-ului web. Cel puțin, va trebui să
specificați valorile „User-Agent” și „Accept-Language” în antetul
solicitării.
SUGESTIE 2: Amintiți-vă că așa treceți antetele cu biblioteca de
solicitări:
https://stackoverflow.com/questions/6260457/using-headers-with-
the-python-requests-librarys-get-method
SFAT 3: Imprimați rezultatul cererii de obținere și asigurați-vă că
HTML-ul real al paginii web este tipărit, dacă nu încercați să
adăugați mai multe elemente din antetul dvs. de la hint1. Uneori,
Amazon poate returna pagina Captcha.
3. Folosiți BeautifulSoup pentru a face supă cu pagina web HTML pe
care o primiți înapoi. Va trebui să utilizați analizatorul „lxml” în loc de
„html.parserul” pentru ca acest lucru să funcționeze. SUGESTIE:
Dacă primiți o eroare care spune „bs4.FeatureNotFound: Nu s-a
putut găsi un generator de arbori cu caracteristicile pe care le-ați
solicitat: html-parser”. Atunci înseamnă că nu utilizați analizatorul
potrivit, va trebui să importați lxml în partea de sus și să instalați
modulul, apoi să utilizați „lxml” în loc de „html.parser” când faceți
supă. 4. Folosiți BeautifulSoup pentru a obține prețul articolului ca
număr în virgulă mobilă și imprimați-l. SUGESTIE: S-ar putea să fie
nevoie să utilizați split()
https://www.w3schools.com/python/ref_string_split.asp
SOLUTION

S-ar putea să vă placă și