Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Arbete med Specifika Element | Avkoda HTML med Beautiful Soup
Web Scraping med Python

bookArbete med Specifika Element

Navigering i ett HTML-dokument med Python-attribut hämtar endast den första förekomsten av ett element. Om du vill hitta den första instansen av ett element utan att känna till dess fullständiga sökväg, använd metoden .find() och ange taggnamnet som en sträng (utan < >-parenteser). Till exempel, lokalisera det första <div>-elementet i HTML-dokumentet.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div"))
copy

Du kan även hämta alla instanser av ett specifikt element med metoden .find_all(). Den returnerar en lista med alla träffar. Till exempel, hitta alla <p>-taggar i HTML-dokumentet.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find_all("p"))
copy

Metoden .find_all() kan användas för att hitta flera taggar genom att skicka en lista med taggnamn. Till exempel, samla alla <div>- och <title>-element.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for el in soup.find_all(["div", "title"]): print(el)
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 5

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 4.35

bookArbete med Specifika Element

Svep för att visa menyn

Navigering i ett HTML-dokument med Python-attribut hämtar endast den första förekomsten av ett element. Om du vill hitta den första instansen av ett element utan att känna till dess fullständiga sökväg, använd metoden .find() och ange taggnamnet som en sträng (utan < >-parenteser). Till exempel, lokalisera det första <div>-elementet i HTML-dokumentet.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find("div"))
copy

Du kan även hämta alla instanser av ett specifikt element med metoden .find_all(). Den returnerar en lista med alla träffar. Till exempel, hitta alla <p>-taggar i HTML-dokumentet.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.find_all("p"))
copy

Metoden .find_all() kan användas för att hitta flera taggar genom att skicka en lista med taggnamn. Till exempel, samla alla <div>- och <title>-element.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/page.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") for el in soup.find_all(["div", "title"]): print(el)
copy
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 5
some-alt