O Que É Beautiful Soup?
BeautifulSoup
é uma biblioteca Python que oferece ampla funcionalidade para análise de páginas HTML. Na seção anterior, você trabalhou com HTML como uma string, o que impôs limitações significativas.
Para instalar o BeautifulSoup
, execute o seguinte comando no terminal ou prompt de comando:
pip install beautifulsoup4
;- Para começar, importe
BeautifulSoup
debs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Esta biblioteca é projetada para trabalhar com arquivos HTML e não lida com links. No entanto, você já sabe como lidar com isso usando urlopen de urllib.requests
. Para iniciar a análise, é necessário fornecer dois parâmetros para a função BeautifulSoup
: o primeiro é o arquivo HTML e o segundo é o analisador (usaremos o analisador interno html.parser
). Esta ação criará um objeto BeautifulSoup
. Por exemplo, vamos abrir e ler uma página da web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
O primeiro método que será explorado é .prettify()
, que apresenta o arquivo HTML como uma estrutura de dados aninhada.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
What does the .prettify() method do in BeautifulSoup?
Can you explain how to use BeautifulSoup to parse HTML?
What is the purpose of specifying "html.parser" as the parser?
Awesome!
Completion rate improved to 4.35
O Que É Beautiful Soup?
Deslize para mostrar o menu
BeautifulSoup
é uma biblioteca Python que oferece ampla funcionalidade para análise de páginas HTML. Na seção anterior, você trabalhou com HTML como uma string, o que impôs limitações significativas.
Para instalar o BeautifulSoup
, execute o seguinte comando no terminal ou prompt de comando:
pip install beautifulsoup4
;- Para começar, importe
BeautifulSoup
debs4
:
from bs4 import BeautifulSoup
.
123# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
Esta biblioteca é projetada para trabalhar com arquivos HTML e não lida com links. No entanto, você já sabe como lidar com isso usando urlopen de urllib.requests
. Para iniciar a análise, é necessário fornecer dois parâmetros para a função BeautifulSoup
: o primeiro é o arquivo HTML e o segundo é o analisador (usaremos o analisador interno html.parser
). Esta ação criará um objeto BeautifulSoup
. Por exemplo, vamos abrir e ler uma página da web.
12345678910111213# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
O primeiro método que será explorado é .prettify()
, que apresenta o arquivo HTML como uma estrutura de dados aninhada.
123456789101112# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
Obrigado pelo seu feedback!