Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Que É Beautiful Soup? | Decodificando HTML com Beautiful Soup
Web Scraping com Python

bookO Que É Beautiful Soup?

BeautifulSoup é uma biblioteca Python que oferece ampla funcionalidade para análise de páginas HTML. Na seção anterior, você trabalhou com HTML como uma string, o que impôs limitações significativas.

Para instalar o BeautifulSoup, execute o seguinte comando no terminal ou prompt de comando:

  • pip install beautifulsoup4;
  • Para começar, importe BeautifulSoup de bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca é projetada para trabalhar com arquivos HTML e não lida com links. No entanto, você já sabe como lidar com isso usando urlopen de urllib.requests. Para iniciar a análise, é necessário fornecer dois parâmetros para a função BeautifulSoup: o primeiro é o arquivo HTML e o segundo é o analisador (usaremos o analisador interno html.parser). Esta ação criará um objeto BeautifulSoup. Por exemplo, vamos abrir e ler uma página da web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

O primeiro método que será explorado é .prettify(), que apresenta o arquivo HTML como uma estrutura de dados aninhada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

What does the .prettify() method do in BeautifulSoup?

Can you explain how to use BeautifulSoup to parse HTML?

What is the purpose of specifying "html.parser" as the parser?

Awesome!

Completion rate improved to 4.35

bookO Que É Beautiful Soup?

Deslize para mostrar o menu

BeautifulSoup é uma biblioteca Python que oferece ampla funcionalidade para análise de páginas HTML. Na seção anterior, você trabalhou com HTML como uma string, o que impôs limitações significativas.

Para instalar o BeautifulSoup, execute o seguinte comando no terminal ou prompt de comando:

  • pip install beautifulsoup4;
  • Para começar, importe BeautifulSoup de bs4:

from bs4 import BeautifulSoup.

123
# Importing the library from bs4 import BeautifulSoup print(BeautifulSoup)
copy

Esta biblioteca é projetada para trabalhar com arquivos HTML e não lida com links. No entanto, você já sabe como lidar com isso usando urlopen de urllib.requests. Para iniciar a análise, é necessário fornecer dois parâmetros para a função BeautifulSoup: o primeiro é o arquivo HTML e o segundo é o analisador (usaremos o analisador interno html.parser). Esta ação criará um objeto BeautifulSoup. Por exemplo, vamos abrir e ler uma página da web.

12345678910111213
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(type(soup)) print(soup)
copy

O primeiro método que será explorado é .prettify(), que apresenta o arquivo HTML como uma estrutura de dados aninhada.

123456789101112
# Importing libraries from bs4 import BeautifulSoup from urllib.request import urlopen # Reading web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/jesus.html" page = urlopen(url) html = page.read().decode("utf-8") # Reading HTML with BeautifulSoup soup = BeautifulSoup(html, "html.parser") print(soup.prettify())
copy
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1
some-alt