Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Aplicación de Métodos de Cadena | Familiarizándose con HTML
Web Scraping con Python

bookAplicación de Métodos de Cadena

¿Qué se puede hacer con la página que se ha leído? Al ser una cadena de texto, se pueden utilizar todos los métodos de cadena. Por ejemplo, el método .find() devuelve el índice de la primera aparición de un elemento específico. Se puede emplear para localizar el título de la página buscando los índices de las etiquetas de apertura y cierre, y considerando la longitud de la etiqueta de cierre.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Como se muestra en el ejemplo anterior, se crearon dos variables, start y finish. La variable start almacena el índice del primer carácter dentro de la etiqueta de apertura <title>, mientras que la variable finish almacena el índice del carácter justo después de la etiqueta de cierre </title>. El método .find() devuelve el índice inicial de la etiqueta de cierre, por lo que se suma la longitud de la etiqueta para obtener la posición final.

Note
Más información

El corte de listas excluye el último elemento, por lo que se utiliza el carácter siguiente después de la etiqueta de cierre.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 10

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.35

bookAplicación de Métodos de Cadena

Desliza para mostrar el menú

¿Qué se puede hacer con la página que se ha leído? Al ser una cadena de texto, se pueden utilizar todos los métodos de cadena. Por ejemplo, el método .find() devuelve el índice de la primera aparición de un elemento específico. Se puede emplear para localizar el título de la página buscando los índices de las etiquetas de apertura y cierre, y considerando la longitud de la etiqueta de cierre.

1234567891011121314
# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
copy

Como se muestra en el ejemplo anterior, se crearon dos variables, start y finish. La variable start almacena el índice del primer carácter dentro de la etiqueta de apertura <title>, mientras que la variable finish almacena el índice del carácter justo después de la etiqueta de cierre </title>. El método .find() devuelve el índice inicial de la etiqueta de cierre, por lo que se suma la longitud de la etiqueta para obtener la posición final.

Note
Más información

El corte de listas excluye el último elemento, por lo que se utiliza el carácter siguiente después de la etiqueta de cierre.

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 10
some-alt