Aplicación de Métodos de Cadena
¿Qué se puede hacer con la página leída? Es una cadena de texto, por lo que se pueden utilizar cualquier método de cadena. Por ejemplo, se puede emplear el método .find()
, que devuelve el índice de la primera aparición de un elemento específico. Por ejemplo, es posible localizar el título de la página identificando los índices de las primeras etiquetas de apertura y cierre. También se tendrá en cuenta la longitud de la etiqueta de cierre.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Como se muestra en el ejemplo anterior, se crearon dos variables, start
y finish
. La variable start
contiene el índice del primer elemento dentro de la primera aparición del elemento <title>
. Por su parte, la variable finish
almacena el índice del carácter inmediatamente posterior a la etiqueta de cierre </title>
. El propio método .find()
proporcionó el índice inicial de la etiqueta de cierre, por lo que se sumó la longitud de la etiqueta para obtener el índice del último elemento.
El corte de listas excluye el último elemento, por lo que buscamos el siguiente carácter después de la etiqueta de cierre.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Can you explain how the .find() method works in more detail?
What other string methods can I use to process the web page content?
How can I extract other elements from the HTML using similar techniques?
Awesome!
Completion rate improved to 4.35
Aplicación de Métodos de Cadena
Desliza para mostrar el menú
¿Qué se puede hacer con la página leída? Es una cadena de texto, por lo que se pueden utilizar cualquier método de cadena. Por ejemplo, se puede emplear el método .find()
, que devuelve el índice de la primera aparición de un elemento específico. Por ejemplo, es posible localizar el título de la página identificando los índices de las primeras etiquetas de apertura y cierre. También se tendrá en cuenta la longitud de la etiqueta de cierre.
1234567891011121314# Importing the module from urllib.request import urlopen # Opening web page url = "https://codefinity-content-media.s3.eu-west-1.amazonaws.com/18a4e428-1a0f-44c2-a8ad-244cd9c7985e/mother.html" page = urlopen(url) # Reading and decoding web_page = page.read().decode("utf-8") # Indexes of opening and closing title tags start = web_page.find("<title") finish = web_page.find("</title>") + len("</title>") print(web_page[start:finish])
Como se muestra en el ejemplo anterior, se crearon dos variables, start
y finish
. La variable start
contiene el índice del primer elemento dentro de la primera aparición del elemento <title>
. Por su parte, la variable finish
almacena el índice del carácter inmediatamente posterior a la etiqueta de cierre </title>
. El propio método .find()
proporcionó el índice inicial de la etiqueta de cierre, por lo que se sumó la longitud de la etiqueta para obtener el índice del último elemento.
El corte de listas excluye el último elemento, por lo que buscamos el siguiente carácter después de la etiqueta de cierre.
¡Gracias por tus comentarios!