Course
Tutorial Python XML con ElementTree: Guía para principiantes
Ejecute y edite el código de este tutorial en línea
Ejecutar códigoComo científico de datos, descubrirás que comprender XML es muy útil tanto para el web-scraping como para la práctica general del análisis sintáctico de un documento estructurado.
- Aprenderá más sobre XML y conocerá el paquete de Python
ElementTree
. - A continuación, descubrirá cómo puede explorar árboles XML para comprender mejor los datos con los que trabaja con la ayuda de las funciones
ElementTree
, los bucles for y las expresiones XPath. - A continuación, aprenderá cómo puede modificar un archivo XML; Y
- Utilizará expresiones xpath para rellenar archivos XML.
¿Qué es XML?
XML son las siglas de "Extensible Markup Language" (lenguaje de marcado extensible). Se utiliza principalmente en páginas web, donde los datos tienen una estructura específica y son comprendidos dinámicamente por el marco XML.
XML crea una estructura en forma de árbol que es fácil de interpretar y admite una jerarquía. Siempre que una página siga XML, puede denominarse documento XML.
- Los documentos XML tienen secciones, llamadas elementos, definidas por una etiqueta de inicio y otra de fin. Una etiqueta es una construcción de marcado que empieza por
<
y termina por>
. Los caracteres entre la etiqueta de inicio y la de fin, si los hay, son el contenido del elemento. Los elementos pueden contener marcas, incluidos otros elementos, que se denominan "elementos hijos". - El elemento más grande, de nivel superior, se denomina raíz, que contiene todos los demás elementos.
- Los atributos son pares nombre-valor que existen dentro de una etiqueta de inicio o de elemento vacío. Un atributo XML sólo puede tener un único valor y cada atributo puede aparecer como máximo una vez en cada elemento.
Para entenderlo un poco mejor, eche un vistazo al siguiente archivo XML (abreviado):
<?xml version="1.0"?>
<collection>
<genre category="Action">
<decade years="1980s">
<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
<format multiple="No">DVD</format>
<year>1981</year>
<rating>PG</rating>
<description>
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
</description>
</movie>
<movie favorite="True" title="THE KARATE KID">
<format multiple="Yes">DVD,Online</format>
<year>1984</year>
<rating>PG</rating>
<description>None provided.</description>
</movie>
<movie favorite="False" title="Back 2 the Future">
<format multiple="False">Blu-ray</format>
<year>1985</year>
<rating>PG</rating>
<description>Marty McFly</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="False" title="X-Men">
<format multiple="Yes">dvd, digital</format>
<year>2000</year>
<rating>PG-13</rating>
<description>Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.</description>
</movie>
<movie favorite="True" title="Batman Returns">
<format multiple="No">VHS</format>
<year>1992</year>
<rating>PG13</rating>
<description>NA.</description>
</movie>
<movie favorite="False" title="Reservoir Dogs">
<format multiple="No">Online</format>
<year>1992</year>
<rating>R</rating>
<description>WhAtEvER I Want!!!?!</description>
</movie>
</decade>
</genre>
<genre category="Thriller">
<decade years="1970s">
<movie favorite="False" title="ALIEN">
<format multiple="Yes">DVD</format>
<year>1979</year>
<rating>R</rating>
<description>"""""""""</description>
</movie>
</decade>
<decade years="1980s">
<movie favorite="True" title="Ferris Bueller's Day Off">
<format multiple="No">DVD</format>
<year>1986</year>
<rating>PG13</rating>
<description>Funny movie about a funny guy</description>
</movie>
<movie favorite="FALSE" title="American Psycho">
<format multiple="No">blue-ray</format>
<year>2000</year>
<rating>Unrated</rating>
<description>psychopathic Bateman</description>
</movie>
</decade>
</genre>
De lo leído anteriormente se desprende que
es el único elemento raíz: contiene todos los demás elementos, como
, o
, que son los elementos hijos o subelementos. Como puede ver, estos elementos están anidados.
Tenga en cuenta que estos elementos hijos también pueden actuar como padres y contener sus propios elementos hijos, que entonces se denominan "elementos subhijos".
- Verá que, por ejemplo, el elemento
contiene un par de "atributos", como
favorite
title
, que dan aún más información.
Con esta breve introducción a los archivos XML, ¡ya está listo para aprender más sobre ElementTree
!
Introducción a ElementTree
La estructura de árbol XML hace que la navegación, modificación y eliminación sean relativamente sencillas mediante programación. Python dispone de una biblioteca integrada, ElementTree
, con funciones para leer y manipular XML (y otros archivos de estructura similar).
En primer lugar, importa ElementTree
. Es una práctica común utilizar el alias de ET
:
import xml.etree.ElementTree as ET
Análisis de datos XML
En el archivo XML proporcionado, se describe una colección básica de películas. El único problema es que los datos son un desastre. Ha habido muchos conservadores diferentes de esta colección y cada uno tiene su propia forma de introducir datos en el archivo. El objetivo principal de este tutorial será leer y comprender el archivo con Python y, a continuación, solucionar los problemas.
Primero hay que leer el archivo con ElementTree
.
tree = ET.parse('movies.xml')
root = tree.getroot()
Ahora que has inicializado el árbol, deberías mirar el XML e imprimir los valores para entender cómo está estructurado el árbol.
Cada parte de un árbol (incluida la raíz) tiene una etiqueta que describe el elemento. Además, como se ha visto en la introducción, los elementos pueden tener atributos, que son descriptores adicionales, utilizados especialmente para el uso repetido de etiquetas. Los atributos también ayudan a validar los valores introducidos para esa etiqueta, contribuyendo una vez más al formato estructurado de un XML.
Verás más adelante en este tutorial que los atributos pueden ser muy poderosos cuando se incluyen en un XML.
root.tag
'collection'
En el nivel superior, se ve que este XML tiene su origen en la etiqueta collection
.
root.attrib
{}
Así que la raíz no tiene atributos.
Bucles For
Puede iterar fácilmente sobre los subelementos (comúnmente llamados "hijos") de la raíz utilizando un simple bucle "for".
for child in root:
print(child.tag, child.attrib)
genre {'category': 'Action'}
genre {'category': 'Thriller'}
genre {'category': 'Comedy'}
Ahora ya sabes que los hijos de la raíz collection
son todos genre
. Para designar el género, el XML utiliza el atributo category
. Hay películas de acción, suspense y comedia según el elemento genre
.
Normalmente es útil conocer todos los elementos del árbol completo. Una función útil para ello es root.iter()
. Puedes poner esta función en un bucle "for" e iterará sobre todo el árbol.
[elem.tag for elem in root.iter()]
['collection',
'genre',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'genre',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'genre',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'movie',
'format',
'year',
'rating',
'description',
'decade',
'movie',
'format',
'year',
'rating',
'description',
'decade',
'movie',
'format',
'year',
'rating',
'description']
Esto da una noción general de cuántos elementos tiene, pero no muestra los atributos o niveles en el árbol.
Hay una forma útil de ver el documento completo. Cualquier elemento tiene un método .tostring()
. Si pasa la raíz al método .tostring()
, puede devolver el documento completo. Dentro de ElementTree
(recuerde el alias ET
), .tostring()
adopta una forma un tanto extraña.
Dado que ElementTree
es una potente biblioteca que puede interpretar algo más que XML, debe especificar tanto la codificación como la descodificación del documento que está mostrando como cadena. Para los XML, utilice 'utf8'
: es el tipo de formato de documento típico para un XML.
print(ET.tostring(root, encoding='utf8').decode('utf8'))
<?xml version='1.0' encoding='utf8'?>
<collection>
<genre category="Action">
<decade years="1980s">
<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
<format multiple="No">DVD</format>
<year>1981</year>
<rating>PG</rating>
<description>
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
</description>
</movie>
<movie favorite="True" title="THE KARATE KID">
<format multiple="Yes">DVD,Online</format>
<year>1984</year>
<rating>PG</rating>
<description>None provided.</description>
</movie>
<movie favorite="False" title="Back 2 the Future">
<format multiple="False">Blu-ray</format>
<year>1985</year>
<rating>PG</rating>
<description>Marty McFly</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="False" title="X-Men">
<format multiple="Yes">dvd, digital</format>
<year>2000</year>
<rating>PG-13</rating>
<description>Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.</description>
</movie>
<movie favorite="True" title="Batman Returns">
<format multiple="No">VHS</format>
<year>1992</year>
<rating>PG13</rating>
<description>NA.</description>
</movie>
<movie favorite="False" title="Reservoir Dogs">
<format multiple="No">Online</format>
<year>1992</year>
<rating>R</rating>
<description>WhAtEvER I Want!!!?!</description>
</movie>
</decade>
</genre>
<genre category="Thriller">
<decade years="1970s">
<movie favorite="False" title="ALIEN">
<format multiple="Yes">DVD</format>
<year>1979</year>
<rating>R</rating>
<description>"""""""""</description>
</movie>
</decade>
<decade years="1980s">
<movie favorite="True" title="Ferris Bueller's Day Off">
<format multiple="No">DVD</format>
<year>1986</year>
<rating>PG13</rating>
<description>Funny movie about a funny guy</description>
</movie>
<movie favorite="FALSE" title="American Psycho">
<format multiple="No">blue-ray</format>
<year>2000</year>
<rating>Unrated</rating>
<description>psychopathic Bateman</description>
</movie>
</decade>
</genre>
<genre category="Comedy">
<decade years="1960s">
<movie favorite="False" title="Batman: The Movie">
<format multiple="Yes">DVD,VHS</format>
<year>1966</year>
<rating>PG</rating>
<description>What a joke!</description>
</movie>
</decade>
<decade years="2010s">
<movie favorite="True" title="Easy A">
<format multiple="No">DVD</format>
<year>2010</year>
<rating>PG--13</rating>
<description>Emma Stone = Hester Prynne</description>
</movie>
<movie favorite="True" title="Dinner for SCHMUCKS">
<format multiple="Yes">DVD,digital,Netflix</format>
<year>2011</year>
<rating>Unrated</rating>
<description>Tim (Rudd) is a rising executive
who “succeeds” in finding the perfect guest,
IRS employee Barry (Carell), for his boss’ monthly event,
a so-called “dinner for idiots,” which offers certain
advantages to the exec who shows up with the biggest buffoon.
</description>
</movie>
</decade>
<decade years="1980s">
<movie favorite="False" title="Ghostbusters">
<format multiple="No">Online,VHS</format>
<year>1984</year>
<rating>PG</rating>
<description>Who ya gonna call?</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="True" title="Robin Hood: Prince of Thieves">
<format multiple="No">Blu_Ray</format>
<year>1991</year>
<rating>Unknown</rating>
<description>Robin Hood slaying</description>
</movie>
</decade>
</genre>
</collection>
Puede ampliar el uso de la función iter()
para ayudar a encontrar elementos concretos de interés. root.iter()
listará todos los subelementos bajo la raíz que coincidan con el elemento especificado. Aquí, usted listará todos los atributos del elemento movie
en el árbol:
for movie in root.iter('movie'):
print(movie.attrib)
{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}
Ya puede ver cómo las movies
se han introducido de diferentes maneras. No te preocupes por eso por ahora, tendrás la oportunidad de corregir uno de los errores más adelante en este tutorial.
Expresiones XPath
Muchas veces los elementos no tendrán atributos, sólo tendrán contenido de texto. Utilizando el atributo .text
, puede imprimir este contenido.
Ahora, imprime todas las descripciones de las películas.
for description in root.iter('description'):
print(description.text)
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
None provided.
Marty McFly
Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.
NA.
WhAtEvER I Want!!!?!
"""""""""
Funny movie about a funny guy
psychopathic Bateman
What a joke!
Emma Stone = Hester Prynne
Tim (Rudd) is a rising executive
who “succeeds” in finding the perfect guest,
IRS employee Barry (Carell), for his boss’ monthly event,
a so-called “dinner for idiots,” which offers certain
advantages to the exec who shows up with the biggest buffoon.
Who ya gonna call?
Robin Hood slaying
Imprimir el XML es útil, pero XPath es un lenguaje de consulta utilizado para buscar en un XML de forma rápida y sencilla. XPath son las siglas de XML Path Language (Lenguaje de rutas XML) y utiliza, como su nombre indica, una sintaxis "similar a una ruta" para identificar y navegar por los nodos de un documento XML.
Comprender XPath es de vital importancia para explorar y rellenar XMLs. ElementTree
tiene una función .findall()
que recorrerá los hijos inmediatos del elemento referenciado. Puede utilizar expresiones XPath para especificar búsquedas más útiles.
Aquí buscará en el árbol las películas estrenadas en 1992:
for movie in root.findall("./genre/decade/movie/[year='1992']"):
print(movie.attrib)
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
La función .findall()
comienza siempre en el elemento especificado. Este tipo de función es extremadamente potente para "buscar y reemplazar". Incluso puede buscar por atributos.
Ahora, imprime sólo las películas que estén disponibles en varios formatos (un atributo).
for movie in root.findall("./genre/decade/movie/format/[@multiple='Yes']"):
print(movie.attrib)
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
{'multiple': 'Yes'}
Piensa por qué, en este caso, la instrucción print devuelve los valores "Sí" de multiple
. Piensa en cómo está definido el bucle "for". ¿Podrías reescribir este bucle para imprimir los títulos de las películas? Pruébalo a continuación:
Consejo: utilice '...'
dentro de XPath para devolver el elemento padre del elemento actual.
for movie in root.findall("./genre/decade/movie/format[@multiple='Yes']..."):
print(movie.attrib)
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
Modificación de un XML
Antes, los títulos de las películas eran un caos absoluto. Ahora, imprímelos de nuevo:
for movie in root.iter('movie'):
print(movie.attrib)
{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back 2 the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}
Arregla el "2" de Regreso al Futuro. Eso debería ser un problema de encontrar y reemplazar. Escribe código para encontrar el título 'Back 2 the Future' y guárdalo como variable:
b2tf = root.find("./genre/decade/movie[@title='Back 2 the Future']")
print(b2tf)
<Element 'movie' at 0x10ce00ef8>
Observe que el método .find()
devuelve un elemento del árbol. Muchas veces, es más útil editar el contenido dentro de un elemento.
Modifique el atributo title
de la variable del elemento Regreso al Futuro para que diga "Regreso al Futuro". A continuación, imprime los atributos de tu variable para ver el cambio. Puede hacerlo fácilmente accediendo al atributo de un elemento y asignándole después un nuevo valor:
b2tf.attrib["title"] = "Back to the Future"
print(b2tf.attrib)
{'favorite': 'False', 'title': 'Back to the Future'}
Escriba sus cambios en el XML para que queden fijados de forma permanente en el documento. Vuelve a imprimir los atributos de la película para asegurarte de que los cambios han funcionado. Para ello, utilice el método .write()
:
tree.write("movies.xml")
tree = ET.parse('movies.xml')
root = tree.getroot()
for movie in root.iter('movie'):
print(movie.attrib)
{'favorite': 'True', 'title': 'Indiana Jones: The raiders of the lost Ark'}
{'favorite': 'True', 'title': 'THE KARATE KID'}
{'favorite': 'False', 'title': 'Back to the Future'}
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'True', 'title': 'Batman Returns'}
{'favorite': 'False', 'title': 'Reservoir Dogs'}
{'favorite': 'False', 'title': 'ALIEN'}
{'favorite': 'True', 'title': "Ferris Bueller's Day Off"}
{'favorite': 'FALSE', 'title': 'American Psycho'}
{'favorite': 'False', 'title': 'Batman: The Movie'}
{'favorite': 'True', 'title': 'Easy A'}
{'favorite': 'True', 'title': 'Dinner for SCHMUCKS'}
{'favorite': 'False', 'title': 'Ghostbusters'}
{'favorite': 'True', 'title': 'Robin Hood: Prince of Thieves'}
Fijación de atributos
El atributo multiple
es incorrecto en algunos lugares. Utilice ElementTree
para fijar el designador en función de los formatos en los que se presente la película. En primer lugar, imprima el atributo format
y el texto para ver qué partes deben corregirse.
for form in root.findall("./genre/decade/movie/format"):
print(form.attrib, form.text)
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'False'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'Yes'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'No'} Online,VHS
{'multiple': 'No'} Blu_Ray
Queda trabajo por hacer con esta etiqueta.
Puede utilizar regex para encontrar comas, que le dirán si el atributo multiple
debe ser "Sí" o "No". Añadir y modificar atributos puede hacerse fácilmente con el método .set()
.
Nota: re
es el intérprete regex estándar para Python. Si quieres saber más sobre expresiones regulares, ten en cuenta este tutorial.
import re
for form in root.findall("./genre/decade/movie/format"):
# Search for the commas in the format text
match = re.search(',',form.text)
if match:
form.set('multiple','Yes')
else:
form.set('multiple','No')
# Write out the tree to the file again
tree.write("movies.xml")
tree = ET.parse('movies.xml')
root = tree.getroot()
for form in root.findall("./genre/decade/movie/format"):
print(form.attrib, form.text)
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,Online
{'multiple': 'No'} Blu-ray
{'multiple': 'Yes'} dvd, digital
{'multiple': 'No'} VHS
{'multiple': 'No'} Online
{'multiple': 'No'} DVD
{'multiple': 'No'} DVD
{'multiple': 'No'} blue-ray
{'multiple': 'Yes'} DVD,VHS
{'multiple': 'No'} DVD
{'multiple': 'Yes'} DVD,digital,Netflix
{'multiple': 'Yes'} Online,VHS
{'multiple': 'No'} Blu_Ray
Elementos móviles
Algunos datos se han colocado en la década equivocada. Utiliza lo que has aprendido sobre XML y ElementTree
para encontrar y corregir los errores de datos de la década.
Será útil imprimir tanto las etiquetas decade
como las etiquetas year
a lo largo del documento.
for decade in root.findall("./genre/decade"):
print(decade.attrib)
for year in decade.findall("./movie/year"):
print(year.text, '\n')
{'years': '1980s'}
1981
1984
1985
{'years': '1990s'}
2000
1992
1992
{'years': '1970s'}
1979
{'years': '1980s'}
1986
2000
{'years': '1960s'}
1966
{'years': '2010s'}
2010
2011
{'years': '1980s'}
1984
{'years': '1990s'}
1991
Los dos años que están en la década equivocada son las películas de la década de 2000. Averigüe cuáles son esas películas, utilizando una expresión XPath.
for movie in root.findall("./genre/decade/movie/[year='2000']"):
print(movie.attrib)
{'favorite': 'False', 'title': 'X-Men'}
{'favorite': 'FALSE', 'title': 'American Psycho'}
Tienes que añadir una nueva etiqueta de década, la del 2000, al género Acción para poder mover los datos de X-Men. El método .SubElement()
puede utilizarse para añadir esta etiqueta al final del XML.
action = root.find("./genre[@category='Action']")
new_dec = ET.SubElement(action, 'decade')
new_dec.attrib["years"] = '2000s'
print(ET.tostring(action, encoding='utf8').decode('utf8'))
<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
<decade years="1980s">
<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
<format multiple="No">DVD</format>
<year>1981</year>
<rating>PG</rating>
<description>
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
</description>
</movie>
<movie favorite="True" title="THE KARATE KID">
<format multiple="Yes">DVD,Online</format>
<year>1984</year>
<rating>PG</rating>
<description>None provided.</description>
</movie>
<movie favorite="False" title="Back to the Future">
<format multiple="No">Blu-ray</format>
<year>1985</year>
<rating>PG</rating>
<description>Marty McFly</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="False" title="X-Men">
<format multiple="Yes">dvd, digital</format>
<year>2000</year>
<rating>PG-13</rating>
<description>Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.</description>
</movie>
<movie favorite="True" title="Batman Returns">
<format multiple="No">VHS</format>
<year>1992</year>
<rating>PG13</rating>
<description>NA.</description>
</movie>
<movie favorite="False" title="Reservoir Dogs">
<format multiple="No">Online</format>
<year>1992</year>
<rating>R</rating>
<description>WhAtEvER I Want!!!?!</description>
</movie>
</decade>
<decade years="2000s" /></genre>
Ahora añada la película de X-Men a la década de 2000 y elimínela de la década de 1990, utilizando .append()
y .remove()
, respectivamente.
xmen = root.find("./genre/decade/movie[@title='X-Men']")
dec2000s = root.find("./genre[@category='Action']/decade[@years='2000s']")
dec2000s.append(xmen)
dec1990s = root.find("./genre[@category='Action']/decade[@years='1990s']")
dec1990s.remove(xmen)
print(ET.tostring(action, encoding='utf8').decode('utf8'))
<?xml version='1.0' encoding='utf8'?>
<genre category="Action">
<decade years="1980s">
<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
<format multiple="No">DVD</format>
<year>1981</year>
<rating>PG</rating>
<description>
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
</description>
</movie>
<movie favorite="True" title="THE KARATE KID">
<format multiple="Yes">DVD,Online</format>
<year>1984</year>
<rating>PG</rating>
<description>None provided.</description>
</movie>
<movie favorite="False" title="Back to the Future">
<format multiple="No">Blu-ray</format>
<year>1985</year>
<rating>PG</rating>
<description>Marty McFly</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="True" title="Batman Returns">
<format multiple="No">VHS</format>
<year>1992</year>
<rating>PG13</rating>
<description>NA.</description>
</movie>
<movie favorite="False" title="Reservoir Dogs">
<format multiple="No">Online</format>
<year>1992</year>
<rating>R</rating>
<description>WhAtEvER I Want!!!?!</description>
</movie>
</decade>
<decade years="2000s"><movie favorite="False" title="X-Men">
<format multiple="Yes">dvd, digital</format>
<year>2000</year>
<rating>PG-13</rating>
<description>Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.</description>
</movie>
</decade></genre>
Construir documentos XML
Bien, así que fuiste capaz de trasladar una película entera a una nueva década. Guarde los cambios en el XML.
tree.write("movies.xml")
tree = ET.parse('movies.xml')
root = tree.getroot()
print(ET.tostring(root, encoding='utf8').decode('utf8'))
<?xml version='1.0' encoding='utf8'?>
<collection>
<genre category="Action">
<decade years="1980s">
<movie favorite="True" title="Indiana Jones: The raiders of the lost Ark">
<format multiple="No">DVD</format>
<year>1981</year>
<rating>PG</rating>
<description>
'Archaeologist and adventurer Indiana Jones
is hired by the U.S. government to find the Ark of the
Covenant before the Nazis.'
</description>
</movie>
<movie favorite="True" title="THE KARATE KID">
<format multiple="Yes">DVD,Online</format>
<year>1984</year>
<rating>PG</rating>
<description>None provided.</description>
</movie>
<movie favorite="False" title="Back to the Future">
<format multiple="No">Blu-ray</format>
<year>1985</year>
<rating>PG</rating>
<description>Marty McFly</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="True" title="Batman Returns">
<format multiple="No">VHS</format>
<year>1992</year>
<rating>PG13</rating>
<description>NA.</description>
</movie>
<movie favorite="False" title="Reservoir Dogs">
<format multiple="No">Online</format>
<year>1992</year>
<rating>R</rating>
<description>WhAtEvER I Want!!!?!</description>
</movie>
</decade>
<decade years="2000s"><movie favorite="False" title="X-Men">
<format multiple="Yes">dvd, digital</format>
<year>2000</year>
<rating>PG-13</rating>
<description>Two mutants come to a private academy for their kind whose resident superhero team must
oppose a terrorist organization with similar powers.</description>
</movie>
</decade></genre>
<genre category="Thriller">
<decade years="1970s">
<movie favorite="False" title="ALIEN">
<format multiple="No">DVD</format>
<year>1979</year>
<rating>R</rating>
<description>"""""""""</description>
</movie>
</decade>
<decade years="1980s">
<movie favorite="True" title="Ferris Bueller's Day Off">
<format multiple="No">DVD</format>
<year>1986</year>
<rating>PG13</rating>
<description>Funny movie about a funny guy</description>
</movie>
<movie favorite="FALSE" title="American Psycho">
<format multiple="No">blue-ray</format>
<year>2000</year>
<rating>Unrated</rating>
<description>psychopathic Bateman</description>
</movie>
</decade>
</genre>
<genre category="Comedy">
<decade years="1960s">
<movie favorite="False" title="Batman: The Movie">
<format multiple="Yes">DVD,VHS</format>
<year>1966</year>
<rating>PG</rating>
<description>What a joke!</description>
</movie>
</decade>
<decade years="2010s">
<movie favorite="True" title="Easy A">
<format multiple="No">DVD</format>
<year>2010</year>
<rating>PG--13</rating>
<description>Emma Stone = Hester Prynne</description>
</movie>
<movie favorite="True" title="Dinner for SCHMUCKS">
<format multiple="Yes">DVD,digital,Netflix</format>
<year>2011</year>
<rating>Unrated</rating>
<description>Tim (Rudd) is a rising executive
who “succeeds” in finding the perfect guest,
IRS employee Barry (Carell), for his boss’ monthly event,
a so-called “dinner for idiots,” which offers certain
advantages to the exec who shows up with the biggest buffoon.
</description>
</movie>
</decade>
<decade years="1980s">
<movie favorite="False" title="Ghostbusters">
<format multiple="Yes">Online,VHS</format>
<year>1984</year>
<rating>PG</rating>
<description>Who ya gonna call?</description>
</movie>
</decade>
<decade years="1990s">
<movie favorite="True" title="Robin Hood: Prince of Thieves">
<format multiple="No">Blu_Ray</format>
<year>1991</year>
<rating>Unknown</rating>
<description>Robin Hood slaying</description>
</movie>
</decade>
</genre>
</collection>
Conclusión
Hay algunas cosas clave que conviene recordar sobre los XML y el uso de ElementTree
.
Las etiquetas construyen la estructura de árbol y designan qué valores deben delinearse en ella. Utilizar una estructuración inteligente puede facilitar la lectura y escritura en un XML. Las etiquetas siempre necesitan corchetes de apertura y cierre para mostrar las relaciones entre padres e hijos.
Los atributos describen además cómo validar una etiqueta o permiten designaciones booleanas. Los atributos suelen tomar valores muy específicos para que el analizador XML (y el usuario) puedan utilizarlos para comprobar los valores de las etiquetas.
ElementTree
es una importante biblioteca de Python que permite analizar y navegar por un documento XML. ElementTree
descompone el documento XML en una estructura de árbol con la que es fácil trabajar. En caso de duda, imprímalo (print(ET.tostring(root, encoding='utf8').decode('utf8'))
) - utilice esta útil sentencia de impresión para ver todo el documento XML de una sola vez. Ayuda a comprobar cuando se edita, añade o elimina de un XML.
Ahora ya estás preparado para entender XML y empezar a analizarlo.
Referencias:
Más información sobre Python
Course
Intermediate Python
Course
Introduction to Functions in Python
tutorial
Tutorial de Excel en Python: La guía definitiva
tutorial
Tutorial de análisis NLTK del sentimiento para principiantes
tutorial
21 herramientas esenciales de Python
tutorial
Datos JSON en Python
tutorial
Tutorial de Pandas: DataFrames en Python
tutorial