Vamos a ver cómo utilizar las expresiones regulares en Python.
Las expresiones regulares son patrones de texto que podemos utilizar para validar correos electrónicos o números de teléfono, por ejemplo.
La documentación oficial la podemos encontrar en:
https://docs.python.org/3/howto/regex.html
A continuación ponemos un ejemplo de fichero en el que utilizamos expresiones regulares para validar ciertos casos:
## EXPRESIONES REGULARES ##
# Importamos la librería re:
import re
cadena = "Vamos a aprender expresiones regulares"
# Buscamos el texto "aprender" en la cadena:
print(re.search("aprender", cadena))
# Hacemos lo mismo pero con un if:
if re.search("aprender", cadena) is not None:
print("He encontrado el texto")
else:
print("No he encontrado el texto")
# Volvemos a hacer lo mismo, pero guardamos el objeto resultante en una variable y mostramos la posición de la cadena en la que empieza a encontrar el texto con el método start:
textoEncontrado = re.search("aprender", cadena)
print(textoEncontrado.start())
# Buscamos si el literal "Sandra" se encuentra al principio de la cadena, ignorando las mayúsculas y minúsculas:
re.match("Sandra", cadena, re.IGNORECASE)
Los diferentes métodos que se pueden utilizar sobre la libreria "re" además del search son:
match(): Determine if the RE matches at the beginning of the string.
search(): Scan through a string, looking for any location where this RE matches.
findall(): Find all substrings where the RE matches, and returns them as a list.
finditer(): Find all substrings where the RE matches, and returns them as an iterator.
Los diferentes métodos que se pueden utilizar sobre el objeto devuelto tras la validación de uno de los métodos anteriores, además del start, son:
group(): Return the string matched by the RE.
start(): Return the starting position of the match.
end(): Return the ending position of the match.
span(): Return a tuple containing the (start, end) positions of the match.
Algunos ejemplos de caracteres especiales para validar expresiones regulares son:
^: Empieza por.
$: Termina por.
[]: Busca cualquier caracter que indiquemos en su interior. Por ejemplo, 'niñ[oa]s' busca tanto niños como niñas.
[-]: Busca en un rango de caracteres que le indiquemos antes y después del guión. Por ejemplo, '[o-t]' busca un carácter que se encuentre entre la 'o' y la 't' según el orden alfabético. También funciona con números.
[^-]: Como el anterior, pero busca los caracteres que NO se encuentren en ese rango. Por ejemplo, [^o-t] busca un carácter que NO se encuentre entre la 'o' y la 't'. Otro ejemplo, '[0-3A-B]' busca un caracter que se encuentre entre 0 y 3 o entre A y B.
.: Carácter comodín, vale por cualquiera. Por ejemplo, '.ara' busca cualquier carácter + 'ara' (Lara, Sara, Jara...).
\d: Busca un carácter que sea numérico.
Y eso es todo.
No hay comentarios:
Publicar un comentario