Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils

En este artículo muestro cómo obtener las palabras más utilizadas de un texto de forma sencilla. En este caso, yo usaré como demostración el texto del libro octavo de la novela Τῶν περὶ Χαιρέαν καὶ Καλλιρρόην, extraído de https://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A2008.01.0668%3Abook%3D8. Le he quitado las anotaciones que tenía entre corchetes con sed...

sed -i 's/\[[^]]*\]//g' libro_octavo.txt

El programa que nos muestra todas las palabras es el siguiente, lo he llamado lista-de-palabras.py (explico cómo funciona más abajo):

archivo_texto = open('libro_octavo.txt', 'r')
texto = archivo_texto.read()
archivo_texto.close()

palabras = texto.split()

for palabra in palabras:
    print(palabra.strip('‘’:;,.').lower())

En el archivo con el texto, que he llamado libro_octavo.txt (descargar), asumo que una palabra está separada por un espacio en blanco, así que uso la función split para obtener la lista de palabras. Sin embargo, a veces hay comas, puntos, comillas, dos puntos y puntos y comas antes o después de las palabras, y a veces empiezan por mayúscula. Para estos casos basta usar la función strip(), con los caracteres que queremos desechar entre comillas, y lower() para poner la palabra en minúscula.

Ahora quiero se muestren por pantalla las palabras que más veces aparecen en el texto, con el número de veces que aparecen a su izquierda; pero no voy a programarlo yo, sino que voy a utilizar herramientas que permiten hacer eso en GNU/Linux: uniq y sort.

Continúa leyendo Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils
Publicado el Modificado el Categoría En GNU/Linux Etiquetas , , en Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils

Manual de referencia de Bash

Hace tiempo inicié un proyecto de traducción de la documentación oficial de Bash al castellano.

Pongo a vuestra disposición los frutos de ese trabajo: podéis descargar o consultar la documentación en varios formatos. También podéis comprar el libro impreso que comercializa el proyecto Libremanuals.

El logotipo oficial de Bash ha sido publicado por la Free Software Foundation bajo la licencia Free Art License 1.3.

Combinar grep y less con color

Suelo usar Grep para buscar un texto exacto en archivos. Usando grep -R texto dentro de un directorio, puedo localizar todos sus archivos en los que se encuentra dicho texto.

Cuando simplemente ejecuto algo como «grep -R 'Freak Spot'», los colores se ven correctamente

Cuando hay muchas coincidencias es más cómodo usar less para moverse por los resultados. El problema es que al ejecutar grep -R texto | less los colores ya no se ven.

Continúa leyendo Combinar grep y less con color

Prompt para Git en Bash

Si eres programador y has trabajado con Git, seguramente habrás comprobado alguna vez si el repositorio en el que estás trabajando está actualizado, la rama en la que te encuentras, etc. Pero cada vez que haces esto tienes que ejecutar alguna instrucción de Git. ¿No sería más cómodo tener siempre esa información a simple vista?

Continúa leyendo Prompt para Git en Bash

Instalar y actualizar Tor Browser de forma sencilla

Tor Browser es un navegador que contiene todo lo necesario para navegar por Internet de forma anónima.

Instalar Tor Browser es bastante sencillo: basta con descargarlo de la página oficial y ejecutar el lanzador Tor Browser (es el archivo que se encuentra dentro del directorio que obtienes tras descargar y descomprimir Tor Browser). Sin embargo, actualizarlo no lo es tanto, puesto que tienes que volver a descargarlo de nuevo cada vez que aparece una nueva versión.

Para solucionar este problema, Micah Lee creó Tor Browser Launcher. Gracias a este programa se puede instalar y actualizar Tor Browser con el gestor de paquetes de tu distribución de GNU/Linux. Existen paquetes para Ubuntu, Debian y Fedora, según dice el README del proyecto.

Si siempre quieres tener la última versión del paquete torbrowser-launcher antes de que tu distribución la tenga, puedes ejecutar las siguientes instrucciones:

sudo add-apt-repository ppa:micahflee/ppa
sudo apt-get update
sudo apt-get install torbrowser-launcher

Con estas instrucciones se añade el PPA necesario, se actualiza la lista de repositorios y se instala el paquete torbrowser-launcher.

Tras la instalación debe aparecer Tor Browser en el menú de inicio o lanzador de aplicaciones. Desde ahí podrás ejecutar Tor Browser cómodamente. Si lo prefieres, también puedes ejecutar torbrowser-launcher desde la terminal.