Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils

En este artículo muestro cómo obtener las palabras más utilizadas de un texto de forma sencilla. En este caso, yo usaré como demostración el texto del libro octavo de la novela Τῶν περὶ Χαιρέαν καὶ Καλλιρρόην, extraído de https://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A2008.01.0668%3Abook%3D8. Le he quitado las anotaciones que tenía entre corchetes con sed...

sed -i 's/\[[^]]*\]//g' libro_octavo.txt

El programa que nos muestra todas las palabras es el siguiente, lo he llamado lista-de-palabras.py (explico cómo funciona más abajo):

archivo_texto = open('libro_octavo.txt', 'r')
texto = archivo_texto.read()
archivo_texto.close()

palabras = texto.split()

for palabra in palabras:
    print(palabra.strip('‘’:;,.').lower())

En el archivo con el texto, que he llamado libro_octavo.txt (descargar), asumo que una palabra está separada por un espacio en blanco, así que uso la función split para obtener la lista de palabras. Sin embargo, a veces hay comas, puntos, comillas, dos puntos y puntos y comas antes o después de las palabras, y a veces empiezan por mayúscula. Para estos casos basta usar la función strip(), con los caracteres que queremos desechar entre comillas, y lower() para poner la palabra en minúscula.

Ahora quiero se muestren por pantalla las palabras que más veces aparecen en el texto, con el número de veces que aparecen a su izquierda; pero no voy a programarlo yo, sino que voy a utilizar herramientas que permiten hacer eso en GNU/Linux: uniq y sort.

Continúa leyendo Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils
Publicado el Modificado el Categoría En GNU/Linux Etiquetas , , en Obtener las palabras más usadas de un texto y las veces que se repiten: con Python y GNU Coreutils

YouTube con privacidad: con Invidious

Como ya es bien sabido, YouTube no es software libre ni respeta tu privacidad, pero lamentablemente hay vídeos que solo están allí. En este artículo os presento Invidious, una forma sencilla de ver vídeos de YouTube sin ejecutar software privativo de Google.

Invidious es una interfaz libre y ligera para YouTube que está hecha pensando en la libertad de software. Estas son algunas de sus características:

  • No tiene anuncios
  • Es software libre, código fuente bajo licencia AGPLv3
  • Tiene un buscador
  • No requiere cuenta de Google para guardar suscripciones
  • Permite ver subtítulos
  • Es muy personalizable
  • Permite insertar vídeos desde Invidious en tú página, como el que sigue...
Continúa leyendo YouTube con privacidad: con Invidious

No digas a Google dónde te conectas a Internet en Android: cambiando los ajustes del portal cautivo

Cada vez que te conectas a un Internet con tu móvil Android, el sistema envía una petición HTTP a un servidor de Google, supuestamente solo para comprobar si hay un portal cautivo en la red; pero es poco probable que Google desaproveche esta valiosa información de, entre otras cosas, los lugares y la hora a la que te conectas a Internet.

En este tutorial te enseño a modificar la comprobación del portal cautivo para no dar esos datos a Google y así proteger un poco más tu privacidad. En cualquier caso, no recomiendo usar Android de Google porque no es 100% software libre, sino que te recomiendo pasarte a una distribución libre de Android como Replicant. Si no te he hecho cambiar de idea o no te resulta factible por el momento, sigue leyendo.

Continúa leyendo No digas a Google dónde te conectas a Internet en Android: cambiando los ajustes del portal cautivo

La privacidad es un asunto colectivo

Mucha gente da una explicación personal de por qué protegen o no su privacidad. A quienes no les importa mucho se les escucha decir que no tienen nada que ocultar. Quienes se preocupan lo hacen para protegerse de empresas sin escrúpulos, de estados represivos, etc. En ambas posiciones se suele asumir erróneamente que la privacidad es un asunto personal, y no lo es.

La privacidad es un asunto tanto individual como público. Los datos obtenidos por grandes empresas y gobiernos rara vez se usan de forma individualizada. Podemos entender que la privacidad es un derecho del individuo en relación con la comunidad, como dice Edward Snowden:

Argumentar que no te importa la privacidad porque no tienes nada que esconder no es diferente a decir que no te importa la libertad de expresión porque no tienes nada que decir.

Tus datos pueden ser usados para bien o para mal. Los datos recogidos de forma innecesaria y sin permiso se suelen usar para mal.

Los estados y las grandes empresas tecnológicas violan flagrantemente nuestra privacidad. Muchas personas dan su tácito beneplácito argumentando que no es posible hacer nada para cambiarlo: las empresas tienen demasiado poder y los gobiernos no van a hacer nada para cambiar las cosas. Y ciertamente esa gente acostumbra a dar poder a empresas que ganan dinero con sus datos y le está diciendo así a los estados que no va a ser una piedra en el zapato cuando quieran implementar políticas de vigilancia masiva. En el fondo, dañan la privacidad de quienes se preocupan.

La acción colectiva empieza en el individuo. Cada persona debería reflexionar si está dando datos propios que no debería, si está favoreciendo el crecimiento de empresas antiprivacidad y, más importante aún, si está comprometiendo la privacidad de sus allegados. La mejor forma de proteger la información privada es no darla. Con una visión consciente del problema pueden apoyarse proyectos en defensa de la privacidad.

Los datos personales son muy valiosos —tanto que algunos los llaman el «nuevo petróleo»— no solo porque pueden ser vendidos a terceros, sino también porque dan poder a quién los tiene. Cuando se los damos a gobiernos, estamos dándoles poder para que nos controlen. Cuando se los damos a empresas, les estamos dando poder para que influyan en nuestro comportamiento. En última instancia, la privacidad importa porque nos ayuda a preservar el poder que tenemos sobre nuestras vidas, el que tanto se empeñan en arrebatarnos. Yo no voy a regalar ni malvender mi datos, ¿y tú?

DuckDuckGo HTML en Firefox con resultados en español

Suelo usar «el buscador que no te rastrea», DuckDuckGo. Como el código JavaScript de la versión estándar de DuckDuckGo es privativo, yo uso la versión sin JavaScript (que también existe como servicio oculto de Tor).

Lo malo es que la versión HTML de DuckDuckGo no detecta las preferencias de idioma del navegador. Esto puede ser un inconveniente si estoy buscando cosas en español, ya que siempre me va a mostrar antes páginas en inglés.

Busco «calistenia» y me muestra resultados en inglés

Así que he modificado el anterior complemento de búsqueda para que busque en español. No ha sido muy difícil, la verdad. Solo he añadido el parámetro de URL kl=es-es (para el español de España) tras consultar la lista de parámetros. De esta forma salen resultados en español.

Continúa leyendo DuckDuckGo HTML en Firefox con resultados en español