Frecuencia inversa de documento

De Seobility Wiki
Saltar a: navegación, buscar

¿Qué es la frecuencia inversa del documento o IDF?

Frecuencia inversa de documento
Imagen: IDF - Autor: Seobility - Licencia: CC BY-SA 4.0

La frecuencia inversa de documento, también llamada IDF (Inverse Document Frequency), es una fórmula que contabiliza el número de veces que se usa una palabra X en un conjunto de documentos (generalmente una base de datos) y, además, calcula su relevancia dentro de este conjunto.

Lo interesante del IDF es que le asigna un valor más bajo a las palabras más habituales. Así, por ejemplo, en español tenemos palabras como un/la/en/de que, aunque son importantes para redactar oraciones correctas y comprensibles, no brindan mucha información. Son conocidas como palabras vacías o stop words y aparecen repetidas numerosas veces en casi todos los documentos y páginas web en castellano.

Con la fórmula IDF podemos filtrarlas y asignarles una importancia muy baja. Asimismo, además ayuda con la tarea de ordenar documentos de acuerdo a su relevancia, según incluyen o no ciertos términos.

Por el contrario, las palabras más complejas se consideran más importantes y, en este caso, se les otorga un valor más alto, pues ofrecen un contenido semántico completo.

IDF se usa habitualmente en combinación con otros métodos para medir la relevancia de los documentos y páginas web y así optimizar los contenidos para posicionar mejor.

También se utiliza junto a la herramienta que mide la frecuencia de un término en un documento (conocido por sus siglas en inglés, TF o term frequency) y que permite optimizar el contenido para el SEO, como se explicará más adelante en este mismo artículo.

¿Cómo funciona la frecuencia inversa de documento?

La IDF calcula mediante una fórmula que compara la cantidad de veces que se emplean diferentes palabras en una gran muestra de documentos, asignándole un valor a cada una. La fórmula utilizada es:

 Fórmula de IDF, parte de TF*IDF

ND = número total de páginas

fi = número de páginas que contienen el término i

¿Para qué se puede utilizar la frecuencia inversa de documento?

La IDF se utiliza para determinar la importancia de una palabra, como también la singularidad de un contenido. Además, se emplea en la recuperación de información (IR), que se trata de la búsqueda de información o de un documento/página relevante en una base de datos más grande que contiene websites.

La IR es una parte importante del aprendizaje automático y facilita la extracción de palabras clave. Al comprender la importancia de esos términos, se simplifica el filtrado de información para hallar los contenidos más destacados de acuerdo a los términos de la consulta.

Diferencias entre IDF y TF

La principal diferencia entre la frecuencia de un término en un documento y la frecuencia inversa de un documento es que el primer método únicamente considera el número de veces que aparece una palabra, mientras que el segundo se centra en la importancia de esa palabra en función de su singularidad en un documento/página al compararla en otros contenidos.

De este modo y aunque ambos tienen como objetivo final la recuperación de información, se utilizan combinados para lograr resultados más eficaces.

IDF y su relación con TF-IDF

La combinación de ambos métodos, fue creada para encontrar los elementos de información más significativos y se conoce como TF IDF.

De acuerdo al análisis de la importancia de cada uno de los términos como también de la frecuencia con la que se usan, el TF-IDF les asigna un valor a cada uno, lo que puede ayudar a los algoritmos de clasificación a ordenar de manera más efectiva grandes cantidades de datos.

¿Qué importancia tiene para el SEO?

La frecuencia inversa de documento es muy útil para el SEO, ya que permite extraer palabras clave importantes pero si, además, se combina con TF, simplifica la creación de contenido único y relevante.

Por si fuera poco, TF-IDF posibilita comparar el contenido de una página web con el contenido de otras que buscan posicionarse para una palabra clave en particular. Nuestra herramienta TF-IDF lo hace más fácil, al calcular los valores inmediatamente e indicar si se debe introducir o eliminar un término específico.

En este ejemplo podemos ver cuán optimizado está un texto para la palabra clave “receta tarta de manzana” gracias al marcado de la línea amarilla. Esto nos da tres pistas: primero que las keywords “tarta”, “manzana”, “receta” y “manzanas” están muy bien optimizadas; segundo, que aún podemos optimizar más para palabras como “fácil” y “postres”; y tercero, que quizá podemos escribir nuevos contenidos como “tarta de manzana en la thermomix”:

Herramienta TF-IDF

Captura de Herramienta TF*IDF de Seobility para optimizar el contenido usando la fórmula TF-IDF.

Ampliar conocimientos

Contenidos relacionados