TF IDF

De Seobility Wiki
Saltar a: navegación, buscar

¿Qué es TF-IDF?

TF*IDF
Imagen: TF-IDF - Autor: Seobility - Licencia: CC BY-SA 4.0

El TF-IDF es una fórmula que calcula la ponderación o peso (weighting) de ciertas frases en un documento, en comparación con el número total de documentos que tratan sobre el mismo tema.

También se aplica en el contexto de las páginas web, donde denota la ponderación de ciertos términos en ellas en relación con todas las demás websites que se clasifican para un término de búsqueda específico.

Con la fórmula TF-IDF se puede analizar el contenido de un website y compararlo con otras páginas web para aumentar su relevancia en referencia a un término de búsqueda particular. Por esta razón, optimizar el contenido en función de TF-IDF es una tarea importante en el SEO.

Análisis TF-IDF

Comprueba si una URL está optimizada para tus palabras clave con TF*IDF

¿Cómo se calcula el TF-IDF?

Se requieren dos fórmulas para calcular el valor TF-IDF: TF e IDF.

TF

El término TF deriva de las siglas de Term Frequency (en español, "frecuencia de un término"). Mide la frecuencia con la que se repite un término (una sola palabra o una determinada combinación de ellas), en un documento o en una página web, en relación con todos los demás términos de dicho contenido. La fórmula correspondiente es:

Fórmula de TF como parte del TF-IDF

Freq(i,j) = Frecuencia del término i en el documento j.

L(j) = Número total de términos en el documento j.

Básicamente, es la densidad de palabras clave, con la única diferencia de que los valores están expresados en escala logarítmica. La función logaritmo sirve para "comprimir" los resultados, es decir, evita que frecuencias de términos particularmente altas distorsionen en el resultado, lo que redunda en un mejor SEO.

IDF

Las siglas IDF, por Inverse Document Frequency, significan "frecuencia inversa de documento". Este valor representa el número total de los documentos considerados en relación con el número de documentos que contienen el término i. La fórmula correspondiente es:

Fórmula IDF como parte del TF-IDF

ND = Número total de documentos considerados.

fi = Número de documentos que contienen el término i.

Cuanto menor sea el número de documentos que contengan el término i, mayor será el IDF y más importante será aquel. Esto puede explicarse por el hecho de que las palabras y expresiones poco frecuentes son más informativas para clasificar el contenido de un documento que los términos que están presentes en casi todos los documentos.

Debido a la mayor importancia de las palabras infrecuentes (representadas por un valor IDF alto), la multiplicación por TF da como resultado un valor más alto.

Multiplicación de TF e IDF

Al multiplicar ambas frecuencias (TF x IDF) se consigue la cantidad de veces que tal término aparece en el documento en relación con todos los documentos considerados.

Los términos que aparecen con frecuencia en un documento, pero que son bastante infrecuentes en todos los demás, tienen un valor TF-IDF alto. Un ejemplo de ello sería el término "SEO" en un contenido sobre optimización de motores de búsqueda.

Sin embargo, si un término aparece con frecuencia en un determinado documento, pero también se menciona con mucha frecuencia en todos los demás, su valor TF-IDF es bajo. Este es el caso de palabras como "y", "el", “la”, "con", etc. Evidentemente, estas palabras de uso genérico contribuyen muy poco a posicionar el contenido de un documento.

Importancia para el SEO

Con la fórmula TF-IDF es posible comparar el contenido de un sitio web con el de las páginas mejor clasificadas para ciertas palabras clave.

Las herramientas TF IDF indican qué palabras deben aparecer con mayor o menor frecuencia en un texto para lograr una proporción óptima. Tal comparación puede mostrar potencial de optimización SEO de contenido, sobre todo, a la hora de emplear "palabras clave relacionadas".

Dichas keywords son expresiones semánticamente cercanas al término de búsqueda considerado y prueban que el texto trata sobre ese tema. Estas se pueden utilizar para subrayar la relevancia de los textos para un término de búsqueda específico.

Existen algunas herramientas TF IDF que permiten identificarlas como la herramienta TF IDF de Seobility. Los documentos que exceden la ponderación TF-IDF promedio de algún término pueden llegar a ser considerados spam, por lo que reducir la frecuencia de dichos términos ayuda a evitar tales malinterpretaciones.

Adicionalmente, las herramientas de TF IDF pueden servir de inspiración a la hora de buscar subtemas que deban abordarse en un texto sobre un término de búsqueda específico.

Captura de la herramienta TF-IDF de Seobility

Captura con un análisis de ejemplo usando el término “SEO” en seobility.net

En general, TF-IDF ofrece una mejor posibilidad de optimizar el contenido que con la densidad de palabras clave, y por ello, ya ha reemplazado su uso. Luego, es un elemento importante del SEO on page que puede contribuir a una mejor clasificación.

Desventajas

A pesar de la gran importancia de TF-IDF para la optimización de contenido SEO, este método también tiene sus desventajas.

Por ejemplo, la comparación TF-IDF es más adecuada para los textos que se muestran como resultados para la intención de búsqueda “informativa” en Google. Luego, para otros contenidos como las descripciones de productos en tiendas online, la optimización según este método tiene poco sentido.

Otra desventaja es que las herramientas TF IDF necesitan saber o estimar el número total de documentos para poder entregar resultados significativos. Además, aspectos como la sinonimia o la distribución de los términos en un texto, que también son relevantes para la clasificación semántica de los documentos, no son considerados.

No hay que centrarse demasiado en TF-IDF a la hora de optimizar el contenido, porque un buen texto no solo se caracteriza por la ponderación de determinadas palabras. Factores como la calidad lingüística, la fluidez lectora o la emotividad también son de gran importancia. La implementación estricta de frecuencias de términos, por otro lado, puede conducir a una pérdida de legibilidad y calidad del texto.

También hay que considerar que las SERPs cambian con frecuencia y, por lo tanto, todos los textos deberán volver a analizarse y adaptarse en caso de cambio. Por esta razón, la optimización de TF-IDF debe centrarse en los términos más importantes en lugar de escribir textos demasiado optimizados que deben actualizarse periódicamente.

A pesar de las muchas ventajas del TF-IDF, se debe recordar que este es solamente uno de los muchos elementos de la optimización on page. La fórmula no es una panacea para un sitio web y no puede compensar un mal perfil de backlinks, por ejemplo.

Ampliar conocimientos

Contenidos relacionados