TF IDF

De Seobility Wiki
Saltar a: navegación, buscar

¿Qué es TF-IDF?

TF*IDF
Imagen: TF-IDF - Autor: Seobility - Licencia: CC BY-SA 4.0

TF-IDF (también puede aparecer como TF*IDF o simplemente TF IDF) es una fórmula que calcula la ponderación o peso (weighting) de ciertas frases en un documento, en comparación con el número total de documentos que tratan sobre el mismo tema.

Aplicado a un portal web, TF IDF calcula la cantidad de veces que aparecen X términos en una página concreta y los relaciona con todas las demás páginas que se clasifican para estos términos de búsqueda.

Así pues, optimizar los contenidos en función de esta fórmula es una tarea importante dentro del SEO, ya que a través del análisis y la comparación con otras webs, se puede aumentar la relevancia de una página para un término de búsqueda en particular.

Análisis TF-IDF

Comprueba si una URL está optimizada para tus palabras clave con TF*IDF

¿Cómo se calcula el TF-IDF?

Se requieren dos fórmulas para calcular el valor TF-IDF: TF e IDF.

TF

El término TF deriva de las siglas de Term Frequency (en español, "frecuencia de un término"). Mide la frecuencia con la que se repite un término (una sola palabra o una determinada combinación de ellas), en un documento o en una página web, en relación con todos los demás términos de dicho contenido. La fórmula correspondiente es:

Fórmula de TF como parte del TF-IDF

Freq(i,j) = Frecuencia del término i en el documento j.

L(j) = Número total de términos en el documento j.

Básicamente, es la densidad de palabras clave, con la única diferencia de que los valores están expresados en escala logarítmica. La función logaritmo sirve para "comprimir" los resultados, es decir, evita que frecuencias de términos particularmente altas distorsionen en el resultado, lo que redunda en un mejor SEO.

IDF

Las siglas IDF, por Inverse Document Frequency, significan "frecuencia inversa de documento". Este valor representa el número total de los documentos considerados en relación con el número de documentos que contienen el término i. La fórmula correspondiente es:

Fórmula IDF como parte del TF-IDF

ND = Número total de documentos considerados.

fi = Número de documentos que contienen el término i.

Cuanto menor sea el número de documentos que contengan el término i, mayor será el IDF y más importante será aquel. Esto puede explicarse por el hecho de que las palabras y expresiones poco frecuentes son más informativas para clasificar el contenido de un documento que los términos que están presentes en casi todos los documentos.

Debido a la mayor importancia de las palabras infrecuentes (representadas por un valor IDF alto), la multiplicación por TF da como resultado un valor más alto.

Multiplicación de TF e IDF

Al multiplicar ambas frecuencias (TF x IDF) se consigue la cantidad de veces que tal término aparece en el documento en relación con todos los documentos considerados.

Los términos que aparecen con frecuencia en un documento, pero que son bastante infrecuentes en todos los demás, tienen un valor TF-IDF alto. Un ejemplo de ello sería el término "SEO" en un contenido sobre optimización de motores de búsqueda.

Sin embargo, si un término aparece con frecuencia en un determinado documento, pero también se menciona con mucha frecuencia en todos los demás, su valor TF-IDF es bajo. Este es el caso de palabras como "y", "el", “la”, "con", etc. Evidentemente, estas palabras de uso genérico contribuyen muy poco a posicionar el contenido de un documento.

Importancia para el SEO

Con la fórmula TF-IDF se puede comparar el contenido de un sitio web con el de las páginas mejor clasificadas para X palabras clave.

Para ello se suele trabajar con tools, como nuestra herramienta TF IDF, que directamente indican qué palabras clave deberían aparecer con mayor o menor frecuencia en un texto para lograr una proporción óptima.

Todo esto ayuda a optimizar los contenidos, sobre todo, a la hora de incluir "palabras clave relacionadas" (keywords o expresiones semánticamente cercanas al término de búsqueda y que indican sobre qué tema trata el texto).

Por otra parte, los documentos que exceden la ponderación TF-IDF promedio de algún término pueden llegar a ser considerados spam, por lo que reducir la frecuencia de dichos términos ayuda a evitar malinterpretaciones.

Adicionalmente, las herramientas de TF IDF pueden servir de inspiración a la hora de buscar subtemas que deban abordarse en un texto sobre un término de búsqueda específico.

Captura de la herramienta TF-IDF de Seobility

Captura con un análisis de ejemplo usando el término “SEO” en seobility.net

En general, TF-IDF ofrece una mejor posibilidad de optimizar el contenido que con la densidad de palabras clave, y por ello, ya ha reemplazado su uso. Luego, es un elemento importante del SEO on page que puede contribuir a una mejor clasificación.

Desventajas

A pesar de la gran importancia de TF-IDF para la optimización de contenido SEO, este método también tiene sus desventajas.

Por ejemplo, la comparación TF-IDF es más adecuada para los textos que se muestran como resultados para la intención de búsqueda “informativa” en Google. Luego, para otros contenidos como las descripciones de productos en tiendas online, la optimización según este método tiene poco sentido.

Otra desventaja es que las herramientas TF IDF necesitan saber o estimar el número total de documentos para poder entregar resultados significativos. Además, aspectos como la sinonimia o la distribución de los términos en un texto, que también son relevantes para la clasificación semántica de los documentos, no son considerados.

No hay que centrarse demasiado en TF-IDF a la hora de optimizar el contenido, porque un buen texto no solo se caracteriza por la ponderación de determinadas palabras. Factores como la calidad lingüística, la fluidez lectora o la emotividad también son de gran importancia. La implementación estricta de frecuencias de términos, por otro lado, puede conducir a una pérdida de legibilidad y calidad del texto.

También hay que considerar que las SERPs cambian con frecuencia y, por lo tanto, todos los textos deberán volver a analizarse y adaptarse en caso de cambio. Por esta razón, la optimización de TF-IDF debe centrarse en los términos más importantes en lugar de escribir textos demasiado optimizados que deben actualizarse periódicamente.

A pesar de las muchas ventajas del TF-IDF, se debe recordar que este es solamente uno de los muchos elementos de la optimización on page. La fórmula no es una panacea para un sitio web y no puede compensar un mal perfil de backlinks, por ejemplo.

Ampliar conocimientos

Sobre las autoras y autores:
Seobility S
El equipo de Seobility Wiki está formado por expertas y expertos SEO, profesionales del marketing digital y especialistas en negocios con experiencia en SEO, marketing online y desarrollo web. Todos nuestros artículos pasan por un proceso editorial de varios niveles para proporcionarte la mejor calidad posible e información relevante y de utilidad. Conoce a la gente que hay detrás de la Wiki de Seobility.

Contenidos relacionados