WDF*IDF

Aus Wiki
Wechseln zu: Navigation, Suche

Definition

WDF*IDF ist eine Formel zur Berechnung der Gewichtung bestimmter Wörter in einem Dokument im Verhältnis zu der Gesamtheit an Dokumenten, die das gleiche Thema behandeln. Die Formel kann auch im Kontext von Webseiten angewandt werden und bezeichnet in dem Fall die Gewichtung bestimmter Wörter auf einer Seite im Verhältnis zu allen anderen Seiten, die zu dem betrachteten Suchbegriff ranken.

Mithilfe der WDF*IDF Formel können textliche Inhalte einer Website analysiert und mit anderen Seiten verglichen werden, um die Relevanz der eigenen Inhalte für einen bestimmten Suchbegriff zu erhöhen. Aus diesem Grund ist die Optimierung des eigenen Contents nach WDF*IDF ein wichtiger Bestandteil der Suchmaschinenoptimierung (SEO) einer Website.

Berechnung

Zur Berechnung des WDF*IDF-Wertes werden zwei Formeln benötigt: WDF und IDF.

WDF

WDF steht für “Within Document Frequency” und dient der Berechnung der Häufigkeit eines Terms, also eines einzelnen Wortes oder einer bestimmten Wortkombination, in einem Dokument oder auf einer Seite im Verhältnis zu allen anderen Termen auf dieser Seite. Die Formel hierfür lautet:


Formel WDF.PNG

Freq(i,j) = Häufigkeit von Term i in Dokument j (= Termfrequenz)

Lj = Gesamtanzahl der Terme in Dokument j


Im Grunde handelt es sich hierbei um die Keyword-Density, mit dem einzigen Unterschied, dass die Werte logarithmiert werden. Die Logarithmierung dient der “Stauchung” der Ergebnisse, d.h. sie verhindert, dass besonders hohe Termhäufigkeiten den Wert verzerren.

IDF

IDF ist die Abkürzung für “Inverse Document Frequency”, also die inverse Dokumentenhäufigkeit. Der Wert steht für die Anzahl aller betrachteten Dokumente im Verhältnis zu der Anzahl der Dokumente, die den Term i beinhalten. Es handelt sich somit um die inverse Dokumenthäufigkeit des Terms in der Gesamtheit der betrachteten Dokumente. Die Formel zur Berechnung des IDF-Wertes sieht folgendermaßen aus:

Formel IDF.PNG

ND = Anzahl aller betrachteten Dokumente

fi = Anzahl der Dokumente, die Term i beinhalten


Je weniger Dokumente den Term i beinhalten, desto größer ist die IDF und desto wichtiger der Term. Dies lässt sich damit begründen, dass seltene Begriffe aufschlussreicher für die inhaltliche Einordnung eines Dokuments sind als Begriffe, die in nahezu allen Dokumenten vorhanden sind. Aufgrund der höheren Bedeutung von seltenen Begriffen (repräsentiert durch einen hohen IDF-Wert) ergibt sich durch die Multiplikation mit der WDF somit ein höherer Gesamtwert.

WDF*IDF

Durch die Multiplikation beider Einzelformen erhält man die relative Termgewichtung eines Begriffes in einem Dokument im Verhältnis zur Gesamtheit der betrachteten Dokumente. Dieser Wert ist hoch, wenn ein Term in einem Dokument sehr häufig vorkommt, aber in der Gesamtheit aller Dokumente eher selten ist. Dies wäre beispielsweise für den Term “SEO” in einem Text über Suchmaschinenoptimierung der Fall.

Der WDF*IDF Wert ist hingegen niedrig, wenn ein Term in einem Dokument zwar häufig vorkommt, aber auch in allen anderen Dokumenten sehr oft auftaucht. Dies ist bei Stoppwörtern wie “und”, “den”, “mit” etc. gegeben. Solche Begriffe tragen nur wenig zur inhaltlichen Einordnung eines Dokuments bei.

Bedeutung für SEO

Mithilfe der WDF*IDF Formel kann der Inhalt auf der eigenen Website mit den Inhalten der am besten rankenden Seiten zu einem Keyword verglichen werden. Ein solcher Vergleich kann wichtige Optimierungspotenziale für den eigenen Content aufzeigen und ist beispielsweise mit dem WDF*IDF Tool von seobility möglich. WDF*IDF Tools geben Hinweise darauf, welche Begriffe häufiger oder seltener in einem Text vorkommen sollten, um ein optimales Verhältnis zu erreichen. Zudem kann anhand sogenannter “Proof-Keywords” die Relevanz der eigenen Texte für einen bestimmten Suchbegriff verdeutlicht werden. Hierbei handelt es sich um Terme, die semantisch nah am betrachteten Suchbegriff gelegen sind und den Text eindeutig diesem Suchbegriff zuordnen. Durch die Reduktion von zu häufig vorkommenden Termen kann hingegen vermieden werden, dass die eigenen Texte als Spam eingestuft werden. Spam wären in diesem Fall Dokumente, die über der durchschnittlichen Termgewichtung liegen.

Weiterhin können WDF*IDF Tools als Ideengeber für die Recherche nach bestimmten Unterthemen dienen, die einem Text zu einem bestimmten Suchbegriff behandelt werden sollten.

WDFIDF Screenshot seobiltiy.PNG

Screenshot mit beispielhafter WDF*IDF-Analyse für den Suchbegriff “SEO” von seobility.net

Insgesamt betrachtet bietet WDF*IDF im Vergleich zur Keyworddichte eine bessere Möglichkeit zur Optimierung des eigenen Contents und hat diese inzwischen abgelöst. Es handelt sich somit um ein wichtiges Element der Onpage-Optimierung, das nachweislich zu besseren Rankings beitragen kann.

Nachteile

Trotz der hohen Bedeutung von WDF*IDF für die Content Optimierung hat die Formel auch Nachteile.

So ist der WDF*IDF Vergleich beispielsweise eher für Texte geeignet, die bei der Suchintention “Information” von Google als Ergebnisse angezeigt werden. Für anderweitige Inhalte, wie z.B. Produktbeschreibungen in Online-Shops, macht eine Optimierung nach WDF*IDF hingegen wenig Sinn.

Ein weiterer Nachteil besteht darin, dass WDF*IDF Tools die gesamte Anzahl aller Dokumente kennen oder abschätzen können müssen, um sinnvolle Ergebnisse liefern zu können.

Weiterhin werden Aspekte wie Synonyme oder die Verteilung der Terme in einem Text, welche ebenfalls für die semantische Einordnung von Dokumenten wichtig sind, in der WDF*IDF Formel nicht berücksichtigt.

Darüber hinaus sollten sich Webseitenbetreiber bei der Content Optimierung nicht zu sehr auf WDF*IDF fokussieren, denn ein guter Text zeichnet sich nicht nur durch die Gewichtung bestimmter Terme aus. Faktoren wie die sprachliche Qualität, Lesefluss oder Emotionalisierung sind hierfür ebenfalls von hoher Bedeutung. Die strenge Umsetzung von Termhäufigkeiten kann hingegen dazu führen, dass die Lesbarkeit und Textqualität leidet.

Nicht zu vernachlässigen ist auch die Tatsache, dass sich die SERPs häufig ändern und infolgedessen alle Texte bei einer Änderung wieder neu analysiert und angepasst werden müssten. Aus diesem Grund sollte bei der WDF*IDF Optimierung der Fokus auf die wichtigsten Begriffe gelegt werden, anstatt überoptimiert wirkende Texte zu schreiben, die regelmäßig aktualisiert werden müssen.

Trotz der vielen Vorteile von WDF*IDF sollte abschließend stets bedacht werden, dass es sich hierbei nur um eines von vielen Elementen der Onpage Optimierung handelt. Die Formel ist kein Allheilmittel für eine Website und kann eine schlechte Backlink-Struktur u.ä. nicht ausgleichen.

Weiterführende Links

Ähnliche Artikel