Webseiten aufräumen mit Tidy

Eine von WordPress Stärken ist die einfache Einrichtung und die Vielzahl an vorgefertigten Themen und Möglichkeiten dieses Content Management System zu erweitern. Der Nachteil ist die relativ hohe Belastung von Serverressourcen und teils überflüssiger HTML-Code, der durch das Backend erzeugt wird.
Für mein neues Projekt brauchte ich eine ressourcenschonendere Lösung und da ich den Inhalt nur einmal schreiben musste, war die Lösung klar: statische Seiten mit XHTML Strict 1.0, CSS und der händischen Methode.
Nachdem man das Markup als Grundgerüst erstellt hat, muss man sich in der Regel nur noch um das Layout mit CSS kümmern, wo ich mich von der vor kurzem entdeckten Homepage von Jozu-kun habe inspirieren lassen. Das Design ist schlicht, 100 % standardkonform und effizient. Mir hat es auf Anhieb gefallen.

Leider ist man beim Tippeln mit Vim nicht vor Fehlern gefeit. Sonderzeichen müssen in HTML-spezifischen Code umgewandelt werden. Die händische Methode kam da schon gar nicht in Frage, wenn schon hätte es eine Vim-Funktion oder Plugin sein sollen.
Warum nicht Tidy dafür nehmen? Mit Tidy hat das World Wide Web Konsortium ein Programm geschaffen, dass automatisch HTML-Code auf Fehler überprüft und durch sauberen, standardkonformen Code ersetzen kann. Ein paar Beispiele, was Tidy genau korrigiert finden sich bei w3.org. Für meine XHTML Seiten, die in UTF-8 kodiert sein sollten, benötigte ich lediglich diesen simplen Befehl und die schon automatisch im Debian-Paket verfügbaren Konfigurationsdatei /etc/tidy.conf um z.B. die Datei index.html "zu säubern".

tidy -m index.html

output-xhtml: yes
add-xml-decl: no
doctype: strict
char-encoding: utf8
indent: auto
wrap: 76
repeated-attributes: keep-last
error-file: errs.txt

Das Dokument wurde dann nicht nur validiert und auf Fehler korrigiert, sondern auch Einrückungen, Zeichenkodierung und Umbrüche vorgenommen. Einfacher ging es nicht. Wie das vorläufige Ergebnis aussieht, dazu demnächst mehr.