Ein freier Blick auf Office-Dokumente

MS-Office-Dokumente per E-Mail zu erhalten kann in der Regel nur Arbeit bedeuten. Doch bevor man sie aus Reflex oder Angewohnheit dem elektronischen Müll überantwortet, ist es manchmal doch klüger vorher noch einen Blick hinein zu werfen. Es könnte ja wichtig sein.
Seit meinem Umstieg auf Linux benutze ich Freie Software, die in standardisierte Formate abspeichert. Es ist schon merkwürdig, dass das Open-Document-Format ein quelloffener Standard ist, Microsofts weit verbreitetes Doc- und Docx-Format aber nicht. Darum scheren sich aber die wenigsten Leute. Für viele erscheint es zwar selbstverständlich zu sein, dass man nicht mehr mit Elle, Zoll, Spanne oder Klafter misst, mittelalterliche Praktiken bei Dateiformaten nimmt man aber mehr oder weniger gelassen hin.
Auf meiner Festplatte tummeln sich immer noch alte Word-Perfect-Dokumente, die ich irgendwann noch einmal in ein freies Odt-Format umwandeln möchte, wenn ich mich nicht doch endlich entschließe den alten Kram nach /dev/null zu verschieben. 🙄
In der Regel habe ich auf dem leistungsfähigsten Rechner LibreOffice installiert, mit dem ich bisher immer alle Formate öffnen konnte und natürlich gibt es auch noch das PDF-Format, um den Kompatibilitätswahnsinn ein wenig zu umgehen.
Ich muss aber nicht auf jedem Rechner eine vollwertige Office Suite installiert haben. Für diesen Fall habe ich mir angewöhnt eine leichtere Alternative zu installieren, die mir lediglich den Inhalt eines Dokuments anzeigt. Für Doc-Dokumente ist das nach wie vor antiword, obwohl dieses kleine aber feine Programm seit 2005 nicht mehr weiterentwickelt wird. Als Konsolenalternative für das freie Odt-Format oder das ältere Sxw benutze ich bei Debian odt2txt. Beide sind äußerst anspruchslos an die Hardware und mit beiden lässt sich der Inhalt von Doc- oder Odt-Dateien anzeigen. Besonders gut spielen beide auch mit dem Text-E-Mail-Programm Alpine zusammen, in dem die Doc- und Odt-Anhänge automatisch im Textformat angezeigt werden.
Eine Alternative für ältere Word-Dokumente kann ebenfalls wv sein, welches auch nach HTML, LaTeX oder PDF konvertieren kann. Gäbe es nun nicht noch das Docx-Format, ich könnte an dieser Stelle schon Schluss machen. Bis auf ein kleines Perl-Skript namens docx2txt habe ich bisher noch kein reines Konsolenprogramm gefunden, welches mir wie bei Antiword einfach nur den Inhalt als Text ausgibt oder diesen sogar in PDF umwandeln kann. Jedoch funktioniert docx2txt für mich leider nicht.
Bisher war deshalb auch mein einziger Ausweg aus dem Dilemma LibreOffice zum Betrachten zu benutzen oder besser gesagt unoconv, ein Werkzeug für die Kommandozeile, mit dem es z.B auch möglich ist PowerPoint-Folien zur schnellen Ansicht in PDF umzuwandeln.

unoconv -f pdf wiewirdmanmillionaer.ppt

Leider lässt es sich nicht alleine installieren und benötigt zum Funktionieren Teile der LibreOffice Suite.
Ich habe mich deswegen im IRC in #debian auf irc.debian.org nach weiteren Lösungsmöglichkeiten umgehört und zumindest noch eine interessante gefunden, wie man den Inhalt einer Docx-Datei auf der Konsole als Text darstellen kann.
Da Docx ein gezipptes Format ist, lässt es sich mit unzip MeineDatei.docx entpacken. Im Ordner word befindet sich danach der Hauptteil des Dokuments in der Datei document.xml. Mit Hilfe von xmllint, das im Paket libxml2-utils mitgeliefert wird, kann der Inhalt in ein Html-Format umgewandelt und z.B. mit dem Textbrowser elinks angeschaut werden.

xmllint --html document.xml > document.html
elinks document.html

Wie schon erwähnt gehören Anwendungen für die Konsole zum Arbeiten mit Tabellenkalkulation und Präsentationen (noch) nicht zu meinen Schwerpunkten und solange sich das nicht ändert, werde ich auch nicht so tun als wäre es so. Für den schnellen Blick in Office-Dokumente genügen mir aber die vorgestellten Programme und wer nach weiteren Ausschau halten möchte, findet in den Quellen auf der Software-Seite und insbesondere auf jaredandcoralee.com unter der Überschrift "Document Converter" noch einige interessante Alternativen.