musí to jít: soubory docx/odt,pdf mají známou strukturu:
pdf:
existuje něco jako latex, případně to je kanon na vrabce, ale text2pdf něco existuje.
odt/doc, určitě musí existovat podobná utilitka, kromě toho obojí je zip archiv, kde podlě mě je objekt zájmu něco jako content.xml