los archivos no doc, sino docx (el formato desde el 2010) no son archivos de texto enriquecido como los anteriores, son un archivo comprimido en formato zip (si no mal recuerdo es compresion zip) que contienen una serie de archivos de estructura en xml y otros formatos, donde a demás estarán los archivos adjuntos al documento, para ver el contenido es tan simple como usar winrar o 7zip y darle el archivo para abrirlo