Leer un archivo word con php

Iniciado por memosky, 31 Marzo 2009, 23:32 PM

0 Miembros y 1 Visitante están viendo este tema.

memosky

Saludos, la verdad es que necesito saber como se lee un archivo word con php no tener un link sino leer el archivo igual que un texto y visualizarlo en la pagina web si alguien sabe algo alguna cosa pliss

Mr. Crowley

#1
Hola, busque un poco de info acerca de eso y no encontre nada. Si se abre el documento .doc con (por ejemplo) el bloc de notas, no se entiende mucho; y creo que estaria dificil (pero no imposible) sacar la info de ahi.

Se me ocurre que los archivos sean guardados en formato XML, la opcion la tiene el Word. Para hacer la prueba cree un archivo con un par de lineas y este es el resultado que obtuve:


<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?mso-application progid="Word.Document"?>
<w:wordDocument xmlns:w="http://schemas.microsoft.com/office/word/2003/wordml" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:sl="http://schemas.microsoft.com/schemaLibrary/2003/core" xmlns:aml="http://schemas.microsoft.com/aml/2001/core" xmlns:wx="http://schemas.microsoft.com/office/word/2003/auxHint" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns:wsp="http://schemas.microsoft.com/office/word/2003/wordml/sp2" w:macrosPresent="no" w:embeddedObjPresent="no" w:ocxPresent="no" xml:space="preserve"><w:ignoreElements w:val="http://schemas.microsoft.com/office/word/2003/wordml/sp2"/><o:DocumentProperties><o:Title>Titulo de la noticias</o:Title><o:Author>Kubical ORG, S.A.</o:Author><o:LastAuthor>Kubical ORG, S.A.</o:LastAuthor><o:Revision>1</o:Revision><o:TotalTime>1</o:TotalTime><o:Created>2009-03-31T15:04:00Z</o:Created><o:LastSaved>2009-03-31T15:05:00Z</o:LastSaved><o:Pages>1</o:Pages><o:Words>14</o:Words><o:Characters>83</o:Characters><o:Company>Kubical ORG, S.A.</o:Company><o:Lines>1</o:Lines><o:Paragraphs>1</o:Paragraphs><o:CharactersWithSpaces>96</o:CharactersWithSpaces><o:Version>11.8106</o:Version></o:DocumentProperties><w:fonts><w:defaultFonts w:ascii="Times New Roman" w:fareast="Times New Roman" w:h-ansi="Times New Roman" w:cs="Times New Roman"/></w:fonts><w:styles><w:versionOfBuiltInStylenames w:val="4"/><w:latentStyles w:defLockedState="off" w:latentStyleCount="156"/><w:style w:type="paragraph" w:default="on" w:styleId="Normal"><w:name w:val="Normal"/><w:rPr><wx:font wx:val="Times New Roman"/><w:sz w:val="24"/><w:sz-cs w:val="24"/><w:lang w:val="ES" w:fareast="ES" w:bidi="AR-SA"/></w:rPr></w:style><w:style w:type="character" w:default="on" w:styleId="Fuentedeprrafopredeter"><w:name w:val="Default Paragraph Font"/><wx:uiName wx:val="Fuente de párrafo predeter."/><w:semiHidden/></w:style><w:style w:type="table" w:default="on" w:styleId="Tablanormal"><w:name w:val="Normal Table"/><wx:uiName wx:val="Tabla normal"/><w:semiHidden/><w:rPr><wx:font wx:val="Times New Roman"/></w:rPr><w:tblPr><w:tblInd w:w="0" w:type="dxa"/><w:tblCellMar><w:top w:w="0" w:type="dxa"/><w:left w:w="108" w:type="dxa"/><w:bottom w:w="0" w:type="dxa"/><w:right w:w="108" w:type="dxa"/></w:tblCellMar></w:tblPr></w:style><w:style w:type="list" w:default="on" w:styleId="Sinlista"><w:name w:val="No List"/><wx:uiName wx:val="Sin lista"/><w:semiHidden/></w:style></w:styles><w:docPr><w:view w:val="print"/><w:zoom w:percent="100"/><w:doNotEmbedSystemFonts/><w:attachedTemplate w:val=""/><w:defaultTabStop w:val="708"/><w:hyphenationZone w:val="425"/><w:punctuationKerning/><w:characterSpacingControl w:val="DontCompress"/><w:optimizeForBrowser/><w:validateAgainstSchema/><w:saveInvalidXML w:val="off"/><w:ignoreMixedContent w:val="off"/><w:alwaysShowPlaceholderText w:val="off"/><w:compat><w:breakWrappedTables/><w:snapToGridInCell/><w:wrapTextWithPunct/><w:useAsianBreakRules/><w:dontGrowAutofit/></w:compat><wsp:rsids><wsp:rsidRoot wsp:val="00DA4EF8"/><wsp:rsid wsp:val="00DA4EF8"/></wsp:rsids></w:docPr><w:body><wx:sect><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r wsp:rsidRPr="00DA4EF8"><w:t>Titulo de la noticias</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Prueba documento de word</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r wsp:rsidRPr="00DA4EF8"><w:t>Autor:</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Juan Carlos Rojas</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"/><w:p wsp:rsidR="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Contenido:</w:t></w:r></w:p><w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Hola mundo</w:t></w:r></w:p><w:sectPr wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8"><w:pgSz w:w="11906" w:h="16838"/><w:pgMar w:top="1417" w:right="1701" w:bottom="1417" w:left="1701" w:header="708" w:footer="708" w:gutter="0"/><w:cols w:space="708"/><w:docGrid w:line-pitch="360"/></w:sectPr></wx:sect></w:body></w:wordDocument>


Me parece que mucho de lo que hay en el documento es "basura" o cosas que realmente no nos interesan. Usted puede abrir el XML con PHP y a partir de una sección especifica comenzar a leer la informacion, por ejemplo, descarta todo lo que no le interesa, y deja la info que necesita. He visto que en el documento XML de Word las lineas de contenido se almacenar de igual forma o similar a esta:


<w:p wsp:rsidR="00DA4EF8" wsp:rsidRPr="00DA4EF8" wsp:rsidRDefault="00DA4EF8"><w:r><w:t>Hola mundo</w:t></w:r></w:p>


En caso de que quiera intentarlo... creo que seria mas facil interpretar el formato XML que un .doc.  :(

Edito:
Algo de esto podria servirle:
http://view.samurajdata.se/
http://www.ajaxdocumentviewer.com/sampledemo/sampledocuments.asp
http://www.scribd.com/
Mi blog personal: www.calirojas.com

дٳŦ٭



Con sangre andaluza :)


memosky

muchas gracias por todo, se pasaron