Biblioteca para convertir texto de documento de Word a HTML

¿Existe una biblioteca de código abierto .Net para convertir la palabra dococumento a HTML para mostrar dentro de la página web?

Conozco varias herramientas para convertir documentos de Word a archivos html, pero mi requisito es convertir el documento (ya sea del archivo o simplemente del texto extraído) a HTML sobre la marcha en la aplicación ASP.Net.

Encontré que la biblioteca PHP de conversión de una palabra-documento-en-usable-html-in-php hace lo mismo, ¿hay alguna herramienta similar en .net?

¿Quieres convertir un archivo * .doc a HTML? ¿Está guardándolo como un archivo HTML una opción?

Existe el método estándar .SaveAs que tiene la opción de guardar como HTML:

wdFormatHTML Guarda todo el texto y el formato con tags HTML para que el documento resultante se pueda ver en un navegador web.

desde: Método MSDN SaveAs

Aquí puede encontrar un tutorial de ejemplo sobre cómo usar el método para convertir .doc a un formato diferente: Cómo convertir DOC a otros formatos usando C # .

Si tiene archivos * .docx en lugar de archivos * .doc, es aún más fácil porque puede usar la API OpenXML como se explica en MSDN aquí: Manipulación de archivos de Word 2007 con la API de formato XML abierto (Parte 1 de 3) . Y si obtiene el XML del archivo de Word, por supuesto puede enviarlo a cualquier formato (HTML) que desee.

Convierte tus archivos doc a pdf con la ayuda de JOdConverter y OpenOffice

Ver ¿Cómo convertir ppt a imágenes en Ruby? para referencia

y luego use pdftohtml ( http://pdftohtml.sourceforge.net ) una utilidad que convierte archivos PDF a HTML.

Obtendrá resultados sorprendentes.