新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> XML与各种文件格式的相互转换及相关工具。 word to xml, xml to word, html to xml, xml to pdf,
    csv to xml, rtf to xml, text to xml, xml to text, xls to xml, xml to xls
    FOP
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 WORD to XML, HTML to XML 』 → 使用Java将Word转为Html或txt! 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 81595 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 使用Java将Word转为Html或txt! 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     admin 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      头衔:W3China站长
      等级:计算机硕士学位(管理员)
      文章:5255
      积分:18406
      门派:W3CHINA.ORG
      注册:2003/10/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给admin发送一个短消息 把admin加入好友 查看admin的个人资料 搜索admin在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给admin  访问admin的主页 引用回复这个贴子 回复这个贴子 查看admin的博客楼主
    发贴心情 使用Java将Word转为Html或txt!

    http://www.webjx.com/program/2004121115.htm


    --------------------------------------------------------------------------------

    http://www.csdn.net 2004年12月11日 CSDN

      使用Java将Word转为Html或txt。前一段时间为这个问题头疼的不得了,后来查阅了资料终于解决了;现将程序放出,以便以后参考。


      //-------------------------------------------------------
      //版权所有 (C) 浪潮集团商用系统有限公司  保留所有权利
      //文件名称: wordtohtml           文件版本: 1.00.00
      //作    者: 郭铸     作者邮箱: guozhu@langchao.com  完成日期: 2004-10-20
      //文件描述:
      //其它描述:
      //类 列 表:
      //  wordtohtml: 将指定目录下面所有的doc文件转化为HTML并存储在相同目录下
      //修改历史:
      //  #   版本     修改日期    作者                 修改内容
      //  -------------------------------------------
      //  1   1.00.01  2004-10-14  作者姓名             修改内容描述
      //  ----------------------------------------------------------
      //-------------------------------------------------------
      import com.jacob.com.*;
      import com.jacob.activeX.*;
      import java.io.*;
      //取得指定目录下面所有的doc文件名称
      public class wordtohtml
      {
      //-------------------------------------------------
      //方法原型: change(String paths)
      //功能描述: 将指定目录下面所有的doc文件转化为HTML并存储在相同目录下
      //输入参数: String
      //输出参数: 无
      //返 回 值: 无
      //其它说明: 递归
      //--------------------------------------------
      public static void change(String paths, String savepaths)
      {
      
      File d = new File(paths);
      //取得当前文件夹下所有文件和目录的列表
      File lists[] = d.listFiles();
      String pathss = new String("");

      //对当前目录下面所有文件进行检索
      for(int i = 0; i < lists.length; i ++)
      {
      if(lists[i].isFile())
      {
      String filename = lists[i].getName();
      String filetype = new String("");
      //取得文件类型
      filetype = filename.substring((filename.length() - 3), filename.length());
      
      //判断是否为doc文件
      if(filetype.equals("doc"))
      {
      System.out.println("当前正在转换......");
      //打印当前目录路径
      System.out.println(paths);
      //打印doc文件名
      System.out.println(filename.substring(0, (filename.length() - 4)));
      
      ActiveXComponent app = new ActiveXComponent("Word.Application");//启动word
      
      String docpath = paths + filename;
      String htmlpath = savepaths + filename.substring(0, (filename.length() - 4));
      
      String inFile = docpath;
      //要转换的word文件
      String tpFile = htmlpath;
      //HTML文件

      boolean flag = false;
      
      try
      {
      app.setProperty("Visible", new Variant(false));
      //设置word不可见


      Object docs = app.getProperty("Documents").toDispatch();
      Object doc = Dispatch.invoke(docs,"Open", Dispatch.Method, new Object[]{inFile,new Variant(false), new Variant(true)}, new int[1]).toDispatch();
      //打开word文件
      Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{tpFile,new Variant(8)}, new int[1]);
      //作为html格式保存到临时文件
      Variant f = new Variant(false);
      Dispatch.call(doc, "Close", f);
      flag = true;
      }
      catch (Exception e)
      {
      e.printStackTrace();
      }
      finally
      {
      app.invoke("Quit", new Variant[] {});
      }
      System.out.println("转化完毕!");
      }
      }
      else
      {
      pathss = paths;
      //进入下一级目录
      pathss = pathss + lists[i].getName() + "\\";    
      //递归遍历所有目录
      change(pathss, savepaths);
      }
      }
      
      }
      //---------------------------------------------------------
      //方法原型: main(String[] args)
      //功能描述: main文件
      //输入参数: 无
      //输出参数: 无
      //返 回 值: 无
      //其它说明: 无
      //----------------------------------------------------------  
      public static void main(String[] args)
      {
      
      String paths = new String("D:\\Work\\2004.10.8\\test system\\test01\\word\\");
      String savepaths = new String ("D:\\Work\\2004.10.8\\test system\\test01\\html\\");
      change(paths, savepaths);

      }
      }


      其中import的jar包是一个开源的东东,网上搜索即得。
      Dispatch.invoke(doc,"SaveAs", Dispatch.Method, new Object[]{ tpFile,new Variant(8)}, new int[1]);
      修改Variant(8)},里面得参数即可将Word转化为各种类型。


       收藏   分享  
    顶(0)
      




    ----------------------------------------------

    -----------------------------------------------

    第十二章第一节《用ROR创建面向资源的服务》
    第十二章第二节《用Restlet创建面向资源的服务》
    第三章《REST式服务有什么不同》
    InfoQ SOA首席编辑胡键评《RESTful Web Services中文版》
    [InfoQ文章]解答有关REST的十点疑惑

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/2/24 0:02:00
     
     kofuya 帅哥哟,离线,有人找我吗?
      
      
      等级:大一(高数修炼中)
      文章:18
      积分:132
      门派:XML.ORG.CN
      注册:2005/3/20

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给kofuya发送一个短消息 把kofuya加入好友 查看kofuya的个人资料 搜索kofuya在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看kofuya的博客2
    发贴心情 
    有参考价值
    //取得文件类型 这种方法不好
    filetype = filename.substring(lastIndexOf('.')+1,filename.length());
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/3/20 12:22:00
     
     jimmyvk 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:66
      积分:400
      门派:XML.ORG.CN
      注册:2004/10/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jimmyvk发送一个短消息 把jimmyvk加入好友 查看jimmyvk的个人资料 搜索jimmyvk在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jimmyvk的博客3
    发贴心情 
    jacob的包操作word一直没有能成功过,我在使用这句:
    Object docs = app.getProperty("Documents").toDispatch();
    一直报下面的错误,请问是应该整样解决呀,高手们请指导,谢谢!
    com.jacob.com.ComFailException: A COM exception has been encountered:
    At Invoke of: Documents
    Description: An unknown COM error has occured.
     at com.jacob.com.Dispatch.invokev(Native Method)
     at com.jacob.activeX.ActiveXComponent.getProperty(ActiveXComponent.java)
     at jimmy.java.win32Class.CreateWordDocJacob.open(CreateWordDocJacob.java:31)
     at jimmy.java.win32Class.CreateWordDocJacob.main(CreateWordDocJacob.java:46)
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/4/4 17:59:00
     
     wadjsn 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:7
      积分:80
      门派:XML.ORG.CN
      注册:2005/4/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给wadjsn发送一个短消息 把wadjsn加入好友 查看wadjsn的个人资料 搜索wadjsn在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看wadjsn的博客4
    发贴心情 不会啊
    我日~!老子也不会啊~!怎么办啊 !~
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/4/5 9:29:00
     
     大志若鱼 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:5
      积分:70
      门派:XML.ORG.CN
      注册:2005/4/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给大志若鱼发送一个短消息 把大志若鱼加入好友 查看大志若鱼的个人资料 搜索大志若鱼在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看大志若鱼的博客5
    发贴心情 
    楼主

    这个问题不懂的人还很多(包括我,嘿嘿)

    能不能先从Jacob的配置开始说(根据网上的资料,我怎么配置都配不好)

    Jacob是不是跟操作系统以及JDK的版本和Office的版本都有关系?

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/4/21 17:58:00
     
     小兽 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2005/4/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给小兽发送一个短消息 把小兽加入好友 查看小兽的个人资料 搜索小兽在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看小兽的博客6
    发贴心情 
    关于如何配置,请参考我的另一篇东西``
    http://blog.csdn.net/guoxiaoshou2000/archive/2005/04/23/359829.aspx
    希望大家指教~
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/4/25 12:32:00
     
     realiory 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:68
      门派:XML.ORG.CN
      注册:2005/4/29

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给realiory发送一个短消息 把realiory加入好友 查看realiory的个人资料 搜索realiory在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看realiory的博客7
    发贴心情 
    hao
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/5/11 15:20:00
     
     菜籽 帅哥哟,离线,有人找我吗?双鱼座1981-2-28
      
      
      威望:5
      头衔:软件民工
      等级:研二(Sowa的知识表示写得真好!)
      文章:875
      积分:5655
      门派:XML.ORG.CN
      注册:2004/7/25

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给菜籽发送一个短消息 把菜籽加入好友 查看菜籽的个人资料 搜索菜籽在『 WORD to XML, HTML to XML 』的所有贴子 点击这里发送电邮给菜籽 引用回复这个贴子 回复这个贴子 查看菜籽的博客8
    发贴心情 
    hao

    ----------------------------------------------
    重拾英语...

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/5/21 15:55:00
     
     micky 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:大四(GRE考了1600分!)
      文章:203
      积分:1357
      门派:W3CHINA.ORG
      注册:2004/3/23

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给micky发送一个短消息 把micky加入好友 查看micky的个人资料 搜索micky在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看micky的博客9
    发贴心情 
    直接使用Word2003提供的文档转换功能就可以了。可以批量地转换。

    http://www.cfan.com.cn/pages/20050510/1590.htm

    将需要转换的文件放入同一个文件夹中,然后打开Word 2003,选择执行“文件→新建”菜单命令,点选“本机上的模板”链接,在“其他文档”选项卡中选择“转换向导”图标,单击“确定”按钮,出现“转换向导”窗口,按照向导提示就可以进行文件转换了。选择“下一步”按钮,可以看到将其他文件格式转换为Word文档格式,也可以将Word文档转为其他文件格式选项,你可以根据情况选择。如我们选择“将其他文件格式转换为Word文档格式”,单击“下一步”,通过“源文件夹”的“浏览”按钮,选定存放源文件的文件夹,再通过“目标文件夹”的“浏览”按钮,确定转换后的文件存放目的地。单击“下一步”,出现窗口,在“文件类型”中选“*.*”,单击“全选”按钮选中源文件夹中所有要转换的文件,再单击“下一步”,单击“完成”按钮,出现“文件转换过程”对话框,对话框中会显示转换进度。文件转换完成后,转换向导结束,此时会询问是否还要转换其他文件,选择“否”结束即可完成文件转换过程。

    ----------------------------------------------
    语义技术的应用就在眼前!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/9/28 15:43:00
     
     iafs 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:4
      积分:75
      门派:XML.ORG.CN
      注册:2005/9/21

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给iafs发送一个短消息 把iafs加入好友 查看iafs的个人资料 搜索iafs在『 WORD to XML, HTML to XML 』的所有贴子 引用回复这个贴子 回复这个贴子 查看iafs的博客10
    发贴心情 
    看了还是蒙,谁知道xml和数据库打交道的一些问题,我想知道,可是不知道从哪里下手,大家帮帮忙,指点一下,小女子有礼了!!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/10/25 19:16:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 WORD to XML, HTML to XML 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/27 13:26:20

    本主题贴数11,分页: [1] [2]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    125.000ms