新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论DOM, SAX, XPath等。
    [返回] 中文XML论坛 - 专业的XML技术讨论区XML.ORG.CN讨论区 - XML技术『 DOM/SAX/XPath 』 → 遇到JTidy的中文处理问题,在这里像大家请教 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 3899 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 遇到JTidy的中文处理问题,在这里像大家请教 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     discrete 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:66
      门派:XML.ORG.CN
      注册:2004/5/29

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给discrete发送一个短消息 把discrete加入好友 查看discrete的个人资料 搜索discrete在『 DOM/SAX/XPath 』的所有贴子 引用回复这个贴子 回复这个贴子 查看discrete的博客楼主
    发贴心情 遇到JTidy的中文处理问题,在这里像大家请教

    由于是别人写了一部分的代码,似乎没有用到什么jTidy的配置文件

    处理页面的函数中是以下三句代码:
     //确认在这里的ss中的中文能够打印显示
     String ss = HTMLHelper.filtHTMLChar(IOUtil.input2String(in));
     //这一步见下面的代码@2
     in = new BufferedInputStream(IOUtil.string2Input(ss));
     //在这步得到document
            return tidy.parseDOM(in, null);

    代码@2
        /**
         * 从String中返回一个InputStream, 用于读取该String
         * @param s
         * @return
         */
        public static InputStream string2Input(String s) {
            byte[] b =s.getBytes();
            ByteArrayInputStream byteArrayInputStream = new ByteArrayInputStream(b);
     //这步我将byteArrayInputStream中的字节读出来转化为string之后打印仍然能够正确显示中文
            return byteArrayInputStream;
        }

    代码@3
     //我试图用这个函数将得到的XML转换为TXT
        private void saveXMLtoTXT(Document currentPage, BufferedWriter writer) throws IOException {
            Element root = currentPage.getDocumentElement();
     //得到所有含有文本的节点
            ArrayList nodeList = LocateAction.getAllTextNode(root);

            for (int i = 0; i < nodeList.size(); i++) {
                Node node = (Node) nodeList.get(i);
                String text = node.getNodeValue();
         //这步打印出来就是乱码了~~~~
                System.out.println("text = " + text);
                writer.write(text);
                writer.write("\r\n");
            }
            writer.close();
        }


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/5/29 18:05:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 DOM/SAX/XPath 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/6 8:58:39

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    4,419.922ms