以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 Java/Eclipse 』  (http://bbs.xml.org.cn/list.asp?boardid=41)
----  请教大侠,在线等  (http://bbs.xml.org.cn/dispbbs.asp?boardid=41&rootid=&id=8812)


--  作者:whaimar
--  发布时间:7/15/2004 12:56:00 PM

--  请教大侠,在线等
我在写程序提取网页中的信息,统计生成xml文件.我用dom树,并用sax解吸xml
可是一直出现org.xml.sax.SAXParseException: 非法 XML 字符:  �;。
 at org.apache.crimson.parser.InputEntity.fatal(InputEntity.java:1100)
 at org.apache.crimson.parser.InputEntity.parsedContent(InputEntity.java:593)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1826)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1779)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1779)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.parseInternal(Parser2.java:500)
 at org.apache.crimson.parser.Parser2.parse(Parser2.java:305)
 at org.apache.crimson.parser.XMLReaderImpl.parse(XMLReaderImpl.java:442)
 at org.apache.crimson.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:185)
 at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:124)
 at cn.edu.sjtu.apex.ka.pageAnalyzer.XMLreader.OutputToXML(XMLreader.java:60)
 at cn.edu.sjtu.apex.ka.pageAnalyzer.PageAnalyzeUtil.main(PageAnalyzeUtil.java:543)
http://www.yahoo.com/r/tris Completed!
F:\aimar\resource\html\0\2030.html
org.xml.sax.SAXParseException: 非法 XML 字符:  �;。
 at org.apache.crimson.parser.InputEntity.fatal(InputEntity.java:1100)
 at org.apache.crimson.parser.InputEntity.parsedContent(InputEntity.java:593)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1826)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1779)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.content(Parser2.java:1779)
 at org.apache.crimson.parser.Parser2.maybeElement(Parser2.java:1507)
 at org.apache.crimson.parser.Parser2.parseInternal(Parser2.java:500)
 at org.apache.crimson.parser.Parser2.parse(Parser2.java:305)
 at org.apache.crimson.parser.XMLReaderImpl.parse(XMLReaderImpl.java:442)
 at org.apache.crimson.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:185)
 at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:124)
 at cn.edu.sjtu.apex.ka.pageAnalyzer.XMLreader.OutputToXML(XMLreader.java:60)
 at cn.edu.sjtu.apex.ka.pageAnalyzer.PageAnalyzeUtil.main(PageAnalyzeUtil.java:543)
这种错误,请教大侠,这是什么错误!
html的转义字符我都处理了
而且,我将出错的内容重新写入一个新的xml文件,就没有错误!
--  作者:mfc42d
--  发布时间:7/16/2004 12:29:00 PM

--  
在XML文件中被禁止使用的ASCII字符共有五个:

&lt;  < 小于
&gt; > 大于
&amp; &  和
&apos; ' 单引号
&quot; " 双引号

XML 文档必须使用包含编码的 XML 声明


--  作者:whaimar
--  发布时间:7/16/2004 12:35:00 PM

--  
可是我已经把所用的标点都过滤掉了啊!
--  作者:whaimar
--  发布时间:7/16/2004 12:42:00 PM

--  
而且,如果出现的是格式错误
那么当我将同样的内容再写一遍到一个新建文件的时候,应该还是出错的
可是结果是没有错啊
大侠指教
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
44.922ms