本文概述

StreamWriter 在产生UTF-8编码的内容时候,会在产生的这个UTF-8内容中增加BOM的信息,而这个BOM的信息,会干扰我们在一些情况的使用。
本文描述的情况,就是这种干扰让我们无法正常工作的一种情况。

 

何为BOM?

BOM(Byte Order Mark),BOM签名。
BOM的内容就可以表示unicode文件是何种编码。BOM签名的意思就是告诉编辑器当前文件采用何种编码,方便编辑器识别。

对于UTF-8 , BOM 信息为 EF BB BF。 我们如果在Google搜索 UTF-8 BOM 就会搜索到很多文章, BOM 在不少情况下,都会给我们添乱子。

 

下面是我碰到这个问题的描述

我碰到这个问题的场景:在书写一段模拟HTTP Post 请求的时候, 代码如下,但是却无法模拟Post请求:

private void do2()
 {
     string url = "http://localhost:39749/Default.aspx";



     string indata = "__VIEWSTATE=%2FwEPDwUKMTQ2OTkzNDMyMWRkyGd";
      indata += "iqWjBKr5rIKmHzSdD9AaojKw%3D&Button1=Button&__EVENTVALIDATION=%";
      indata += "2FwEWAgLohfrVDQKM54rGBu49QLoa7JmG9cEfUpTccMrUmJfD";
     HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
     req.ContentType = "application/x-www-form-urlencoded";
     req.Method = "Post";


     Stream myRequestStream = req.GetRequestStream();
     StreamWriter myStreamWriter = new StreamWriter(myRequestStream, Encoding.UTF8);
     myStreamWriter.Write(indata);
     myStreamWriter.Close();
     myRequestStream.Close();
     myStreamWriter.Dispose();
     myRequestStream.Dispose();


     HttpWebResponse res = (HttpWebResponse)req.GetResponse();
     StreamReader reader = new StreamReader(res.GetResponseStream(), Encoding.UTF8);
     string info = reader.ReadToEnd();
     reader.Close();
     res.Close();
     reader.Dispose();
     MessageBox.Show(info);
 }

而文中中间的代码修改成下面代码则可以成功模拟。

byte[] bytes = System.Text.Encoding.UTF8.GetBytes(indata);
req.ContentLength = bytes.Length;
Stream myRequestStream = req.GetRequestStream();
myRequestStream.Write(bytes, 0, bytes.Length);
myRequestStream.Close();

为何会这样呢?分析原因,竟然是 UTF-8 BOM 在作怪。

StreamWriter 在产生UTF-8编码的内容时候,会在产生的这个UTF-8内容中增加BOM的信息, 这样他发送的Post信息就比正常多了三个字节  EF BB BF。 就是因为这三个字节导致服务器端无法处理正常的Post请求。

 

解决方法:

1、自己重写UTF-8类,参看 http://www.19870202.com/?tid=381  。在调用的时候用这个自己写的类。
重写代码:
public class UTF8EncodingNoPreamble : System.Text.UTF8Encoding
{
        public override byte[] GetPreamble()
        {
            return new byte[0];
        }
}

2、不要用 StreamWriter ,参看我上面的替代方案。

 

参考资料:

System.IO.StreamWriter写UTF-8文件不写BOM
http://www.19870202.com/?tid=381

UTF-8, UTF-16, UTF-32 & BOM
http://unicode.org/faq/utf_bom.html#BOM

utf-8 保存文件的 bom 问题
http://www.uuzone.com/blog/tom/101761.htm