計算機在最初只支持ASCII編碼,但是后來為了支持其他語言中的字符(比如漢字)以及一些特殊字符(比如),就引入了Unicode字符集。基于Unicode字符集的編碼方式有很多,比如UTF-7、UTF-8、Unicode以及UTF-32。在Windows操作系統(tǒng)中,一個文本文件的前幾個字節(jié)是用來指定該文件的編碼方式的。
如果你使用NotePad或WordPad來打開一個文本文件,你并不用擔心該文件的編碼方式,因為這些應用程序會先讀取文件的前幾個字節(jié)來確定該文件的編碼方式,然后用正確的編碼將文本中的每個字符顯示出來。下面的圖中,可以看到當用NotePad記事本保存一個文檔時,可以選擇的編碼(Encoding)方式有哪些。
用.Net讀取文本文件或寫入文本文件,你都不須要擔心編碼方式。.Net已經(jīng)將這些封裝好了。在讀取一個文本文件的時候,如果你已經(jīng)知道文本使用的是什么編碼方式,你可以指定使用哪種編碼方式讀取文本,否則如果不指定編碼方式,.Net會讀取文本的前幾個字節(jié)來確定使用哪種編碼方式讀取文件內容的。在寫入文本文件的時候,你也可以指定你想使用的編碼方式。如果你沒有指定編碼,.Net會根據(jù)寫入的文本是否含有特殊字符來決定編碼方式。如果沒有特殊字符,就采用ASCII編碼,如果有特殊字符,就采用UTF-8編碼。
(一) 讀取文件
如果你要讀取的文件內容不是很多,可以使用 File.ReadAllText(FilePath) 或指定編碼方式 File.ReadAllText(FilePath, Encoding)的方法。
它們都一次將文本內容全部讀完,并返回一個包含全部文本內容的字符串
string str = File.ReadAllText(@"c:\temp\ascii.txt");
// 也可以指定編碼方式
string str2 = File.ReadAllText(@"c:\temp\ascii.txt", Encoding.ASCII);
也可以使用方法File.ReadAllLines。該方法返回一個字符串數(shù)組。每一行都是一個數(shù)組元素。
string[] strs = File.ReadAllLines(@"c:\temp\ascii.txt");
// 也可以指定編碼方式
string[] strs2 = File.ReadAllLines(@"c:\temp\ascii.txt", Encoding.ASCII);
當文本的內容比較大時,我們就不要將文本內容一次讀完,而應該采用流(Stream)的方式來讀取內容。.Net為我們封裝了StreamReader類。初始化StreamReader類有很多種方式。下面我羅列出幾種
StreamReader sr1 = new StreamReader(@"c:\temp\utf-8.txt");
// 同樣也可以指定編碼方式
StreamReader sr2 = new StreamReader(@"c:\temp\utf-8.txt", Encoding.UTF8);
FileStream fs = new FileStream(@"C:\temp\utf-8.txt", FileMode.Open, FileAccess.Read, FileShare.None);
StreamReader sr3 = new StreamReader(fs);
StreamReader sr4 = new StreamReader(fs, Encoding.UTF8);
FileInfo myFile = new FileInfo(@"C:\temp\utf-8.txt");
// OpenText 創(chuàng)建一個UTF-8 編碼的StreamReader對象
StreamReader sr5 = myFile.OpenText();
// OpenText 創(chuàng)建一個UTF-8 編碼的StreamReader對象
StreamReader sr6 = File.OpenText(@"C:\temp\utf-8.txt");
初始化完成之后,你可以每次讀一行,也可以每次讀一個字符 ,還可以每次讀幾個字符,甚至也可以一次將所有內容讀完。
// 讀一行
string nextLine = sr.ReadLine();
// 讀一個字符
int nextChar = sr.Read();
// 讀100個字符
int nChars = 100;
char[] charArray = new char[nChars];
int nCharsRead = sr.Read(charArray, 0, nChars);
// 全部讀完
string restOfStream = sr.ReadToEnd();
使用完StreamReader之后,不要忘記關閉它: sr.Closee();
假如我們需要一行一行的讀,將整個文本文件讀完,下面看一個完整的例子:
StreamReader sr = File.OpenText(@"C:\temp\ascii.txt");
string nextLine;
while ((nextLine = sr.ReadLine()) != null)
{
Console.WriteLine(nextLine);
}
sr.Close();
(二) 寫入文件
寫文件和讀文件一樣,如果你要寫入的內容不是很多,可以使用File.WriteAllText方法來一次將內容全部寫如文件。如果你要將一個字符串的內容寫入文件,可以用File.WriteAllText(FilePath) 或指定編碼方式 File.WriteAllText(FilePath, Encoding)方法。
string str1 = "Good Morning!"; File.WriteAllText(@"c:\temp\test\ascii.txt", str1); // 也可以指定編碼方式 File.WriteAllText(@"c:\temp\test\ascii-2.txt", str1, Encoding.ASCII);
如果你有一個字符串數(shù)組,你要將每個字符串元素都寫入文件中,可以用File.WriteAllLines方法:
string[] strs = { "Good Morning!", "Good Afternoon!" }; File.WriteAllLines(@"c:\temp\ascii.txt", strs); File.WriteAllLines(@"c:\temp\ascii-2.txt", strs, Encoding.ASCII);
使用File.WriteAllText或File.WriteAllLines方法時,如果指定的文件路徑不存在,會創(chuàng)建一個新文件;如果文件已經(jīng)存在,則會覆蓋原文件。
當要寫入的內容比較多時,同樣也要使用流(Stream)的方式寫入。.Net封裝的類是StreamWriter。初始化StreamWriter類同樣有很多方式:
// 如果文件不存在,創(chuàng)建文件; 如果存在,覆蓋文件
StreamWriter sw1 = new StreamWriter(@"c:\temp\utf-8.txt");
// 也可以指定編碼方式
// true 是 append text, false 為覆蓋原文件
StreamWriter sw2 = new StreamWriter(@"c:\temp\utf-8.txt", true, Encoding.UTF8);
// FileMode.CreateNew: 如果文件不存在,創(chuàng)建文件;如果文件已經(jīng)存在,拋出異常
FileStream fs = new FileStream(@"C:\temp\utf-8.txt", FileMode.CreateNew, FileAccess.Write, FileShare.Read);
// UTF-8 為默認編碼
StreamWriter sw3 = new StreamWriter(fs);
StreamWriter sw4 = new StreamWriter(fs, Encoding.UTF8);
// 如果文件不存在,創(chuàng)建文件; 如果存在,覆蓋文件
FileInfo myFile = new FileInfo(@"C:\temp\utf-8.txt");
StreamWriter sw5 = myFile.CreateText();
初始化完成后,可以用StreamWriter對象一次寫入一行,一個字符,一個字符數(shù)組,甚至一個字符數(shù)組的一部分。
// 寫一個字符
sw.Write('a');
// 寫一個字符數(shù)組
char[] charArray = new char[100];
// initialize these characters
sw.Write(charArray);
// 寫一個字符數(shù)組的一部分
sw.Write(charArray, 10, 15);
同樣,StreamWriter對象使用完后,不要忘記關閉。sw.Close(); 最后來看一個完整的使用StreamWriter一次寫入一行的例子:
FileInfo myFile = new FileInfo(@"C:\temp\utf-8.txt");
StreamWriter sw = myFile.CreateText();
string[] strs = { "早上好", "下午好" };
foreach (var s in strs)
{
sw.WriteLine(s);
}
sw.Close();