尤物精品国产第一福利三区,无码av人妻久久一区二区三区观,99精品一区

<tfoot id="2mmmm"><noscript id="2mmmm"></noscript></tfoot>

明輝手游網(wǎng)中心：是一個免費提供流行視頻軟件教程、在線學習分享的學習平臺！

文章發(fā)布全站軟件文章熱門搜索：分享文件夾皮膚鈴聲剪輯音效資訊首頁騰訊視頻愛奇藝暴風影音酷狗音樂酷我音樂影音大全軟件下載軟件教程電腦系統(tǒng)下載聊天工具辦公軟件殺毒教程系統(tǒng)工具圖形圖像電腦學習應用軟件網(wǎng)絡軟件蘋果應用注冊碼網(wǎng)站教程技術(shù)開發(fā)安卓教程其它教程您當前所在位置：網(wǎng)視手游站 -> 網(wǎng)站教程 -> JSP/Servlet 中的漢字編碼問題
JSP/Servlet 中的漢字編碼問題發(fā)表時間：2024-05-26 來源：明輝站整理相關(guān)軟件相關(guān)文章人氣： [摘要]JSP/Servlet 中的漢字編碼問題網(wǎng)上就 JSP/Servlet 中 DBCS 字符編碼問題有許多優(yōu)秀的文章和討論，本文對它們作一些整理，并結(jié)合 IBM WebSphere Application Server 3.5（WAS）的解決方法作一些說明，希望它不是多余的。內(nèi)容：問題的起源 ??... JSP/Servlet 中的漢字編碼問題網(wǎng)上就 JSP/Servlet 中 DBCS 字符編碼問題有許多優(yōu)秀的文章和討論，本文對它們作一些整理，并結(jié)合 IBM WebSphere Application Server 3.5（WAS）的解決方法作一些說明，希望它不是多余的。內(nèi)容：問題的起源 ??????-80，GBK，GB18030-2000 漢字字符集及 Encoding 中文轉(zhuǎn)碼時'?'、亂碼的由來 JSP/Servlet 漢字編碼問題及在 WAS 中的解決辦法結(jié)束語參考文章 1. 問題的起源每個國家（或區(qū)域）都規(guī)定了計算機信息交換用的字符編碼集，如美國的擴展 ASCII碼, 中國的 ??????-80，日本的 JIS 等，作為該國家/區(qū)域內(nèi)信息處理的基礎，有著統(tǒng)一編碼的重要作用。字符編碼集按長度分為 SBCS（單字節(jié)字符集），DBCS（雙字節(jié)字符集）兩大類。早期的軟件（尤其是操作系統(tǒng)），為了解決本地字符信息的計算機處理，出現(xiàn)了各種本地化版本（L10N），為了區(qū)分，引進了 LANG, Codepage 等概念。但是由于各個本地字符集代碼范圍重疊，相互間信息交換困難；軟件各個本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來，作一致處理，將特別的本地化處理內(nèi)容降低到最少。這也就是所謂的國際化（I18N）。各種語言信息被進一步規(guī)范為 Locale 信息。處理的底層字符集變成了幾乎包含了所有字形的 Unicode。現(xiàn)在大部分具有國際化特征的軟件核心字符處理都是以 Unicode 為基礎的，在軟件運行時根據(jù)當時的 Locale/Lang/Codepage 設置確定相應的本地字符編碼設置，并依此處理本地字符。在處理過程中需要實現(xiàn) Unicode 和本地字符集的相互轉(zhuǎn)換，甚或以 Unicode 為中間的兩個不同本地字符集的相互轉(zhuǎn)換。這種方式在網(wǎng)絡環(huán)境下被進一步延伸，任何網(wǎng)絡兩端的字符信息也需要根據(jù)字符集的設置轉(zhuǎn)換成可接受的內(nèi)容。 Java 語言內(nèi)部是用 Unicode 表示字符的，遵守 Unicode V2.0。Java 程序無論是從/往文件系統(tǒng)以字符流讀/寫文件，還是往 URL 連接寫 HTML 信息，或從 URL 連接讀取參數(shù)值，都會有字符編碼的轉(zhuǎn)換。這樣做雖然增加了編程的復雜度，容易引起混淆，但卻是符合國際化的思想的。從理論上來說，這些根據(jù)字符集設置而進行的字符轉(zhuǎn)換不應該產(chǎn)生太多問題。而事實是由于應用程序的實際運行環(huán)境不同，Unicode 和各個本地字符集的補充、完善，以及系統(tǒng)或應用程序?qū)崿F(xiàn)的不規(guī)范，轉(zhuǎn)碼時出現(xiàn)的問題時時困擾著程序員和用戶。 2. ??????-80，GBK，GB18030-2000 漢字字符集及 Encoding 其實解決 JAVA 程序中的漢字編碼問題的方法往往很簡單，但理解其背后的原因，定位問題，還需要了解現(xiàn)有的漢字編碼和編碼轉(zhuǎn)換。 ??????-80 是在國內(nèi)計算機漢字信息技術(shù)發(fā)展初始階段制定的，其中包含了大部分常用的一、二級漢字，和 9 區(qū)的符號。該字符集是幾乎所有的中文系統(tǒng)和國際化的軟件都支持的中文字符集，這也是最基本的中文字符集。其編碼范圍是高位0xa1－0xfe，低位也是 0xa1-0xfe；漢字從 0xb0a1 開始，結(jié)束于 0xf7fe； GBK 是 ??????-80 的擴展，是向上兼容的。它包含了 20902 個漢字，其編碼范圍是 0x8140-0xfefe，剔除高位 0x80 的字位。其所有字符都可以一對一映射到 Unicode 2.0，也就是說 JAVA 實際上提供了 GBK 字符集的支持。這是現(xiàn)階段 Windows 和其它一些中文操作系統(tǒng)的缺省字符集，但并不是所有的國際化軟件都支持該字符集，感覺是他們并不完全知道 GBK 是怎么回事。值得注意的是它不是國家標準，而只是規(guī)范。隨著 GB18030-2000國標的發(fā)布，它將在不久的將來完成它的歷史使命。 GB18030-2000(GBK2K) 在 GBK 的基礎上進一步擴展了漢字，增加了藏、蒙等少數(shù)民族的字形。GBK2K 從根本上解決了字位不夠，字形不足的問題。它有幾個特點，它并沒有確定所有的字形，只是規(guī)定了編碼范圍，留待以后擴充。編碼是變長的，其二字節(jié)部分與 GBK 兼容；四字節(jié)部分是擴充的字形、字位，其編碼范圍是首字節(jié) 0x81-0xfe、二字節(jié)0x30-0x39、三字節(jié) 0x81-0xfe、四字節(jié)0x30-0x39。它的推廣是分階段的，首先要求實現(xiàn)的是能夠完全映射到 Unicode 3.0 標準的所有字形。它是國家標準，是強制性的。現(xiàn)在還沒有任何一個操作系統(tǒng)或軟件實現(xiàn)了 GBK2K 的支持，這是現(xiàn)階段和將來漢化的工作內(nèi)容。 Unicode 的介紹......就免了吧。 JAVA 支持的encoding中與中文編程相關(guān)的有：(有幾個在JDK文檔中未列出) ASCII 7-bit, 同 ascii7 ISO8859-1 8-bit, 同 8859_1,ISO-8859-1,ISO_8859-1,latin1... ??????-80 同??????,??????-1980,EUC_CN,euccn,1381,Cp1381, 1383, Cp1383, ISO2022CN,ISO2022CN_GB...... GBK (注意大小寫),同MS936 UTF8 UTF-8 GB18030 (現(xiàn)在只有IBM JDK1.3.?有支持), 同Cp1392,1392 JAVA 語言采用Unicode處理字符. 但從另一個角度來說，在java程序中也可以采用非Unicode的轉(zhuǎn)碼，重要的是保證程序入口和出口的漢字信息不失真。如完全采用ISO-8859-1來處理漢字也能達到正確的結(jié)果。網(wǎng)絡上流行的許多解決方法，都屬于這種類型。為了不致引起混淆，本文不對這種方法作討論。 3. 中文轉(zhuǎn)碼時'?'、亂碼的由來兩個方向轉(zhuǎn)換都有可能得到錯誤的結(jié)果： Unicode-->Byte, 如果目標代碼集不存在對應的代碼，則得到的結(jié)果是0x3f. 如： "\u00d6\u00ec\u00e9\u0046\u00bb\u00f9".getBytes("GBK") 的結(jié)果是 "?ìéF?ù", Hex 值是3fa8aca8a6463fa8b4. 仔細看一下上面的結(jié)果，你會發(fā)現(xiàn)\u00ec被轉(zhuǎn)換為0xa8ac, \u00e9被轉(zhuǎn)換為\xa8a6... 它的實際有效位變長了！這是因為??????符號區(qū)中的一些符號被映射到一些公共的符號編碼，由于這些符號出現(xiàn)在ISO-8859-1或其它一些SBCS字符集中，故它們在Unicode中編碼比較靠前，有一些其有效位只有8位，和漢字的編碼重疊(其實這種映射只是編碼的映射，在顯示時仔細不是一樣的。Unicode 中的符號是單字節(jié)寬，漢字中的符號是雙字節(jié)寬) . 在Unicode\u00a0--\u00ff 之間這樣的符號有20個。了解這個特征非常重要！由此就不難理解為什么JAVA編程中，漢字編碼的錯誤結(jié)果中常常會出現(xiàn)一些亂碼(其實是符號字符), 而不全是'?'字符, 就比如上面的例子。 Byte-->Unicode, 如果Byte標識的字符在源代碼集不存在，則得到的結(jié)果是0xfffd. 如： Byte ba[] = {(byte)0x81,(byte)0x40,(byte)0xb0,(byte)0xa1}; new String(ba,"??????"); 結(jié)果是"?啊", hex 值是"\ufffd\u554a". 0x8140 是GBK字符，按??????轉(zhuǎn)換表沒有對應的值，取\ufffd. (請注意：在顯示該uniCode時，因為沒有對應的本地字符，所以也適用上一種情況，顯示為一個"?".) 實際編程中，JSP/Servlet 程序得到錯誤的漢字信息，往往是這兩個過程的疊加，有時甚至是兩個過程疊加后反復作用的結(jié)果. 4. JSP/Servlet 漢字編碼問題及在 WAS 中的解決辦法 4.1 常見的 encoding 問題的現(xiàn)象網(wǎng)上常出現(xiàn)的 JSP/Servlet encoding 問題一般都表現(xiàn)在 browser 或應用程序端，如: 瀏覽器中看到的 Jsp/Servlet 頁面中的漢字怎么都成了 ’?’ ? 瀏覽器中看到的 Servlet 頁面中的漢字怎么都成了亂碼？ JAVA 應用程序界面中的漢字怎么都成了方塊？ Jsp/Servlet 頁面無法顯示 GBK 漢字。 JSP 頁面中內(nèi)嵌在<%...%>,<%=...%>等Tag包含的 JAVA code 中的中文成了亂碼，但頁面的其它漢字是對的。 Jsp/Servlet 不能接收 form 提交的漢字。 JSP/Servlet 數(shù)據(jù)庫讀寫無法獲得正確的內(nèi)容。隱藏在這些問題后面的是各種錯誤的字符轉(zhuǎn)換和處理（除第3個外，是因為 Java font 設置錯誤引起的）。解決類似的字符 encoding 問題，需要了解 Jsp/Servlet 的運行過程，檢查可能出現(xiàn)問題的各個點。 4.2 JSP/Servlet web 編程時的 encoding 問題運行于Java 應用服務器的 JSP/Servlet 為 Browser 提供 HTML 內(nèi)容，其過程如下圖所示：其中有字符編碼轉(zhuǎn)換的地方有: JSP 編譯。Java 應用服務器將根據(jù) JVM 的 file.encoding 值讀取 JSP 源文件，編譯生成 JAVA 源文件，再根據(jù) file.encoding 值寫回文件系統(tǒng)。如果當前系統(tǒng)語言支持 GBK，那么這時候不會出現(xiàn) encoding 問題。如果是英文的系統(tǒng)，如 LANG 是 en_US 的 Linux, AIX 或 Solaris，則要將 JVM 的 file.encoding 值置成 GBK 。系統(tǒng)語言如果是 ??????，則根據(jù)需要，確定要不要設置 file.encoding，將 file.encoding 設為 GBK 可以解決潛在的 GBK 字符亂碼問題 Java 需要被編譯為 .class 才能在 JVM 中執(zhí)行，這個過程存在與a.同樣的 file.encoding 問題。從這里開始 servlet 和 jsp 的運行就類似了，只不過 Servlet 的編譯不是自動進行的。對于JSP程序, 對產(chǎn)生的JAVA 中間文件的編譯是自動進行的(在程序中直接調(diào)用sun.tools.javac.Main類). 因此如果在這一步出現(xiàn)問題的話, 也要檢查encoding和OS的語言環(huán)境，或者將內(nèi)嵌在JSP JAVA Code 中的靜態(tài)漢字轉(zhuǎn)為 Unicode, 要么靜態(tài)文本輸出不要放在 JAVA code 中。對于Servlet, javac 編譯時手工指定-encoding 參數(shù)就可以了。 Servlet 需要將 HTML 頁面內(nèi)容轉(zhuǎn)換為 browser 可接受的 encoding 內(nèi)容發(fā)送出去。依賴于各 JAVA App Server 的實現(xiàn)方式，有的將查詢 Browser 的 accept-charset 和 accept-language 參數(shù)或以其它猜的方式確定 encoding 值，有的則不管。因此采用固定encoding 也許是最好的解決方法。對于中文網(wǎng)頁，可在 JSP 或 Servlet 中設置 contentType="text/html; charset=??????"；如果頁面中有GBK字符，則設置為contentType="text/html; charset=GBK"，由于IE 和 Netscape對GBK的支持程度不一樣，作這種設置時需要測試一下。因為16位 JAVA char在網(wǎng)絡傳送時高8位會被丟棄，也為了確保Servlet頁面中的漢字（包括內(nèi)嵌的和servlet運行過程中得到的）是期望的內(nèi)碼，可以用 PrintWriter out=res.getWriter() 取代 ServletOutputStream out=res.getOutputStream(). PrinterWriter 將根據(jù)contentType中指定的charset作轉(zhuǎn)換 (ContentType需在此之前指定！); 也可以用OutputStreamWriter封裝 ServletOutputStream 類并用write(String)輸出漢字字符串。對于 JSP，JAVA Application Server 應當能夠確保在這個階段將嵌入的漢字正確傳送出去。這是解釋 URL 字符 encoding 問題。如果通過 get/post 方式從 browser 返回的參數(shù)值中包含漢字信息， servlet 將無法得到正確的值。SUN的 J2SDK 中，HttpUtils.parseName 在解析參數(shù)時根本沒有考慮 browser 的語言設置，而是將得到的值按 byte 方式解析。這是網(wǎng)上討論得最多的 encoding 問題。因為這是設計缺陷，只能以 bin 方式重新解析得到的字符串；或者以 hack HttpUtils 類的方式解決。參考文章 2 均有介紹，不過最好將其中的中文 encoding ??????、 CP1381 都改為 GBK，否則遇到 GBK 漢字時，還是會有問題。 Servlet API 2.3 提供一個新的函數(shù) HttpServeletRequest.setCharacterEncoding 用于在調(diào)用 request.getParameter(“param_name”) 前指定應用程序希望的 encoding，這將有助于徹底解決這個問題。 4.3 IBM Websphere Application Server 中的解決方法 WebSphere Application Server 對標準的 Servlet API 2.x 作了擴展，提供較好的多語言支持。運行在中文的操作系統(tǒng)中，可以不作任何設置就可以很好地處理漢字。下面的說明只是對WAS是運行在英文的系統(tǒng)中，或者需要有GBK支持時有效。上述c,d情況，WAS 都要查詢 Browser 的語言設置，在缺省狀況下， zh, zh-cn 等均被映射為 JAVA encoding CP1381（注意： CP1381 只是等同于 ?????? 的一個 codepage，沒有 GBK 支持）。這樣做我想是因為無法確認 Browser 運行的操作系統(tǒng)是支持??????, 還是 GBK，所以取其小。但是實際的應用系統(tǒng)還是要求頁面中出現(xiàn) GBK 漢字，最著名的是朱總理名字中的“镕"(rong2 ，0xe946，\u9555)，所以有時還是需要將 Encoding/Charset 指定為 GBK。當然 WAS 中變更缺省的 encoding 沒有上面說的那么麻煩，針對 a,b，參考文章 5，在 Application Server 的命令行參數(shù)中指定 -Dfile.encoding=GBK 即可；針對 d，在 Application Server 的命令行參數(shù)中指定-Ddefault.client.encoding=GBK。如果指定了-Ddefault.client.encoding=GBK，那么c情況下可以不再指定charset。上面列出的問題中還有一個關(guān)于Tag<%...%>,<%=...%>中的 JAVA 代碼里包含的靜態(tài)文本未能正確顯示的問題，在WAS中的解決方法是除了設置正確的file.encoding, 還需要以相同方法設置-Duser.language=zh -Duser.region=CN。這與JAVA locale的設置有關(guān)。 4.4 數(shù)據(jù)庫讀寫時的 encoding 問題 JSP/Servlet 編程中經(jīng)常出現(xiàn) encoding 問題的另一個地方是讀寫數(shù)據(jù)庫中的數(shù)據(jù)。流行的關(guān)系數(shù)據(jù)庫系統(tǒng)都支持數(shù)據(jù)庫 encoding，也就是說在創(chuàng)建數(shù)據(jù)庫時可以指定它自己的字符集設置，數(shù)據(jù)庫的數(shù)據(jù)以指定的編碼形式存儲。當應用程序訪問數(shù)據(jù)時，在入口和出口處都會有 encoding 轉(zhuǎn)換。對于中文數(shù)據(jù)，數(shù)據(jù)庫字符編碼的設置應當保證數(shù)據(jù)的完整性. ??????，GBK，UTF-8 等都是可選的數(shù)據(jù)庫 encoding；也可以選擇 ISO8859-1 (8-bit)，那么應用程序在寫數(shù)據(jù)之前須將 16Bit 的一個漢字或 Unicode 拆分成兩個 8-bit 的字符，讀數(shù)據(jù)之后則需將兩個字節(jié)合并起來，同時還要判別其中的 SBCS 字符。沒有充分利用數(shù)據(jù)庫 encoding 的作用，反而增加了編程的復雜度，ISO8859-1不是推薦的數(shù)據(jù)庫 encoding。JSP/Servlet編程時，可以先用數(shù)據(jù)庫管理系統(tǒng)提供的管理功能檢查其中的中文數(shù)據(jù)是否正確。然后應當注意的是讀出來的數(shù)據(jù)的 encoding，JAVA 程序中一般得到的是 Unicode。寫數(shù)據(jù)時則相反。 4.5 定位問題時常用的技巧定位中文encoding問題通常采用最笨的也是最有效的辦法——在你認為有嫌疑的程序處理后打印字符串的內(nèi)碼。通過打印字符串的內(nèi)碼，你可以發(fā)現(xiàn)什么時候中文字符被轉(zhuǎn)換成Unicode，什么時候Unicode被轉(zhuǎn)回中文內(nèi)碼，什么時候一個中文字成了兩個 Unicode 字符，什么時候中文字符串被轉(zhuǎn)成了一串問號，什么時候中文字符串的高位被截掉了…… 取用合適的樣本字符串也有助于區(qū)分問題的類型。如：”aa啊aa丂aa” 等中英相間、GB、GBK特征字符均有的字符串。一般來說，英文字符無論怎么轉(zhuǎn)換或處理，都不會失真（如果遇到了，可以嘗試著增加連續(xù)的英文字母長度）。 5. 結(jié)束語其實 JSP/Servlet 的中文encoding 并沒有想像的那么復雜，雖然定位和解決問題沒有定規(guī)，各種運行環(huán)境也各不盡然，但后面的原理是一樣的。了解字符集的知識是解決字符問題的基礎。不過，隨著中文字符集的變化，不僅僅是 java 編程，中文信息處理中的問題還是會存在一段時間的。 6. 參考文章 Character Problem Review Java 編程技術(shù)中漢字問題的分析及解決 GB18030 Setting language encoding in web applications: Websphere applications Server 標簽：JSP/Servlet 中的漢字編碼問題上一篇：Perl的經(jīng)典用法下一篇：AOP在大規(guī)模軟件開發(fā)項目中應用的嘗試與思考	推薦資訊總?cè)藲獍?/span> 1PS提示：因為圖層已鎖定，無法編輯圖層的處理方法 2Adobe Illustrator CS5 序列號大全 3picacg蘋果版怎么找不到\|picacg ios版是不是下架了介紹 4ACDsee注冊碼免費分享（含ACDsee18、ACDsee10等版本） 5蘋果iphone自動時間不準確的多種校正方法 6眼萌app怎么色弱測試眼萌app色弱測試圖文說明教程 7PDF瀏覽器能看3D文件嗎？PDF瀏覽器看3D文件圖文詳細教程 8百度安全衛(wèi)士好用么_百度安全衛(wèi)士技巧說明 9Potato(馬鈴薯聊天)怎么注冊不了\|Potato不能注冊處理方法介紹 10Potato(土豆聊天)怎么換頭像\|Potato app更改頭像方法介紹 11ipad版office如何激活? office365激活的圖文說明教程 12最新的Adobe Illustrator CS4序列號大全 1css3里如何顯示圓形圖片 2支付寶怎么交學費，支付寶教育繳費圖文說明教程 3京東微笑面單是什么，京東微笑快遞單有什么用 4高鐵兒童票網(wǎng)上怎么買，網(wǎng)上買高鐵兒童票具體流程 5提高谷歌聯(lián)盟Adsense收入4種方法 6百度減少收錄是什么原因？ 7GG廣告申請 8百度降權(quán)并不可怕 9穩(wěn)定網(wǎng)站排名的隱秘：百度優(yōu)先級算法 10新手誤區(qū)：揭露seo反鏈工具的真實面目 11淺談增加網(wǎng)站外部鏈接的方法 12被降權(quán)問題淺談百度頁面權(quán)重最新教程本月人氣 1photoshop新版本本是什么？ 2來電顯示是什么？ 3拉黑是什么意思？ 4dllhost.exe是什么進程？ 5白蘋果是什么意思？ 6什么是外掛？ 7enterprise是什么版本？ 8bios升級有什么用？ 9qq郵箱積分有什么用？ 10yy是什么意思？ 11什么是ie瀏覽器？ 12什么瀏覽器好用穩(wěn)定速度快？ 1防范PPTV網(wǎng)絡電視偷跑P2P流量的方法_pptv網(wǎng)絡電視_下載之家 217app如何注冊 17app注冊方法流程 3Cool Edit提示：resample.xfm文件失去怎么辦？ 4愛奇藝會員號共享（更新日期：2016年9月28日） 5豆瓣app下載地址豆瓣app官方版下載 6用XML與ASP完成購物車 7remoteview如何用？remoteview使用方法 8百度搶票寶驗證碼不顯示如何辦？百度搶票不顯示驗證碼處理方法 9人生日歷搶票如何用？人生日歷搶票插件使用圖文說明教程 10柚子相機如何用？柚子相機使用方法 11搜狗輸入法如何設置快捷鍵？搜狗輸入法設置快捷鍵圖文說明教程 12隨星播如何直播？隨星播直播圖文說明教程
相關(guān)文章 JSP/Servlet 中的漢字編碼問題 JSP/Servlet 中的漢字編碼問題(轉(zhuǎn))

<noscript id="mm8mm"><dd id="mm8mm"></dd></noscript>

<noscript id="mm8mm"><dd id="mm8mm"></dd></noscript>