2008年9月6日 星期六

中文輸入

中文輸入

認識編碼
身為炎黃子孫﹐自然少不了要使用中文吧。然而,電腦上最常使用的 ASCII 編碼﹐卻只適合於英文系統。如果要電腦能顯示中文(或其它國的文字)﹐那麼就要給電腦制度另一種編碼才行。
在前面講述怎麼計算資料容量的時候﹐我們已經知道電腦資料的最小單位是 bit﹐但一個 bit 只有兩種變化(要麼是 0 要麼是 1 )﹐實在表達不出什麼意思。然後我將 8 個 bit 組成一個 byte (字節)﹐那麼就有 28 = 256 種變化了﹐每個組合也就可以代表各自不同的意思了。
利用這個 byte﹐ASCII 碼早在 1960 年代被開發的時候﹐就制定了128 組文字和符號﹔而後 IBM 又再擴充到 256 組。其中分為四大類﹕
ASCII 編號
定義
0 至 31
特殊的控制字元
32 至 127
文數字資料
128 至 159
其它歐洲的字元
160 至 256
繪圖字元
然而﹐在中文環境中,日常使用的中文字約有 2000 多個﹐較完整的中文字庫也有一萬多字﹐256 種變化肯定不夠。所以中文字要使用兩個 byte(雙字節)來表示一個字﹐那麼就有 216 = 65536 種變化了。
這些變化歸根結底都是以 0 和 1 的組合﹐那麼我們用不同的組合就可以建立起不同的文字對應﹐這個資料就是字庫了。透過字庫找出來的字通常會以“點陣”的形式顯示出來﹐即每一筆每一劃都是用相連一起的點組成。要顯示中文最少要有 16x15 點的排列空間﹐當然解析度越高越好看啦。不過﹐如果將這些點陣字按既定比例放大的話﹐您會發現其邊邊都很難看﹐都是一些鋸齒。所以漂亮的中文字都會使用“真實字體”( Ture Type Font )來表示﹐使用 TTF 的字體﹐無論如何放大或縮小﹐字形都會保持不變的﹐但所需要的儲存空間也當然比點陣字要大。
如果您想有更多的中文字形選擇﹐比如顏體、棣書、魏碑、等等﹐那麼您就必須為系統安裝字形才可以使用。
中文的內碼
中文字體除了在字形的不同﹐很多人都知道還有繁體和簡體之分吧﹐它們使用的內碼也各有一套。現在最流行的中文內碼有兩種﹕一種是中國大陸使用的 GB 碼﹐另一種是在台灣使用的 BIG 5碼。因此 GB 多為簡體字所採用﹐而 BIG5 多為繁體字採用﹐但其實它們都有各自的繁體字和簡體字的。然而﹐無論是使用繁體還是簡體﹐只能使用有相同的內碼才會被正確的顯示出來﹐否則只會是一堆亂七八糟的文字組合。
有時候您接到海外朋友寄來的 email﹐打開一看全是亂碼﹐就很可能是編寫者使用了一種內碼﹐而閱讀者使用了另一內碼所至。尤其是那些外掛在英文系統上面的中文軟體﹐常會造成這樣那樣的內碼問題。不過﹐如果您有一套聰明的中文軟體﹐大都有自動選碼功能﹐這樣您就無需為內碼錯誤頭痛了。或許有朋友用過 南極星的 NJStar Communicator (有試用版可以下載) ,它實在是個不錯的中文軟體﹐若您同時要看 BG 碼和 BIG5 碼的網頁就最為合適了。它還有一個好處是:除了顯示繁簡體,還可以用來進行中文輸入呢。
輸入法
提到中文輸入就是個頭痛的問題﹐因為其輸入不像英文輸入那樣簡單。英文輸入只要看著鍵盤找到相應的按鍵就可以輸入了﹐但中文輸入卻非要再學習不可。而且輸入法則也琳琅滿目﹐各行一套。比較專業的中文輸入員都懂得諸如倉頡輸或五筆等輸入法﹐不過都要經過比較長時間的學習才容易掌握。一般會注音或拼音的朋友﹐則會選擇注音或拼音輸入法﹐因為其拼字規則在學校裡面已經學過了﹐不像倉頡等要重新學習過。現在還好像有什麼大易﹑無蝦米等輸入法﹐不一而足...
然而哪種輸入法比較適合自己也是因人而異啦﹐而且一旦學會了一種﹐除非是謀生所需﹐也比較難(懶)去改學別的輸入法。而且不同的輸入法在不同的場合裡面也有不同的優點﹐比如注音(拼音)輸入法比較適合"邊想邊輸入"﹐如在聊天或寫 email 等簡單用途。但是如果要邊看邊寫﹐比如抄寫﹐或需要大量的文字輸入﹐倉頡(五筆)輸入法則很明顯是最理解的﹐其錯字率也比較低。無論採用哪種輸入法﹐熟悉程度是影響輸入速度的非常重要因素。
現在有一種手寫板的玩意﹐對一些不會輸入法的使用者來說﹐確實提供了一個方便之門。然而如果您學會了任何一種鍵盤輸入法的話﹐您就會覺得手寫輸入其實是最慢的。 ^_^

沒有留言: