JS魔法堂:不完全國際化本地化手冊之理論篇－互聯網

文章出處

前言

最近加入到新項目組負責前端技術預研和選型，其中涉及到一個熟悉又陌生的需求——國際化＆本地化。熟悉的是之前的項目也玩過，陌生的是之前的實現僅僅停留在"有"的階段而已。趁著這個機會好好學習整理一下，為后面的技術選型做準備。
本篇將闡述國際化和本地化的概念，以及其中一個很重要的概念——Language tag(也叫Language code 或 Culture)。

何為國際化？

國際化我認為就是應用支持多語言和文化習俗(數字、貨幣、日期和字符比較算法等)，而本地化則是應用能識別用戶所屬文化習俗自動適配至相應的語言文化版本。
過去常常以為國際化就是字符串的替換——如"你好!"替換為"What's up, man!"，其實具體是分為以下5方面:

字符串替換
如"你好!"替換為"What's up, man!".
數字表示方式
如1200.01，英語表示方式為1,200.01，而法語則為1 200,01，德語則為1.200,01.
貨幣表示方式
如人民幣￥1,200.01，美元表示方式為$1,200.01，而英語的歐元則為€1,200.01，德語的歐元則為1.200,01 €.
注意: 這里沒有還沒算上匯率呢.
日期表示方式
如2016年9月15日，英語表示方式為9/15/2016, 而法語為15/9/2016, 德語為15.9.2016.
字符比較算法
如ä和z比較時，英語、德語中均是ä排在z前面，而在瑞典語中則是z排在ä前面.

本地化的關鍵 —— Language Tag

既然要自動適配至用戶所屬的語言文化版本，那么總得有個根據才能識別吧？我想大家應該對zh-CN和en等不陌生吧，而它們正是我們所需的根據了！在我們使用已有i18n庫實現國際化/本地化時，必定會寫下以下文檔
```
{
  "en": { "name": "Enter Name" },
  "zh-CN": { "name": "輸入姓名" }
}
```
但除了en和zh-CN還有其他鍵嗎？它們的組成規則又是如何的呢？下面我們來稍微深入的了解這些Language Tag吧！

語法規則

注意以下采用ABNF語言描述(ABNF的語法請參考語法規范：BNF與ABNF)

Language-Tag = langtag
             / privateuse
             / grandfathered

langtag = language
          ["-" script]
          ["-" region]
          *("-" variant)
          *("-" extension)
          ["-" privateuse]

可以看到Language-Tag分為langtag，privateuse 和 grandfatherd三個子類,下面我們先了解一般情況用不上的兩個吧！
privateuse
標簽的意思不由subtag registry定義，而是由使用的團隊間私自定義、維護和使用。
格式:

privateuse = "x" 1*("-" (1*8alphanum))

示例:x-zh-CN是privateuse，其意思不一定與languagezh-CN一致。
注意: 只作為小集團內部用可以，決不能大范圍適用。

grandfathered
用于向后兼容。由于RFC 4646前的標簽無法完全匹配當前registry的標簽語法和意思，因此通過grandfathered來提供向后兼容的特性。
語法:

grandfathered = irregular
              / regualr
irregular = "en-GB-oed"         ; irregular tags do not match
          / "i-ami"             ; the 'langtag' production and
          / "i-bnn"             ; would not otherwise be
          / "i-default"         ; considered 'well-formed'
          / "i-enochian"        ; These tags are all valid,
          / "i-hak"             ; but most are deprecated
          / "i-klingon"         ; in favor of more modern
          / "i-lux"             ; subtags or subtag
          / "i-mingo"  
          / "i-navajo"
          / "i-pwn"
          / "i-tao"
          / "i-tay"
          / "i-tsu"
          / "sgn-BE-FR"
          / "sgn-BE-NL"
          / "sgn-CH-DE"
regular = "art-lojban"        ; these tags match the 'langtag'
        / "cel-gaulish"       ; production, but their subtags
        / "no-bok"            ; are not extended language
        / "no-nyn"            ; or variant subtags: their meaning
        / "zh-guoyu"          ; is defined by their registration
        / "zh-hakka"          ; and all of these are deprecated
        / "zh-min"            ; in favor of a more modern
        / "zh-min-nan"        ; subtag or sequence of subtags
        / "zh-xiang"

注意: 幾乎所有grandfarthered標簽均可被當前registry的標簽及其組合作替代(像i-tao可以被tao代替)，因此如無意外請使用現行的標簽吧。

下面就到了我們的重頭戲langtag了,首先我們看看langtag下的第一個subtag——language.

Primary language subtag

像en這種就是Primary language subtag，用于標識資源所對應的語言。
語法:

language = 2*3ALPAH
           ["-" extlang]
         / 4ALPHA
         / 5*8ALPHA
extlang = 3ALPHA
          *2("-" 3ALPHA)

看到language有三種形式，其中讓我比較好奇的是第一種2*3ALPHA ["-" extlang]。這種形式中前面的2*3ALPHA稱為macrolanguage，用于標明資源對應一種語言的匯總，而具體的某一種語言/方言則通過extlang指定。而包含extlang部分的language也被稱為encompassed language.
如zh-cmn和zh-yue就是encompassed language，其中zh是macrolanguage，而cmn和yue則是extlang。
這里有個很有趣的事情是，我們認為普通話和廣東話等都是漢語的方言，但西方卻認為普通話、廣東話根本就不屬于一種語言，因此像zh-cmn和zh-yue在規范中被設置為redundant，建議直接使用cmn和yue等。不過由于歷史原因，我們還是使用zh-CN代表cmn-CN。
另外現在可以作為macrolanguage的就只有7個標簽(ar,kok,ms,sw,uz,zh和sgn)
另外幾個和cmn類似的subtags如下

cmn 普通話（官話、國語）
wuu 吳語（江浙話、上海話）
czh 徽語（徽州話、嚴州話、吳語-徽嚴片）
hak 客家語
yue 粵語（廣東話）
nan 閩南語（福建話、臺語）
cpx 莆仙話（莆田話、興化語）
cdo 閩東語
mnp 閩北語
zco 閩中語
gan 贛語（江西話）
hsn 湘語（湖南話）
cjy 晉語（山西話、陜北話）

注意: 一般采用全小寫

Script subtag

用于指定字跡或文字系統資源所屬的語言和方言等。
語法:

script = 4ALPHA

注意: 一般采用首字母大寫，后續字母全小寫

Region subtag

指定與國家、地域對應的語言/方言文化。
語法:

region = 2ALPHA
       / 3DIGIT

注意: 一般采用全大寫

Variant subtag

指定其他subtag又無法提供的額外信息
語法:

variant = 5*8alphanum
        / (DIGIT 3alphanum)

示例:de-CH-1996其中1996是variant subtag，整體意思是在Switzerland使用的自1996改良過的德語。

Extension subtag

提供一種機制讓我們去擴展langtag
語法:

extension = singleton 1*("-" (2*8alphanum))
singleton = DIGIT
          / %x41-57
          / %x59-5A
          / %x61-77
          / %x79-7A

現在僅支持u作為sigleton的值。
示例:de-DE-u-co-phonebk表示采用電話本核對的方式對內容進行排序等操作。

更多關于language-tag的信息請參考BCP 47

如何選擇Language Tag

硬著頭皮啃下這么多規范的內容，但我還不知道如何組合合適的language-tag呢:(其實選擇和組合的原則就只有一條
在足以區別當前上下文中其他language-tag的前提下，保持language-tag足夠地短小精干
示例1:下文普通話、粵語并存

<p lang="cmn">
小陳說:"老大爺，東方廣場怎么走啊？"
老大爺回答道:"<span lang="yue">你講咩也啊？我聽唔明喔。</span>"
</p>

示例2:下文含大陸人講英語、香港人講普通話和美國人說英語

<p lang="cmn">
小陳說:"<span lang="en-CN">Hi, where are you come from?</span>"
李先生說:"<span lang="cmn-HK">你的英文跟我的普通話一樣普通啊，哈哈！</span>"
Simon說:"<span lang="en">Hey, what's up!</span>"
</p>

那現在引出另一個問題，那就是我們怎么知道各個subtag具體定義了哪些值呢？
具體都定義在IANA Language Subtag Registry中了。
假如覺得查找起來還是不方便，那么就使用Language Subtag Lookup tool吧！
另外若不清楚各國各地區所使用的語言或方言時，可通過Ethnologue查看，直接點擊地圖上的區域即可獲取相應的subtag信息。

總結

現在我們已經對國際化和本地化有了更全面的理解，也對Language tag有了更深入的認識，現在是不是迫不及待想挽起袖子擼代碼呢？敬請期待下篇《JS魔法堂:不完全國際化&本地化手冊之實戰篇》
尊重原創，轉載請注明來自:　http://www.cnblogs.com/fsjohnhuang/p/5908028.html ^_^肥仔John

感謝

網頁頭部的聲明應該是用 lang="zh" 還是 lang="zh-cn"？
Language Subtag Registry
BCP 47
Language on the Web
Choosing a Language Tag
Language tags in HTML and XML

不含病毒。www.avast.com

AutoPoster

互聯網 - 大數據

AutoPoster 發表在痞客邦留言(0) 人氣()

E-mail轉寄

互聯網 - 大數據

本部落格為互聯網熱門頭條訊息管理中心

BloggerAds