Spaces:
Running
on
Zero
Running
on
Zero
| # Mapping the BCP-47 codes used in the MADLAD-400 models to the language names | |
| # [MADLAD-400: A Multilingual And Document-Level Large Audited Dataset](https://arxiv.org/pdf/2309.04662) | |
| langid_to_language = { | |
| # Page 16 | |
| '<2en>': 'English', | |
| '<2ru>': 'Russian', | |
| '<2es>': 'Spanish', | |
| '<2fr>': 'French', | |
| '<2de>': 'German', | |
| '<2it>': 'Italian', | |
| '<2pt>': 'Portuguese', | |
| '<2pl>': 'Polish', | |
| '<2nl>': 'Dutch', | |
| '<2vi>': 'Vietnamese', | |
| '<2tr>': 'Turkish', | |
| '<2sv>': 'Swedish', | |
| '<2id>': 'Indonesian', | |
| '<2ro>': 'Romanian', | |
| '<2cs>': 'Czech', | |
| '<2zh>': 'Mandarin Chinese', | |
| '<2hu>': 'Hungarian', | |
| '<2ja>': 'Japanese', | |
| '<2th>': 'Thai', | |
| '<2fi>': 'Finnish', | |
| '<2fa>': 'Persian', | |
| '<2uk>': 'Ukrainian', | |
| '<2da>': 'Danish', | |
| '<2el>': 'Greek', | |
| '<2no>': 'Norwegian', | |
| '<2bg>': 'Bulgarian', | |
| '<2sk>': 'Slovak', | |
| '<2ko>': 'Korean', | |
| '<2ar>': 'Arabic', | |
| '<2lt>': 'Lithuanian', | |
| '<2ca>': 'Catalan', | |
| '<2sl>': 'Slovenian', | |
| '<2he>': 'Hebrew', | |
| '<2et>': 'Estonian', | |
| '<2lv>': 'Latvian', | |
| '<2hi>': 'Hindi', | |
| '<2sq>': 'Albanian', | |
| '<2ms>': 'Malay', | |
| '<2az>': 'Azerbaijani', | |
| '<2sr>': 'Serbian', | |
| '<2ta>': 'Tamil', | |
| '<2hr>': 'Croatian', | |
| '<2kk>': 'Kazakh', | |
| '<2is>': 'Icelandic', | |
| '<2ml>': 'Malayalam', | |
| '<2mr>': 'Marathi', | |
| '<2te>': 'Telugu', | |
| '<2af>': 'Afrikaans', | |
| '<2gl>': 'Galician', | |
| '<2fil>': 'Filipino', | |
| '<2be>': 'Belarusian', | |
| # Page 17 | |
| '<2mk>': 'Macedonian', | |
| '<2eu>': 'Basque', | |
| '<2bn>': 'Bengali', | |
| '<2ka>': 'Georgian', | |
| '<2mn>': 'Mongolian', | |
| '<2bs>': 'Bosnian', | |
| '<2uz>': 'Uzbek', | |
| '<2ur>': 'Urdu', | |
| '<2sw>': 'Swahili', | |
| '<2yue>': 'Cantonese', | |
| '<2ne>': 'Nepali', | |
| '<2kn>': 'Kannada', | |
| '<2kaa>': 'Kara-Kalpak', | |
| '<2gu>': 'Gujarati', | |
| '<2si>': 'Sinhala', | |
| '<2cy>': 'Welsh', | |
| '<2eo>': 'Esperanto', | |
| '<2la>': 'Latin', | |
| '<2hy>': 'Armenian', | |
| '<2ky>': 'Kyrghyz', | |
| '<2tg>': 'Tajik', | |
| '<2ga>': 'Irish', | |
| '<2mt>': 'Maltese', | |
| '<2my>': 'Myanmar (Burmese)', | |
| '<2km>': 'Khmer', | |
| '<2tt>': 'Tatar', | |
| '<2so>': 'Somali', | |
| '<2ku>': 'Kurdish (Kurmanji)', | |
| '<2ps>': 'Pashto', | |
| '<2pa>': 'Punjabi', | |
| '<2rw>': 'Kinyarwanda', | |
| '<2lo>': 'Lao', | |
| '<2ha>': 'Hausa', | |
| '<2dv>': 'Dhivehi', | |
| '<2fy>': 'W. Frisian', | |
| '<2lb>': 'Luxembourgish', | |
| '<2ckb>': 'Kurdish (Sorani)', | |
| '<2mg>': 'Malagasy', | |
| '<2gd>': 'Scottish Gaelic', | |
| '<2am>': 'Amharic', | |
| '<2ug>': 'Uyghur', | |
| '<2ht>': 'Haitian Creole', | |
| '<2grc>': 'Ancient Greek', | |
| '<2hmn>': 'Hmong', | |
| '<2sd>': 'Sindhi', | |
| '<2jv>': 'Javanese', | |
| '<2mi>': 'Maori', | |
| '<2tk>': 'Turkmen', | |
| '<2ceb>': 'Cebuano', | |
| '<2yi>': 'Yiddish', | |
| '<2ba>': 'Bashkir', | |
| '<2fo>': 'Faroese', | |
| '<2or>': 'Odia (Oriya)', | |
| '<2xh>': 'Xhosa', | |
| '<2su>': 'Sundanese', | |
| '<2kl>': 'Kalaallisut', | |
| '<2ny>': 'Chichewa', | |
| '<2sm>': 'Samoan', | |
| '<2sn>': 'Shona', | |
| '<2co>': 'Corsican', | |
| '<2zu>': 'Zulu', | |
| '<2ig>': 'Igbo', | |
| '<2yo>': 'Yoruba', | |
| '<2pap>': 'Papiamento', | |
| '<2st>': 'Sesotho', | |
| '<2haw>': 'Hawaiian', | |
| '<2as>': 'Assamese', | |
| '<2oc>': 'Occitan', | |
| '<2cv>': 'Chuvash', | |
| '<2lus>': 'Mizo', | |
| '<2tet>': 'Tetum', | |
| '<2gsw>': 'Swiss German', | |
| '<2sah>': 'Yakut', | |
| '<2br>': 'Breton', | |
| '<2rm>': 'Romansh', | |
| '<2sa>': 'Sanskrit', | |
| '<2bo>': 'Tibetan', | |
| '<2om>': 'Oromo', | |
| '<2se>': 'N. Sami', | |
| '<2ce>': 'Chechen', | |
| '<2cnh>': 'Hakha Chin', | |
| # Page 18 | |
| '<2ilo>': 'Ilocano', | |
| '<2hil>': 'Hiligaynon', | |
| '<2udm>': 'Udmurt', | |
| '<2os>': 'Ossetian', | |
| '<2lg>': 'Luganda', | |
| '<2ti>': 'Tigrinya', | |
| '<2vec>': 'Venetian', | |
| '<2ts>': 'Tsonga', | |
| '<2tyv>': 'Tuvinian', | |
| '<2kbd>': 'Kabardian', | |
| '<2ee>': 'Ewe', | |
| '<2iba>': 'Iban', | |
| '<2av>': 'Avar', | |
| '<2kha>': 'Khasi', | |
| '<2to>': 'Tonga (Tonga Islands)', | |
| '<2tn>': 'Tswana', | |
| '<2nso>': 'Sepedi', | |
| '<2fj>': 'Fijian', | |
| '<2zza>': 'Zaza', | |
| '<2ak>': 'Twi', | |
| '<2ada>': 'Adangme', | |
| '<2otq>': 'Querétaro Otomi', | |
| '<2dz>': 'Dzongkha', | |
| '<2bua>': 'Buryat', | |
| '<2cfm>': 'Falam Chin', | |
| '<2ln>': 'Lingala', | |
| '<2chm>': 'Meadow Mari', | |
| '<2gn>': 'Guarani', | |
| '<2krc>': 'Karachay-Balkar', | |
| '<2wa>': 'Walloon', | |
| '<2hif>': 'Fiji Hindi', | |
| '<2yua>': 'Yucateco', | |
| '<2srn>': 'Sranan Tongo', | |
| '<2war>': 'Waray (Philippines)', | |
| '<2rom>': 'Romani', | |
| '<2bik>': 'Central Bikol', | |
| '<2pam>': 'Pampanga', | |
| '<2sg>': 'Sango', | |
| '<2lu>': 'Luba-Katanga', | |
| '<2ady>': 'Adyghe', | |
| '<2kbp>': 'Kabiyè', | |
| '<2syr>': 'Syriac', | |
| '<2ltg>': 'Latgalian', | |
| '<2myv>': 'Erzya', | |
| '<2iso>': 'Isoko', | |
| '<2kac>': 'Kachin', | |
| '<2bho>': 'Bhojpuri', | |
| '<2ay>': 'Aymara', | |
| '<2kum>': 'Kumyk', | |
| '<2qu>': 'Quechua', | |
| '<2za>': 'Zhuang', | |
| '<2pag>': 'Pangasinan', | |
| '<2ngu>': 'Guerrero Nahuatl', | |
| '<2ve>': 'Venda', | |
| '<2pck>': 'Paite Chin', | |
| '<2zap>': 'Zapotec', | |
| '<2tyz>': 'Tày', | |
| '<2hui>': 'Huli', | |
| '<2bbc>': 'Batak Toba', | |
| '<2tzo>': 'Tzotzil', | |
| '<2tiv>': 'Tiv', | |
| '<2ksd>': 'Kuanua', | |
| '<2gom>': 'Goan Konkani', | |
| '<2min>': 'Minangkabau', | |
| '<2ang>': 'Old English', | |
| '<2nhe>': 'E. Huasteca Nahuatl', | |
| '<2bgp>': 'E. Baluchi', | |
| '<2nzi>': 'Nzima', | |
| '<2nnb>': 'Nande', | |
| '<2nv>': 'Navajo', | |
| # '<2zxx>': 'Noise', | |
| '<2bci>': 'Baoulé', | |
| '<2kv>': 'Komi', | |
| '<2new>': 'Newari', | |
| '<2mps>': 'Dadibi', | |
| '<2alt>': 'S. Altai', | |
| '<2meu>': 'Motu', | |
| '<2bew>': 'Betawi', | |
| '<2fon>': 'Fon', | |
| '<2iu>': 'Inuktitut', | |
| '<2abt>': 'Ambulas', | |
| # Page 19 | |
| '<2mgh>': 'Makhuwa-Meetto', | |
| '<2mnw>': 'Mon', | |
| '<2tvl>': 'Tuvalu', | |
| '<2dov>': 'Dombe', | |
| '<2tlh>': 'Klingon', | |
| '<2ho>': 'Hiri Motu', | |
| '<2kw>': 'Cornish', | |
| '<2mrj>': 'Hill Mari', | |
| '<2meo>': 'Kedah Malay', | |
| '<2crh>': 'Crimean Tatar', | |
| '<2mbt>': 'Matigsalug Manobo', | |
| '<2emp>': 'N. Emberá', | |
| '<2ace>': 'Achinese', | |
| '<2ium>': 'Iu Mien', | |
| '<2mam>': 'Mam', | |
| '<2gym>': 'Ngäbere', | |
| '<2mai>': 'Maithili', | |
| '<2crs>': 'Seselwa Creole French', | |
| '<2pon>': 'Pohnpeian', | |
| '<2ubu>': 'Umbu-Ungu', | |
| '<2fip>': 'Fipa', | |
| '<2quc>': 'K’iche’', | |
| '<2gv>': 'Manx', | |
| '<2kj>': 'Kuanyama', | |
| '<2btx>': 'Batak Karo', | |
| '<2ape>': 'Bukiyip', | |
| '<2chk>': 'Chuukese', | |
| '<2rcf>': 'Réunion Creole French', | |
| '<2shn>': 'Shan', | |
| '<2tzh>': 'Tzeltal', | |
| '<2mdf>': 'Moksha', | |
| '<2ppk>': 'Uma', | |
| '<2ss>': 'Swati', | |
| '<2gag>': 'Gagauz', | |
| '<2cab>': 'Garifuna', | |
| '<2kri>': 'Krio', | |
| '<2seh>': 'Sena', | |
| '<2ibb>': 'Ibibio', | |
| '<2tbz>': 'Ditammari', | |
| '<2bru>': 'E. Bru', | |
| '<2enq>': 'Enga', | |
| '<2ach>': 'Acoli', | |
| '<2cuk>': 'San Blas Kuna', | |
| '<2kmb>': 'Kimbundu', | |
| '<2wo>': 'Wolof', | |
| '<2kek>': 'Kekchí', | |
| '<2qub>': 'Huallaga Huánuco Quechua', | |
| '<2tab>': 'Tabassaran', | |
| '<2bts>': 'Batak Simalungun', | |
| '<2kos>': 'Kosraean', | |
| '<2rwo>': 'Rawa', | |
| '<2cak>': 'Kaqchikel', | |
| '<2tuc>': 'Mutu', | |
| '<2bum>': 'Bulu', | |
| '<2cjk>': 'Chokwe', | |
| '<2gil>': 'Gilbertese', | |
| '<2stq>': 'Saterfriesisch', | |
| '<2tsg>': 'Tausug', | |
| '<2quh>': 'S. Bolivian Quechua', | |
| '<2mak>': 'Makasar', | |
| '<2arn>': 'Mapudungun', | |
| '<2ban>': 'Balinese', | |
| '<2jiv>': 'Shuar', | |
| '<2sja>': 'Epena', | |
| '<2yap>': 'Yapese', | |
| '<2tcy>': 'Tulu', | |
| '<2toj>': 'Tojolabal', | |
| '<2twu>': 'Termanu', | |
| '<2xal>': 'Kalmyk', | |
| '<2amu>': 'Guerrero Amuzgo', | |
| '<2rmc>': 'Carpathian Romani', | |
| '<2hus>': 'Huastec', | |
| '<2nia>': 'Nias', | |
| '<2kjh>': 'Khakas', | |
| '<2bm>': 'Bambara', | |
| '<2guh>': 'Guahibo', | |
| '<2mas>': 'Masai', | |
| '<2acf>': 'St Lucian Creole French', | |
| '<2dtp>': 'Kadazan Dusun', | |
| '<2ksw>': 'S’gaw Karen', | |
| '<2bzj>': 'Belize Kriol English', | |
| # Page 20 | |
| '<2din>': 'Dinka', | |
| '<2zne>': 'Zande', | |
| '<2mad>': 'Madurese', | |
| '<2msi>': 'Sabah Malay', | |
| '<2mag>': 'Magahi', | |
| '<2mkn>': 'Kupang Malay', | |
| '<2kg>': 'Kongo', | |
| '<2lhu>': 'Lahu', | |
| '<2ch>': 'Chamorro', | |
| '<2qvi>': 'Imbabura H. Quichua', | |
| '<2mh>': 'Marshallese', | |
| '<2djk>': 'E. Maroon Creole', | |
| '<2sus>': 'Susu', | |
| '<2mfe>': 'Morisien', | |
| '<2srm>': 'Saramaccan', | |
| '<2dyu>': 'Dyula', | |
| '<2ctu>': 'Chol', | |
| '<2gui>': 'E. Bolivian Guaraní', | |
| '<2pau>': 'Palauan', | |
| '<2inb>': 'Inga', | |
| '<2bi>': 'Bislama', | |
| '<2mni>': 'Meiteilon (Manipuri)', | |
| '<2guc>': 'Wayuu', | |
| '<2jam>': 'Jamaican Creole English', | |
| '<2wal>': 'Wolaytta', | |
| '<2jac>': 'Popti’', | |
| '<2bas>': 'Basa (Cameroon)', | |
| '<2gor>': 'Gorontalo', | |
| '<2skr>': 'Saraiki', | |
| '<2nyu>': 'Nyungwe', | |
| '<2noa>': 'Woun Meu', | |
| '<2sda>': 'Toraja-Sa’dan', | |
| '<2gub>': 'Guajajára', | |
| '<2nog>': 'Nogai', | |
| '<2cni>': 'Asháninka', | |
| '<2teo>': 'Teso', | |
| '<2tdx>': 'Tandroy-Mahafaly Malagasy', | |
| '<2sxn>': 'Sangir', | |
| '<2rki>': 'Rakhine', | |
| '<2nr>': 'South Ndebele', | |
| '<2frp>': 'Arpitan', | |
| '<2alz>': 'Alur', | |
| '<2taj>': 'E. Tamang', | |
| '<2lrc>': 'N. Luri', | |
| '<2cce>': 'Chopi', | |
| '<2rn>': 'Rundi', | |
| '<2jvn>': 'Caribbean Javanese', | |
| '<2hvn>': 'Sabu', | |
| '<2nij>': 'Ngaju', | |
| '<2dwr>': 'Dawro', | |
| '<2izz>': 'Izii', | |
| '<2msm>': 'Agusan Manobo', | |
| '<2bus>': 'Bokobaru', | |
| '<2ktu>': 'Kituba (DRC)', | |
| '<2chr>': 'Cherokee', | |
| '<2maz>': 'Central Mazahua', | |
| '<2tzj>': ' Tz’utujil', | |
| '<2suz>': 'Sunwar', | |
| '<2knj>': 'W. Kanjobal', | |
| '<2bim>': 'Bimoba', | |
| '<2gvl>': 'Gulay', | |
| '<2bqc>': 'Boko (Benin)', | |
| '<2tca>': 'Ticuna', | |
| '<2pis>': 'Pijin', | |
| '<2prk>': 'Parauk', | |
| '<2laj>': 'Lango (Uganda)', | |
| '<2mel>': 'Central Melanau', | |
| '<2qxr>': 'Cañar H. Quichua', | |
| '<2niq>': 'Nandi', | |
| '<2ahk>': 'Akha', | |
| '<2shp>': 'Shipibo-Conibo', | |
| '<2hne>': 'Chhattisgarhi', | |
| '<2spp>': 'Supyyire Senoufo', | |
| '<2koi>': 'Komi-Permyak', | |
| '<2krj>': 'Kinaray-A', | |
| '<2quf>': 'Lambayeque Quechua', | |
| '<2luz>': 'S. Luri', | |
| '<2agr>': 'Aguaruna', | |
| '<2tsc>': 'Tswa', | |
| '<2mqy>': 'Manggarai', | |
| '<2gof>': 'Gofa', | |
| # Page 21 | |
| '<2gbm>': 'Garhwali', | |
| '<2miq>': 'Mískito', | |
| '<2dje>': 'Zarma', | |
| '<2awa>': 'Awadhi', | |
| '<2bjj>': 'Kanauji', | |
| '<2qvz>': 'N. Pastaza Quichua', | |
| '<2sjp>': 'Surjapuri', | |
| '<2tll>': 'Tetela', | |
| '<2raj>': 'Rajasthani', | |
| '<2kjg>': 'Khmu', | |
| '<2bgz>': 'Banggai', | |
| '<2quy>': 'Ayacucho Quechua', | |
| '<2cbk>': 'Chavacano', | |
| '<2akb>': 'Batak Angkola', | |
| '<2oj>': 'Ojibwa', | |
| '<2ify>': 'Keley-I Kallahan', | |
| '<2mey>': 'Hassaniyya', | |
| '<2ks>': 'Kashimiri', | |
| '<2cac>': 'Chuj', | |
| '<2brx>': 'Bodo (India)', | |
| '<2qup>': 'S. Pastaza Quechua', | |
| '<2syl>': 'Sylheti', | |
| '<2jax>': 'Jambi Malay', | |
| '<2ff>': 'Fulfulde', | |
| '<2ber>': 'Tamazight (Tfng)', | |
| '<2tks>': 'Takestani', | |
| '<2trp>': 'Kok Borok', | |
| '<2mrw>': 'Maranao', | |
| '<2adh>': 'Adhola', | |
| '<2smt>': 'Simte', | |
| '<2srr>': 'Serer', | |
| '<2ffm>': 'Maasina Fulfulde', | |
| '<2qvc>': 'Cajamarca Quechua', | |
| '<2mtr>': 'Mewari', | |
| '<2ann>': 'Obolo', | |
| '<2kaa-Latn>': 'Kara-Kalpak (Latn)', | |
| '<2aa>': 'Afar', | |
| '<2noe>': 'Nimadi', | |
| '<2nut>': 'Nung (Viet Nam)', | |
| '<2gyn>': 'Guyanese Creole English', | |
| '<2kwi>': 'Awa-Cuaiquer', | |
| '<2xmm>': 'Manado Malay', | |
| '<2msb>': 'Masbatenyo' | |
| } | |