chr

Cherokee ᏣᎳᎩ

ISO 639-3: chr I L

4,160 Words in vocabulary

3.55x Best compression

0.2412 Best isotropy

Sample text

Excerpts from Cherokee Wikipedia articles.

ᏅᏓᎩ"Consortium Word List." (nvdagi) () ᎦᏚᎲᎢ ᎡᏉ ᏄᏲᎪᎢ, ᏄᏲᎩ, ᎠᎹᏰᏟ. ᏙᏯᏗᏢ ᏗᏕᎬᏔᏛ be ch...

ᏳᏈᎳ"Consortium Word List." (yuquila) (). ᏓᏓᏚᎬ ᎪᏪᎵ ᏙᏯᏗᏢ ᏗᏕᎬᏔᏛ be checked

ᎦᏢᏍᏙᏗ"Consortium Word List." (gatlvsdodi). ᏓᏓᏚᎬ ᎪᏪᎵ ᏙᏯᏗᏢ ᏗᏕᎬᏔᏛ ᎠᎦᏎᏍᏔᏅ be checked

The 20 most frequently used words in Cherokee Wikipedia.

Explore Cherokee interactively with browser-based demos.

Key metrics for all model types at a glance.

from wikilangs import tokenizer
tok = tokenizer('latest', 'chr', 32000)
tokens = tok.tokenize("Your text here")

from wikilangs import ngram
ng = ngram('latest', 'chr', gram_size=3)
score = ng.score("Your text here")

from wikilangs import markov
mc = markov('latest', 'chr', depth=3)
text = mc.generate(length=50)

from wikilangs import vocabulary
vocab = vocabulary('latest', 'chr')
info = vocab.lookup("word")

from wikilangs import embeddings
emb = embeddings('latest', 'chr', dimension=64)
vec = emb.embed_word("word")

Model Type	Variants	Description
Tokenizers	8k, 16k, 32k, 64k	BPE tokenizers with different vocabulary sizes
N-gram (Word)	2, 3, 4, 5-gram	Word-level language models
N-gram (Subword)	2, 3, 4, 5-gram	Subword-level language models
Markov (Word)	Depth 1–5	Word-level text generation
Markov (Subword)	Depth 1–5	Subword-level text generation
Vocabulary	—	Word dictionary with frequency and IDF
Embeddings	32d, 64d, 128d	Position-aware word embeddings