Oriya ଓଡ଼ିଆ

ISO 639-1: or ISO 639-3: ori M L

136,870 Words in vocabulary

4.96x Best compression

0.8415 Best isotropy

Sample text

Excerpts from Oriya Wikipedia articles.

ଘଟଣାବଳୀ ଜନ୍ମ କଳ୍ପନା ଦାଶ, ପର୍ବତାରୋହୀ ମୃତ୍ୟୁ ପର୍ବପର୍ବାଣି ବାହାର ଲିଙ୍କ BBC: ଏହି ଦିନ ...

ଘଟଣାବଳୀ ଜନ୍ମ ଦେହାନ୍ତ ପର୍ବପର୍ବାଣି ବାହାର ଲିଙ୍କ BBC: ଏହି ଦିନ କାନାଡାରେ ଏହି ଦିନ ତିଆରି...

ଆମଷ୍ଟରଡ଼ମ, ନେଦରଲାଣ୍ଡର ରାଜଧାନୀ । ଭୂଗୋଳ ଇତିହାସ ପର୍ଯ୍ୟଟନ ଆଧାର ବାହାର ତଥ୍ୟ ସହର

The 20 most frequently used words in Oriya Wikipedia.

Explore Oriya interactively with browser-based demos.

Key metrics for all model types at a glance.

from wikilangs import tokenizer
tok = tokenizer('latest', 'or', 32000)
tokens = tok.tokenize("Your text here")

from wikilangs import ngram
ng = ngram('latest', 'or', gram_size=3)
score = ng.score("Your text here")

from wikilangs import markov
mc = markov('latest', 'or', depth=3)
text = mc.generate(length=50)

from wikilangs import vocabulary
vocab = vocabulary('latest', 'or')
info = vocab.lookup("word")

from wikilangs import embeddings
emb = embeddings('latest', 'or', dimension=64)
vec = emb.embed_word("word")

Model Type	Variants	Description
Tokenizers	8k, 16k, 32k, 64k	BPE tokenizers with different vocabulary sizes
N-gram (Word)	2, 3, 4, 5-gram	Word-level language models
N-gram (Subword)	2, 3, 4, 5-gram	Subword-level language models
Markov (Word)	Depth 1–5	Word-level text generation
Markov (Subword)	Depth 1–5	Subword-level text generation
Vocabulary	—	Word dictionary with frequency and IDF
Embeddings	32d, 64d, 128d	Position-aware word embeddings