Contents:

About IDP

Intelligent Document Processing (IDP) - it is enterprise level solution for end-to-end intelligent document processing. IDP Solution is designed to intelligently process scanned or digitally generated documents (images) of different format.

High-level IDP diagram

Supported OCR Engines

The elDoc IDP system supports multiple OCR engines, allowing flexibility in accuracy, performance, and deployment scenarios.

Tesseract
elDoc IDP includes a built-in OCR engine based on the latest version of Tesseract, enhanced to deliver optimal recognition accuracy. (See Supported Languages below)
Google Vision API
elDoc IDP can be configured to use Google Vision API for OCR processing, providing high accuracy and robust language support. For more details and languages support, refer to Google Vision API Supported Languages.
PaddleOCR API
elDoc IDP can integrate with PaddleOCR, a high-performance open-source OCR framework optimized for multilingual text detection and recognition. PaddleOCR offers strong accuracy for complex layouts, supports a wide range of languages, and is particularly effective for structured documents and dense text scenarios. PaddleOCR can be also deployed on-prem.
VL Model API
Enables AI/LLM-based OCR using OpenAI API, leveraging vision-language models for advanced document understanding, including complex layouts, context-aware extraction, and semantic interpretation. VL model can be deployed on-prem using ollama, vLLM, llama.cpp, etc.

Tesseract Supported languages

##	Language (English name)	Code in the system
1	Afrikaans	afr
2	Albanian	sqi
3	Amharic	amh
4	Arabic	ara
5	Armenian	hye
6	Assamese	asm
7	Azerbaijani	aze
8	Azerbaijani - Cyrillic	aze_cyrl
9	Basque	eus
10	Belarusian	bel
11	Bengali	ben
12	Bosnian	bos
13	Breton	bre
14	Bulgarian	bul
15	Burmese	mya
16	Catalan; Valencian	cat
17	Cebuano	ceb
18	Central Khmer	khm
19	Cherokee	chr
20	Chinese - Simplified	chi_sim
21	Chinese - Simplified (Vertical)	chi_sim_vert
22	Chinese - Traditional	chi_tra
23	Chinese - Traditional (Vertical)	chi_tra_vert
24	Corsican	cos
25	Croatian	hrv
26	Czech	ces
27	Danish	dan
28	Dutch; Flemish	nld
29	Dzongkha	dzo
30	English	eng
31	English, Middle (1100-1500)	enm
32	Esperanto	epo
33	Estonian	est
34	Faroese	fao
35	Filipino	fil
36	Finnish	fin
37	French	fra
38	French, Middle (ca. 1400-1600)	frm
39	Western Frisian	fry
40	Galician	glg
41	Georgian	kat
42	Georgian - Old	kat_old
43	German	deu
44	German Fraktur	deu_frak
45	Greek, Ancient (-1453)	grc
46	Greek, Modern (1453-)	ell
47	Gujarati	guj
48	Haitian; Haitian Creole	hat
49	Hebrew	heb
50	Hindi	hin
51	Hungarian	hun
52	Icelandic	isl
53	Indonesian	ind
54	Inuktitut	iku
55	Irish	gle
56	Italian	ita
57	Italian - Old	ita_old
58	Japanese	jpn
59	Japanese (Vertical)	jpn_vert
60	Javanese	jav
61	Kannada	kan
62	Kazakh	kaz
63	Kirghiz; Kyrgyz	kir
64	Korean	kor
65	Korean (Vertical)	kor_vert
66	Kurdish (Arabic Script)	kur
67	Lao	lao
68	Latin	lat
69	Latvian	lav
70	Lithuanian	lit
71	Macedonian	mkd
72	Malay	msa
73	Malayalam	mal
74	Maltese	mlt
75	Maori	mri
76	Marathi	mar
77	Mongolian	mon
78	Nepali	nep
79	Norwegian	nor
80	Occitan (post 1500)	oci
81	Oriya	ori
82	Panjabi; Punjabi	pan
83	Persian	fas
84	Polish	pol
85	Portuguese	por
86	Pushto; Pashto	pus
87	Quechua	que
88	Romanian; Moldavian; Moldovan	ron
89	Russian	rus
90	Sanskrit	san
91	Scottish Gaelic	gla
92	Serbian	srp
93	Serbian - Latin	srp_latn
94	Sindhi	snd
95	Sinhala; Sinhalese	sin
96	Slovak	slk
97	Slovenian	slv
98	Spanish; Castilian	spa
99	Sunda	sun
100	Swahili	swa
101	Swedish	swe
102	Syriac	syr
103	Tajik	tgk
104	Tamil	tam
105	Tatar	tat
106	Telugu	tel
107	Thai	tha
108	Tibetan	bod
109	Tigrinya	tir
110	Turkish	tur
111	Uighur; Uyghur	uig
112	Ukrainian	ukr
113	Urdu	urd
114	Uzbek	uzb
115	Uzbek - Cyrillic	uzb_cyrl
116	Vietnamese	vie
117	Welsh	cym
118	Yiddish	yid
119	Yoruba	yor