This is probably one of my favourite techincal post of all times because this post addresses a requirement whose solution which I had been searching for years. Before I proceed further I would like to tell about OCR to the readers who are not aware of it. We all are familiar with scanning the documents and saving them as PDF / JPG. But we can't edit the document in any word processing software like MS Word or Wordpad. So to edit a scanned document, it has to be converted into "editable" document. Here is where the OCR comes in.
Most of the scanners have inbuilt Optical Character Recognition (OCR) software in-built which scans the physical document into editable soft document with MS Word or any equivalent word processing software. However the problem is that the OCRs are capable of recognizing English language but I am yet to come across any commercial OCR that can recognise Indian languages.
I have been searching for a Tamil OCR since 2006 as I wanted to convert by physical book collection into soft copies. There was an Open Source OCR which specified the image file should be in BMP file of minimum 200 dpi and I even tried that but unsuccessful in getting it worked. I even spoke to the developer team over the phone and they said that it is working fine for them. I gave up...
Yesterday when I intuitively searched for Google OCR because Google is developing an e-library, so they must have some solution for Indian language books scanning. As expected, there was a simple solution and when I tested it with a page of Sujatha's "Aaa..!" novel scanned copy which I downloaded from Scribd.com, my eyes popped out with surprise / shock that I was able to "convert" the *.jpg image file into an editable text file... That too without the need of installing additional software and more of ease.. it was online straight from the Google Drive.
I tested the same for another Indian Language which I can read & write - Malayalam and the result was perfect. The OCR translation is as good as the scan quality but it assured a minimum of 95% accuracy and an additional effort to format the text.
I am enclosing the screenshots of the image file and the converted text here.
Tamil Image
Tamil Text
“அவங்களைப் பொறுத்த வரையிலும் இந்தப் பிரதேசத்துக்கு பிராஜக்ட் ஆபிஸர்தான், ராஜா மாதிரி. அதனால் கொஞ்ம் கர்வம் இருக்கலாம். கொஞ்சம் கர்வத்தை மத்த எல்லாரும் சகிச்சுக்கத்தான் வேணும். ஆனா அப்பனைச் சந்துச்சு அவரோட பேசிருக்கேனே! அப்படி ஒண்ணும் அகராதி பிடிச்ச ஆளாத் தெரியலையே."
"பொண்ணு சுகமில்லை.”
தோட்டத்துக்குப் போய் வாழை இலை அறுத்துவந்து அலம்பித் தரையில் போடுவதற்கு முன் வாயிற் கதவைத் தட்டும் சப்தம் கேட்டது. “யாரு பாரு, சாப்பிடற வேளையில், பிரேக் டவுன்னா நான் வீட்டில இல்லைன்னு சொல்லிரு. இப்பதான் நிம்மதியா வந்து உட்கார்ந்தேன்."
ரகு வாயிற் பக்கம் சென்றான். கதவைத் திறந்ததும் இரண்டு சைக்கிளைப் பார்த்தான். மதுமிதாவும் சுதாகரும் நின்றுக்கொண்டிருந்தார்கள். இவனைப் பார்த்ததும் சற்றுத் தயக்கத்துடன் ஒருவரை ஒருவர் பார்த்துக்கொண்டு அந்தப் பையன் மென்று விழுங்கி "அங்கிள் ஐம் ஸாரி”
Malayalam Image
Malayalam Text
കടലിനരിക്കരയുള്ള നാട്ടിൽ മലയാളം പാട്ടുകൾ പാടി പാറിനടക്കുന്ന കുഞ്ഞുകുട്ടികളുടെ ഒരു വലിയ കൂട്ടം തന്നെയുണ്ട്. അക്കൂട്ടത്തിലൊരാളാണ് ഷാർജയിൽ നിന്നുള്ള അശ്വതി നായർ എന്ന പത്തു വയസുകാരി. മിനുങ്ങും മിന്നാമിനുങ്ങേ എന്ന പാട്ടു കേൾക്കുമ്പോൾ ശ്രേയ കുട്ടിയുടെ എപ്പോഴും ചിരിക്കുന്ന ആ മുഖത്തിനൊപ്പം ഓർമ വരും അശ്വതിയേയും.
Procedure:-
1. Get all the pages in a good quality image files. This can be done via any desktop Scanner in case of physical documents. In case of converting Tamil PDF documents to editable text, you can use the online services like PdgfToImage.com or Zamzaar.com
2. Upload the page images to Google Drive using your Google id.
3. Right click the page image as choose "Open with" and point to "Google Docs"
4. In the new window / tab, you can see the image embeded followed by the converted text, which you can copy and paste in the word editor.
http://onlinegalatta.com/index.php/computers/71-multimedia-editing/747-convert-indian-languages-page-scan-to-editable-text#sigProIdb848cd7454
Depending on the quality of the scan, you can find the texts and formatting in the proportional quality. You might need manual formatting / removal of cryptic characters before you use the text.