OCR Destekli AI PDF Çeviri Aracı
Hugging Face MarianMT ve Tesseract OCR kullanarak PDF belgelerini çeviren, mizanpajı koruyarak orijinal ve çevrilmiş metni yan yana sunan Python tabanlı otomasyon aracı.
Genel Bakış
Bu proje, içerik yapısını koruyarak PDF belgelerini çevirmek için tasarlanmış otomatik bir araçtır. Metin çevirisi için gelişmiş Doğal Dil İşleme (NLP) tekniklerini kullanır (özellikle MarianMT modeli ile İngilizce-Türkçe iş akışları için) ve PDF içindeki gömülü görsellerden metin çıkarmak için Optik Karakter Tanıma (OCR) teknolojisinden yararlanır.
Temel Özellikler
- Akıllı Metin Çıkarma: Standart metinler için
PyMuPDF, görsel içindeki metinler için iseTesseract OCRkullanır. - Nöral Makine Çevirisi: Yüksek kaliteli çeviriler için Hugging Face Transformers üzerinden
Helsinki-NLP/opus-mt-tc-big-en-trMarianMT modelinden güç alır. - PDF Yeniden Oluşturma: Kolay karşılaştırma yapılabilmesi için hem orijinal hem de çevrilmiş metni yan yana içeren yeni bir PDF belgesi oluşturur.
- Akıllı Önbellekleme: İşlem süresini optimize etmek için daha önce çevrilmiş dosyaları algılar ve atlar.
- Donanım Hızlandırma: PyTorch ile çıkarım (inference) sürecini hızlandırmak için CUDA destekli GPU'ları otomatik olarak algılar.
Teknoloji Yığını
- Dil: Python
- ML & NLP: PyTorch, Transformers (Hugging Face)
- PDF & Görüntü İşleme: PyMuPDF (fitz), FPDF, Pillow, Pytesseract
- Sistem: Tesseract OCR motoru
Geliştirme Notları
Bu araç başlangıçta akademik ders materyallerinin çevrisine yardımcı olmak amacıyla geliştirilmiştir. Telif hakkı ihlali olmadan işlevselliği halka açık olarak sergileyebilmek için, depo içerisinde rastgele örnek PDF'ler oluşturan bir script ve test amaçlı kamu malı belgeler (örn. "Bağımsızlık Bildirgesi") bulunmaktadır.
Performans Notu: GPU tabanlı çoklu işlem (multiprocessing) yöntemleri araştırılmış olsa da, araç şu anda dosya başına yaklaşık 15 saniyelik işlem hızıyla kararlılık (stability) için optimize edilmiştir.