AI Destekli Doküman Çevirisi ve OCR Aracı

Genel Bakış

Bu araç, bağlamı koruyarak PDF belgelerinin çevirisini otomatize etmek için tasarlanmış kapsamlı bir çözümdür. Optik Karakter Tanıma (OCR) ile Nöral Makine Çevirisini (NMT) birleştirerek ham belge işleme ile gelişmiş yapay zeka çevirisi arasındaki boşluğu doldurur. Akademik veya profesyonel kullanım için ideal olan bu araç, doğrulama kolaylığı sağlamak adına orijinal metni ve çeviriyi yan yana gösteren yeniden yapılandırılmış bir PDF üretir.

Temel Özellikler

Hibrit Metin Çıkarma: Standart metinleri PyMuPDF ile çıkaran, gömülü metin içeren görseller için ise otomatik olarak Tesseract OCR teknolojisine geçen akıllı işlem hattı.
Son Teknoloji Çeviri: Yüksek kaliteli İngilizce-Türkçe çeviriler için Hugging Face üzerindeki Helsinki-NLP/opus-mt-tc-big-en-tr MarianMT modelini kullanır.
Yan Yana Düzen: Kaynak metni ve çevrilmiş metni aynı sayfada bitişik olarak yerleştiren benzersiz çıktı formatı.
Akıllı Optimizasyon: Daha önce işlenmiş dosyaları atlama mantığına sahiptir ve hızlandırılmış çıkarım (inference) için CUDA destekli GPU'ları otomatik olarak kullanır.
Kapsamlı Loglama: İlerlemeyi izlemek ve hataları yakalamak için translation_log.txt üzerinden detaylı takip sağlar.

Teknoloji Yığını

Çekirdek Mantık: Python
AI & ML: PyTorch, Transformers (Hugging Face)
PDF & Görüntü İşleme: PyMuPDF (Fitz), FPDF, Pillow
OCR Motoru: Tesseract
Donanım Desteği: CUDA (GPU Hızlandırma)