AI Destekli Doküman Çevirisi ve OCR Aracı

Hugging Face MarianMT ve Tesseract OCR kullanarak PDF belgelerini çeviren, orijinal ve çevrilmiş metni yan yana karşılaştırmalı olarak sunan güçlü bir Python otomasyon hattı.

Python
Automation
Deep Learning
PyTorch
Computer Vision
OCR
Tesseract
Pillow
Natural Language Processing (NLP)
Hugging Face
Transformers
MarianMT

Genel Bakış

Bu araç, bağlamı koruyarak PDF belgelerinin çevirisini otomatize etmek için tasarlanmış kapsamlı bir çözümdür. Optik Karakter Tanıma (OCR) ile Nöral Makine Çevirisini (NMT) birleştirerek ham belge işleme ile gelişmiş yapay zeka çevirisi arasındaki boşluğu doldurur. Akademik veya profesyonel kullanım için ideal olan bu araç, doğrulama kolaylığı sağlamak adına orijinal metni ve çeviriyi yan yana gösteren yeniden yapılandırılmış bir PDF üretir.

Temel Özellikler

  • Hibrit Metin Çıkarma: Standart metinleri PyMuPDF ile çıkaran, gömülü metin içeren görseller için ise otomatik olarak Tesseract OCR teknolojisine geçen akıllı işlem hattı.
  • Son Teknoloji Çeviri: Yüksek kaliteli İngilizce-Türkçe çeviriler için Hugging Face üzerindeki Helsinki-NLP/opus-mt-tc-big-en-tr MarianMT modelini kullanır.
  • Yan Yana Düzen: Kaynak metni ve çevrilmiş metni aynı sayfada bitişik olarak yerleştiren benzersiz çıktı formatı.
  • Akıllı Optimizasyon: Daha önce işlenmiş dosyaları atlama mantığına sahiptir ve hızlandırılmış çıkarım (inference) için CUDA destekli GPU'ları otomatik olarak kullanır.
  • Kapsamlı Loglama: İlerlemeyi izlemek ve hataları yakalamak için translation_log.txt üzerinden detaylı takip sağlar.

Teknoloji Yığını

  • Çekirdek Mantık: Python
  • AI & ML: PyTorch, Transformers (Hugging Face)
  • PDF & Görüntü İşleme: PyMuPDF (Fitz), FPDF, Pillow
  • OCR Motoru: Tesseract
  • Donanım Desteği: CUDA (GPU Hızlandırma)