Metinleri PDF'lerden çıkarmak zordur ve neredeyse her zaman çok fazla özen gerektirir.
Pdftotext gibi komut satırı araçlarıyla başlayıp ne tükettiklerini görün. Sorun, PDF'lerin metni herhangi bir sıraya göre saklayabilmesi, garip font kodlamalarını kullanabilmeleri ve sizi atamak için ligat karakterleri (uygun dizgede gördüğünüz 'ff' ve 'ij') gibi işlemleri yapabilmeleridir.
pdftotext herhangi bir Linux sisteminde kurulabilir ...