R kullanarak PDF kazıma

XML paketlerini ayıklamak için PDF paketini başarıyla kullanıyorum ancak PDF'lere genişletmek istiyorum. Önceki sorulardan, basit bir R çözümünün olduğu görünmüyor, ancak yeni bir gelişme olup olmadığını merak ediyor.

Başarısız, Python'da (tam bir Novice olduğum) bir yol var mı? ve pdfs'yi işleyerek R xml paketi ile işi bitirebilirim

10

4 cevap

Metinleri PDF'lerden çıkarmak zordur ve neredeyse her zaman çok fazla özen gerektirir.

Pdftotext gibi komut satırı araçlarıyla başlayıp ne tükettiklerini görün. Sorun, PDF'lerin metni herhangi bir sıraya göre saklayabilmesi, garip font kodlamalarını kullanabilmeleri ve sizi atamak için ligat karakterleri (uygun dizgede gördüğünüz 'ff' ve 'ij') gibi işlemleri yapabilmeleridir.

pdftotext herhangi bir Linux sisteminde kurulabilir ...

10
katma
Peki pdftotext, temiz bir metin sayfası üretmede gayet iyi çalışıyor ancak istediğim şeyi kolayca oluşturmak için herhangi bir formda değil. Yine de teşekkürler
katma yazar pssguy, kaynak
Destekliyorum. R dışında yapmak, R'nin dışında çok daha iyi tutulan seçenekler olduğunda, geliştirmek ve sürdürmek için çaba göstermeye değmez. Çok fazla dosya yapmanız gerekiyorsa, find Unix'te (ya da Windows için GNU koleksiyonunda), ya da kabuk dosyalarına R komutları gönderebilir, dosya isimleri üzerinden döngü yapabilir ... Hatta Adobe çok uzun bir süredir korkunç bir metin çıkarıcıya sahipti (şimdi daha iyi olduğundan emin değil) Xerox iyi bir tane vardı.
katma yazar Iterator, kaynak
Bizi temsilci bir PDF dosyasına yönlendirebilir misiniz?
katma yazar Spacedman, kaynak
Pdftotext'i çalıştırmak o sayfada parlak değildir, ancak önce ps'ye dönüştürmek ya da sadece ps2txt dosyasını PDF'de çalıştırmak, bazı sayfa başlıklarını/ayaklarını kaldırmak için neredeyse mükemmel bir tablo oluşturur.
katma yazar Spacedman, kaynak
Pencerelerde de pdftotext ile iyi şanslar yaşadım
katma yazar pguardiario, kaynak

Metin madenciliği paketine göz atmak isteyebilirsiniz. tm . Okuyucu olarak adlandırılanları uyguladıklarını ve ayrıca PDF'ler için bir tane olduğunu hatırlıyorum.

5
katma
Teşekkürler. Dokümanları kontrol ettim. Bir şekilde pdftotext kullanır
katma yazar pssguy, kaynak

AFAIK, PDF tablolarını veri analizi için yararlı bir şeye çevirmenin kolay bir yolu yoktur. Veri Bilimi Araç Takımı 'nın Dosyaya Metin yardımcı programını ( RDSTK paketi), daha sonra ortaya çıkan metni ayrıştırın. Dikkatli olun: ayrıştırma genellikle önemsizdir.


DÜZENLEME: PDF'leri XML'ye dönüştürme konusunda yararlı bir tartışma var discerning.com'da . Kısa cevap, muhtemelen bir ticari araç satın almanız gerektiğidir.

4
katma
+1 Bunun için teşekkürler. Tartışmayı kontrol ettim ve deneme sırasında ABBYY ürününü indirmeyi denedim, ancak önceden oluşturulmayacaktı. Sanırım mahkum oldum
katma yazar pssguy, kaynak

PDF belgelerinden tabloları çıkarabilen tabula uygulamasının kalbi, basit bir komut satırı Java uygulaması olarak kullanılabilir tabula-çıkarıcı .

Bu Java uygulaması, tabulizer paketi tarafından R'ye sarılmıştır. Bir PDF dosyasına giden yolu iletin ve sizin için veri tablolarını ayıklamaya ve bunları veri olarak döndürmeye çalışacaktır.

Örneğin, bkz. Belgeler Veri Tabanı Olduğunda - Tabula PDF Tablo Extractor için Tabulizer R Wrapper.

1
katma