Bir dizindeki dosyalardan Wikipedia işaretlemesini ayrıştır

En son ingilizce wiki sayfalarının bir bz2 dökümünü çıkarmak için lucene'nin ExtractWikipedia aracını kullandım. Sonuçta elde edilen .txt dosyaları yine de bunların içinde Wikipedia işaretleme diline sahiptir. Dizinde yalnızca her dosyadaki içeriği ayrıştırmak için dizinin üzerinde çalıştırabileceğim bir araç veya python betiği var mı? (yani: dosyaları sadece içerik içermeleri, işaretleme yapmamaları için değiştiriniz)

Alternatif olarak, bunu başarabilecek bir java kütüphanesi veya paketi var mı? Bunu Lucene sınıfına, ExtractWikipedia'ya entegre etmeyi umuyordum.

0

1 cevap

Bunu bir wikiprep deneyebilirsiniz, hazır perl betiği (ilk önce perl yüklemeniz gerekir)

  • wikimarkup dilini kaldırır
  • miras kategorileri oluştur
  • yönlendirmeleri kaldırır
  • ayrıştırılması kolay bir xml biçimi oluşturur

http://www.cs.technion.ac.il/~ gabr/kaynaklar/kod/wikiprep/

Tüm wikipedia aptallarının üzerinde koşmak birkaç saat sürebilir ve 6GB ram hakkında büyük bir belleğe ihtiyaç duyabilir

0
katma