Düğüm yolu hatası

Merhaba Ubuntu'da solr ve nutch'ı kurdum. Zamanla taramayı ve indekslemeyi başarabiliyorum, ama her zaman değil. Tekrar tekrar bu yol hatası alıyorum ve çevrimiçi bir çözüm bulamadı. Genellikle hataları olan ve yeniden çalıştıran dizinleri silerdim, iyi çalışırdı. Ama artık bunu yapmak istemiyorum. Hataya neden olan nedir? Teşekkürler.

LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840
LinkDb: adding segment: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027224701
LinkDb: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027231916/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027232907/parse_data
Input path does not exist: file:/home/nutch/nutch/runtime/local/crawl/segments/20111027233840/parse_data
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:190)
    at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:44)
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:201)
    at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:810)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:781)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:175)
    at org.apache.nutch.crawl.LinkDb.run(LinkDb.java:290)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.crawl.LinkDb.main(LinkDb.java:255)
2

2 cevap

Bir Hollandalı süreci öldürmüş olmalısın. Sadece dizinleri tararken temizleyin vb.

Nutch ilk önce, tarama yolundaki hazır bağlantı veritabanını (linkdb) arar, bulamazsanız, verdiğiniz tohum dosyasından yeni bir tane oluşturur. Bir tarama işlemini öldürürseniz, bu, bağlantı veritabanından okunan başarısızlığa neden olur.

1
katma
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

Tarama klasörünün mevcut olup olmadığını kontrol edin ve uygun izinlere sahip olun ve yukarıdaki gibi yeni sürümde olduğu gibi -linkdb'yi de isteğe bağlı olarak kullanmanız gerekir. Çoğunlukla bu hata, crawldb linkdb ve segmentler yolu için doğru şekilde verilmediğini belirttiğiniz yoldan kaynaklanır.

Çalıştığım sözdizimini kullandığım aynı problemi yaşadım. Sadece bunun için belirttiğiniz klasörü kontrol edin.

Bunu kullan,

http://thetechietutorials.blogspot.com/2011/06/solr -ve-nutch-integration.html

benim için çalıştı.

0
katma