Web Yakalama ve Dönüştürme Araçları

PDF belgelerinden veri çıkarma

PDF belgelerinin içeriğindeki verilerin kazıma işlemi, HTML belgelerinde olduğu kadar esnek değildir, ancak, bunun kullanılmasıyla hala elde edilebilecek birkaç yol vardır. Grabz's Web Kazıyıcı. İlk önce kullandığınız PDF içeriğini kazımak için PDF yerine işlevler Page işlevler ancak işlevler genellikle aynı şekilde çalışır.

Bir PDF belgesi için filtre, bir HTML belgesi için ilk önce ne tür bir içerik çıkarmak istediğinizi belirtmelisiniz: bağlantılar, resimler veya metin.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Bağlantılar ve görüntüler için, konumunu belirleyerek hangi resmin veya bağlantının döndürüleceğini sınırlayabilirsiniz.

PDF.getValue({"type":"image","position":"2"});

Belgedeki ikinci resmi alır. Metin, resimler ve bağlantılar için sayfa numarası belirterek döndürülen verileri daha da kısıtlayabilirsiniz.

PDF.getValue({"type":"image","position":"2","page":"5"});

Bu, ikinci görüntüyü beşinci sayfadan döndürür. Metin, eklenen satır numarası seçeneğiyle birlikte gelir, ancak metin konumu desteklemez.

PDF.getValue({"type":"text","page":"5","line":"10"});

Bu, metnin onuncu satırını beşinci sayfadan alır. Bu filtre seçeneklerinden başka, PDF belgelerindeki verileri kazıma farkları, benzer şekilde çalışır HTML belgelerinden veri kazınmasıAncak, bir PDF filtresiyle ne çıkardığınıza özgü olamayacağınız için, bir model metinden doğru bilgiyi çıkarmak için.