PDF belgelerinin içeriğindeki verilerin kazıma işlemi, HTML belgelerinde olduğu kadar esnek değildir, ancak, bunun kullanılmasıyla hala elde edilebilecek birkaç yol vardır. Grabz's Web Kazıyıcı. İlk önce kullandığınız PDF içeriğini kazımak için PDF
yerine işlevler Page
işlevler ancak işlevler genellikle aynı şekilde çalışır.
Bir PDF belgesi için filtre, bir HTML belgesi için ilk önce ne tür bir içerik çıkarmak istediğinizi belirtmelisiniz: bağlantılar, resimler veya metin.
//Extract images PDF.getValue({"type":"image"}); //Extract links PDF.getValue({"type":"link"}); //Extract text PDF.getValue({"type":"text"});
Bağlantılar ve görüntüler için, konumunu belirleyerek hangi resmin veya bağlantının döndürüleceğini sınırlayabilirsiniz.
PDF.getValue({"type":"image","position":"2"});
Belgedeki ikinci resmi alır. Metin, resimler ve bağlantılar için sayfa numarası belirterek döndürülen verileri daha da kısıtlayabilirsiniz.
PDF.getValue({"type":"image","position":"2","page":"5"});
Bu, ikinci görüntüyü beşinci sayfadan döndürür. Metin, eklenen satır numarası seçeneğiyle birlikte gelir, ancak metin konumu desteklemez.
PDF.getValue({"type":"text","page":"5","line":"10"});
Bu, metnin onuncu satırını beşinci sayfadan alır. Bu filtre seçeneklerinden başka, PDF belgelerindeki verileri kazıma farkları, benzer şekilde çalışır HTML belgelerinden veri kazınmasıAncak, bir PDF filtresiyle ne çıkardığınıza özgü olamayacağınız için, bir model metinden doğru bilgiyi çıkarmak için.