Web Yakalama ve Dönüştürme Araçları

Web Kazıyıcı Belgeleri

Bir web bağlantısı oluşturmak için, aşağıdaki sekmelere yayılmış beş tür bilgi belirtmeniz gerekir.

  1. Kazıma Seçenekleri
  2. Hedef Web Siteleri
  3. Kazıma talimatları
  4. Seçenekleri Dışa Aktar
  5. Çizme Takvimi

Kazıma Seçenekleri

Aşağıdaki özelliklerin tümü, Kazıma Seçenekleri sekmesinde bir web kazımasını özelleştirmek için kullanılabilir.

Kazıma Adı sıyrığın adı.

Bağlantıları takip et sıyırıcının bağlantıları nasıl izlemesi gerektiği konusunda aşağıdaki seçenekleri sunar:

  • Gerektiği gibi - varsayılan ayar ve en güvenli seçenek, bu kazıyıcıyı yalnızca talimat verilen bağlantıları izleyecektir
  • tüm sayfalar - kazıyıcı bulduğu her bağlantıyı izler
  • ilk sayfa - yalnızca hedef olarak belirtilen ilk sayfada bulunan bağlantıları izleyin
  • kadar n ilk sayfadaki sayfalar - yalnızca ilk sayfadaki belirtilen tıklama sayısını sayfalardaki bağlantıları izleyin
  • çerçevelerde - çerçevelerde ve iframe'lerde bulunan bağlantıları izleyin

Robots.txt Dosyasını Yoksay Kazıyıcı ayarlanırsa, normal olarak web sitesi sahibi tarafından taranması dışında bırakılan web sayfalarını ziyaret edebilir.

Dosya İndirmelerini Yoksay bir kez ziyaret edildiğinde dosyanın indirilmesine neden olan herhangi bir bağlantı kurulmaz.

Kopyaları Yoksay eğer ayarlanırsa, ayarladığınız benzerliğe eşit veya daha fazla olan sayfaları yok sayar, örneğin,% 95% 'in aynı olan sayfaları yok sayabilirsiniz.

Sınırı Kazıma web kazıyıcıyı durdurmadan önce kaç sayfa çizileceğini belirlemenizi sağlar.

Saat Dilimi Kullan ayarlanırsa, Web Kazıyıcı'nın kazıdığı tarihleri ​​dönüştürmeye çalışması gerektiğini belirtir into yerel saat diliminiz. Saat diliminiz hesap sayfasında ayarlanabilir.

Lokasyon Web Kazıyıcı'nın kazıma işlemini gerçekleştireceği coğrafi konum. Hedef web sitesinde konuma dayalı kısıtlamalar varsa, bu yararlı olabilir.

Varsayılan Tarih Biçimi tarih biçiminin belirlenemediği tarihleri ​​dönüştürürken, Web Kazıyıcı bunun yerine bu seçilen biçime varsayılan olacaktır.

Sayfa Yükleme Gecikmesi Web Kazıyıcı'nın bir sayfayı ayrıştırmadan önce beklemesi gereken süre milisaniye cinsindendir. Bir sayfa çok fazla AJAX içeriyorsa veya yüklenmiyorsa, bu çok kullanışlıdır.

Hedef Web Siteleri

Hedef Web Siteleri

Hedef Web Siteleri sekmesinde veri çıkarmak istediğiniz web sitelerini belirlersiniz. Kazıma aracına bir web sitesinden veri çıkarmasını söylemek için önce olduğunuz ana URL’yi belirtmeniz gerekir. intör. http://www.example.com/shop/ Bu kazıyıcı sıyırmaya başlayacak, normal bir web sayfası, PDF belgesi, XML belgesi, JSON belgesi, RSS beslemesi veya site haritası olabilir. Bir web sayfası veya PDF belgesi değilse, kazıyıcı dosyadaki tüm bağlantıları bulur ve her birini ziyaret eder.

Sadece hedef URL’de bulunan bağlantıları takip etmek ve daha sonra Bağlantıları takip et kazıma seçeneği için ilk sayfada. Bu, hedef URL’yi yalnızca sıyrıcının geri kalanını tohumlamak için kullanacaktır.

Varsayılan olarak, web kazıyıcı, ziyaret ettiği her web sayfasında keşfettiği her bağlantıyı izler. Bağlantıları kısıtlamak istiyorsanız, Web Kazıyıcı ardından, bunu yapmanın basit bir yolu bir URL Modeli belirlemektir. Bu, desenin bu bölümünde herhangi bir karakterin bulunabileceğini belirtmek için yıldız işaretli bir URL’yi bir joker karakter olarak belirleyerek çalışır. Örneğin http://www.example.com/*/articles/* web sitesinin kökünden ikinci dizin olarak makaleleri olan herhangi bir URL'yi sıyırır.

URL, örneğin bir giriş formu için de POST'a parametreli bir URL belirleyebilir. Bunu yapmak için Hedef URL metin kutusuna form URL'sini belirtin ve kullanmak için gereken gönderi parametrelerini ekleyin. Post değişken değerleri ayrıca aşağıdakiler gibi özel GrabzIt değişkenlerini de içerebilir:

  • {{day}} - iki basamaklı bir değer olarak gün
  • {{month}} - iki basamaklı bir değer olarak ay
  • {{year}} - dört basamaklı bir yıl olarak yıl
  • {{hour}} - iki basamaklı bir değer olarak saat
  • {{minute}} - iki basamaklı bir değer olarak dakika
  • {{second}} - iki basamaklı bir değer olarak ikinci

Sonunda belirleyebilirsiniz Tohum URL’leri URL'lerin kazınmasını sağlamak için.

Tohum URL’leri

Tohum URL’leri, kullanıcının Web Kazıyıcı tarafından taranması gereken URL’lerin bir listesini belirlemesini sağlar. Yalnızca Tohum URL’lerinin kazınmasını istiyorsanız, Bağlantıları takip et kazıma seçenekleri için sayfa yok Kazıma Seçenekleri sekmesinde.

Hedef Web Siteleri sekmesinde Tohum URL'leri ayarlamak için, Hedef Ekle düğmesini tıklayın, ardından Tohum URL'lerini Ayarla onay kutusunu işaretleyin ve her bir URL'yi ayrı bir satırda kazımak için belirtin.

Şablon URL’sinden tohum URL’leri oluşturun

Alternatif olarak, Şablon URL'sini kullanarak otomatik olarak tohum URL'leri oluşturabilirsiniz, bu bir URL değişkenini içeren tek bir URL'dir. Bir URL Değişkeni, yinelenecek bir dizi sayı belirtir.

{{start number|finish number|iterate number}}

  • başlangıç ​​numarası URL Değişkeninin başladığı sayı
  • son numara URL Değişkeninin bittiği numara
  • yinelenen sayı URL Değişkeni'nin yinelediği sayı

Başlangıç ​​numarası, URL değişkeninin saymaya başlaması gereken sayıdır, bitiş numarası, URL değişkeninin saymayı durduracağı sayıdır, yinelenen sayı, URL değişkeninin her yinelemesi için sayının artacağı sayıdır.

Örneğin, aşağıdaki Şablon URL’si için http://www.example.com/search?pageNo={{1|3|1}}

Bu daha sonra aşağıdaki tohum URL'lerini yaratacaktır:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Kazıma talimatları

Kazıma talimatları, Web Kazıyıcıya, hedef web sitelerini kazıyarak hangi eylemleri gerçekleştireceğini söyler. Kazıma Talimatları sekmesi, kazıma sihirbazını varsayılan olarak gösterir, bu da ihtiyacınız olan kazıma talimatlarını eklemenizi kolaylaştırır. Başlamak için Yeni Kazıma Talimatı Ekle bağlantı.

Bu, sihirbazı açacak ve hedef URL’yi otomatik olarak yükleyecek ve kazınmak istediğinizi hemen seçmenize olanak sağlayacaktır. Bir web sayfası veya PDF belgesi yüklenmişse, herhangi bir bağlantıya tıklayabilirsiniz ve örneğin normal bir şekilde hareket eder, örneğin başka bir web sayfasına gitme. İşlemlerden birini seçinceye kadar, ekranın altında, bu noktadaint içeriğe yapılan herhangi bir tıklama, çıkarmak veya işlemek istediğiniz HTML öğesini seçecektir.

Kazıma talimatlarını anlaması gereken ilk şey, varsayılan olarak her web sayfasında yürütüldükleridir. Bunu durdurmanın yolu, şablonların kullanılmasıdır. Bir bağlantıyı tıklatma gibi bir eylem gerçekleştirirken bir şablon atanabilir ve böylece kazıyıcı bu bağlantıyı tıkladığında veya bu düğmeyi tıklattığında, atanan şablona ait olduğunu anlar. Bu, farklı sayfa türlerinin tanımlanmasına izin verir. Örneğin, bazı genel bakış bilgilerini içeren bir ürün kategorisi sayfanız ve ardından ürün bilgilerini içeren bir detay sayfanız olabilir. Her iki sayfa da muhtemelen farklı bir kazıma talimatına ihtiyaç duyar.

Kazıyıcı şablonu

Başlamak için Le Marchê'nin deri koleksiyonlarını görmek için İşlemi gerçekleştirin, ardından eylemi gerçekleştirmek istediğiniz öğeleri seçtikten sonra Sonraki düğmesi şablondaki şablonun adını girin. Şablon Oluştur metin kutusu şimdi, kazıyıcı bu eylemleri gerçekleştirdiğinde, döndürülen şablon sağladığınız ad olacaktır.

Daha sonra, bir çizme komutuna belirli bir şablonu atamak için istediğiniz şablonu seçmeniz gerekir. Yürüt açılan komut listesi eklenmeden hemen önce açılan seçenekler penceresinde görünen açılan liste. Bir şablon seçerken üç ana seçenek şunlardır:

  • Tüm Sayfalar - Bu kazıma talimatı için bir şablon kullanmayın, Kazıma talimatı tüm web sayfalarında yürütülecektir.
  • Varsayılan şablon - Kullanıcı tanımlı şablonlardan birini kullanmayın. Kazıma talimatı, belirtilen bir şablonu olmayan herhangi bir web sayfasında yürütülecektir.
  • Kullanıcı Tanımlı Şablon - Belirli bir web sayfasını veya işlemi tanımlamak için sizin tarafınızdan tanımlanmış şablonlardan biri.

Bu seçeneklerden birini seçtiğinizde, kazıma talimatı yalnızca belirtilen şablonda yürütülür.

Veri Çıkarma

Seçtiğinizde bunu fark edeceksiniz. Verileri ayıklamak Eylem, hemen çıkarılacak bir dizi veri öğesini ekranın sol alt köşesinde indirmek için uygun hale gelir. Bunlar, indirebileceğiniz tüm sayfanın özellikleridir. Birini seçmek için, sadece seçenekler listesinden seçin ve Sonraki veri eklemek için veri kümesi.

Verileri, ilgili HTML öğelerine tıklamanız gereken tam sayfaya ait olmak yerine belirli HTML öğelerinde çıkarmak istiyorsanız, tek veya birden çok öğe seçebilirsiniz. Ancak, birden fazla öğe seçiyorsanız, lütfen bir sütundaki birden çok satır gibi aynı olan birden çok öğeyi deneyin ve seçin, çünkü kazıyıcı seçilen veri koleksiyonunu benzersiz şekilde tanımlayabilecek bir kural oluşturamazsa, bir sıyırma talimatı oluşturulabilir. Ayrıca, tıkladığınız birden fazla öğenin web kazıyıcı sihirbazımız tarafından yinelenen veri olarak tanımlanması durumunda, aynı gruptaki yinelenen verilerin tümü otomatik olarak seçilir. Tek veya çoklu öğelerinizin tümünü seçtikten sonra, ekranın sol alt köşesinden çıkarmak için bir özellik seçin ve ardından Tamam Sonraki.

Veri Kümesi Oluşturma

Veri kümesi ekranı, verilerin işlenme biçimini değiştirmenize olanak sağlar; örneğin, veri kümesini ve içindeki sütunları yeniden adlandırabilirsiniz, yeniden adlandırmak için adı tıklamanız yeterlidir. Bir veri kümesine bir sütun eklediğinizde, yürütülmesi gereken şablonu da seçmeniz gerekir. Sütun adının altındaki açılır listeye tıklayarak bunu değiştirebilirsiniz.

Veri ayıklanırken, doğru satırların hala birbirleriyle ilişkili olduğundan emin olmak için, bazı yinelenen öğelerin tutarsızlıkla tekrar etmesi sıkça görülür. Bağlantı Sütunları Kriterler, tutarsız sütunları veri kümesindeki en tutarlı sütuna bağlamak için kullanılır.

Veri setine daha fazla veri eklemek için düğmesini tıklatın veya veri kümesinden veri çıkarmak için, veya Veri kümesinin tamamını silmek için Veri kümesi aynı zamanda verilere çeşitli kriterlerin uygulanmasına izin verir, bunu yapmak için üstten istenen işlemi seçin ve ardından kriterleri uygulamak için ilgili sütuna tıklayın. Kriterleri eklerken hata yaparsanız, sadece düğmesine basın.

Farklı kriter türlerinin listesi ve bunların nasıl kullanılacağı:

  • Satırları Sınırla - bu, web sayfasından çıkarılan satır sayısını tanımladığınız sayı ile sınırlayacaktır. Kullanmak için tıklayın ve sonra kesilmek istediğiniz satırın üzerine tıklayın.
  • Tekrar et - sütun, en uzun sütunun uzunluğuyla eşleşene kadar sütun öğelerini tekrarlar. Kullanmak için sadece tıklayın ve sonra öğeleri tekrarlamak istediğiniz sütunu tıklayın.
  • Benzersiz Yap - girilen tüm değerler için yinelenen değerleri kaldırır into bir sütun. Kullanmak için sadece tıklayın ve sonra benzersiz yapmak istediğiniz sütunu tıklayın.
  • Değerleri Al - sadece eşleşen bir metin bloğundan veri öğelerini çıkarmak için bir kalıp belirtin. Kullanmak için sadece tıklayın , ilgili sütunu seçin ve ardından ilgili verileri cihazdan döndürecek bir desen oluşturmak için talimatları izleyin. string.
  • Kesim Değerleri - Yedekli metni kırpmak için bir desen belirtin. Kullanmak için sadece tıklayın , ilgili sütunu seçin ve ardından metni kırpacak bir desen oluşturmak için talimatları izleyin.
  • Bağlantı Sütunları - sütunların birbirine bağlanmasına izin verir. Böylece veri ayıklanırken, sonuç sayısında bir uyuşmazlık olsa bile, kayıtlar bağlantılı sütundaki göreli satırla aynı satırda görünecektir. Kullanmak için sadece tıklayın , bağlanacak sütunu ve ardından bağlanacak sütunu seçin.
  • Sütunu Gizle - bazen filtrelemek için bir sütun eklemek istiyorsunuz ancak sonuçlara değerleri dahil etmek istemiyorsunuz. Bunu yapmak için sadece tıklayın , hariç tutmak istediğiniz sütunu seçin.
  • Artan Sırala - artan şekilde sütuna göre sıralar. Kullanmak için tıklayın ve ardından sıralanacak sütunu seçin.
  • Azalan şekilde sırala - Azalan sütuna göre sıralar. Kullanmak için tıklayın ve ardından sıralanacak sütunu seçin.
  • İçeren - sadece tanımlanmış değeri içeren değerleri dahil edin. Kullanmak için tıklayın İstediğiniz sütunu seçin ve sonra sütun değerlerinin içermesi gereken değeri girin.
  • Eşittir - sadece tanımlanan değere eşit olan değerleri içerir. Kullanmak için tıklayın İstediğiniz sütunu seçin ve sonra sütun değerlerinin eşit olması gereken değeri girin.
  • Eşit değil - sadece tanımlanan değere eşit olmayan değerler dahil edin. Kullanmak için tıklayın İstediğiniz sütunu seçin ve ardından sütunun eşit olmaması gereken değeri girin.
  • Daha az - sadece tanımlanmış değerden daha düşük değerleri içermelidir. Kullanmak için tıklayın İstediğiniz sütunu seçmek ve ardından sütundan daha az olması gereken değeri girin.
  • büyüktür - sadece tanımlanmış değerden daha büyük olan değerleri dahil edin. Kullanmak için tıklayın İstediğiniz sütunu seçmek ve ardından sütundan daha büyük olması gereken değeri girin.

Yukarıdaki işlemlerden birini seçtiğinizde, birden fazla sütunu etkileyebiliyorsa, yalnızca sütunların bir alt kümesini veya tümünü etkilemesine izin vermek isteyip istemediğinizi soracaktır. Çoğu durumda, tüm sütunların etkilenmesini istersiniz, ancak bazı durumlarda, etkilenen sütunları sınırlamak yararlı olur. Örneğin, bir dizi seçiyorsanız etiketler ve değerler, web sayfalarındaki konumu değiştiren tüm etiketleri ve değerleri seçebilirsiniz. Ardından veri setinde, istenen etiketle sınırlandırmak için eşit işlemi kullanın ve sadece etiket ve değer sütunlarının etkilenmesi gerektiğini belirtin. Bu, diğer sütunların silinen satırlardan etkilenmemesini sağlayacaktır, bütünlük için etiket sütununu gizlemek faydalı olacaktır.

İstediğiniz her şeyi değiştirdikten sonra, Tamam'ı tıklatın. Sonraki ve kazıma talimatlarınız kazımaya eklenecektir.

Bir Web Sayfasını Yönetme

Bir web sayfası, çizilmeden önce, tıklatılarak, yazılarak ve aşağı açılır değerlerden değerler seçilerek değiştirilebilir. Bu, yeni bir web sayfasının kazıma talimatlarını yüklemesine neden olmasına rağmen, tüm geçerli kazıma talimatlarını yerine getirene kadar yeniden başlatılmayacağını hatırlamak önemlidir.

Bir web sayfasını değiştirmek için Öğe'yi tıklayın, Hover Elemanı, kaydırma, Metin yaz or Aşağı açılan Liste Değerini Seçin eylemler. Bir tıklama işlemi gerçekleştiriyorsanız, web sayfasındaki herhangi bir öğeye tıklayabilirsiniz. Aksi halde uygun bir HTML öğesi seçmelisiniz, örneğin metin bir metin kutusuna yazılmalıdır. Sonra tıklayın Sonraki. Bu, işlemi tamamlamanıza izin veren bir seçenek kutusu açacaktır. Metin yazarken ve bir açılır menüden seçim yaparken, yazılacak veya seçilen verilerin sırasıyla seçilmesi gerekir. Bunun dışında seçenekler her üç eylem için aynıdır.

İsterseniz bu eylemin gerçekleştirilmesi gereken şablonu ve tıklama eylemi için hangi şablonun uygulanacağını, tıklama işlemi tamamlandıktan sonra seçebilirsiniz. Ancak, aynı sayfada birden fazla tıklama gerçekleştiren bir tıklama işlemine yeni bir şablon atamak, satır içi açılır pencereleri açmak veya ekranda bir şeylerin görünmesini sağlamak gibi iyi bir fikir değildir. Bunun nedeni, tıklama işlemi yalnızca belirli şablonlarda yürütüldüğü takdirde, ilk tıklamayla atanan yeni şablon sıfırlanmayacağından ve dolayısıyla kazımanın nasıl yazıldığına bağlı olarak, bu, gelecekteki tıklamaları yürütülmekte olan aynı sayfada durdurabilir. Bu eylemin yalnızca bir kez yürütülmesini isteyip istemediğinizi de belirleyebilirsiniz. Bu, giriş gibi bir şey yapıyorsanız faydalı olacaktır. into bir web sitesi.

Metin Yazma veya Aşağı Açılan Liste Seçme Değeri eylemleri, sırasıyla birden fazla metin öğesi yazmanıza veya çoklu seçim kutusu seçimleri yapmanızı sağlar. Bunlar kazıma talimatlarına tıklayarak düzenlenebilir Değişkenleri Değiştir veya Görüntüle Soldaki ekran görüntüsünde gösterildiği gibi

Örneğin, bir arama kutusuna bir isim listesi yazmak istiyorsanız bu önemli olabilir. Bir formun yalnızca arama kutusuna bir değer olduğunda gönderilmesini sağlamak için, metin başarılı bir şekilde her yazıldığında bir şablon ayarlanabilir into Bu şablon ayarlanmadıkça metin kutusu ve bir düğmeye tıklanma işlemi gerçekleştirilmez. Tıklama işlemi gerçekleştirildikten sonra, prosedürü sıfırlamak için şablonun başka bir şeyle değiştirilmesi gerekir.

Web sitelerini düzenleyen eylemler yürüttükten sonra, eylemler AJAX işlevini başlatırsa, AJAX içeriğinin kazıma işlemine devam etmeden önce yüklenmesine izin vermek için bir süre beklemek yararlı olacaktır. Bunu bir gecikme ekleyerek yapabilirsiniz. Yürütmeden Sonra Bekle Metin kutusu.

Bir koşul gerçekleştiğinde, doğrudan farklı bir URL’ye atlamak isteyebilirsiniz. Bunu yapmak için URL’ye Git Sonsuz döngülerden kaçınmak için sadece en az bir şablon sıyırıcıda tanımlandığında ve oluşturulduğunda bir şablona atanması gereken eylem.

Sonunda, GrabzIt’ın tüm yakalama API'lerini web notlarınızda kullanabilirsiniz, Web Sayfasını Yakala eylemini seçin ve istediğiniz yakalamayı seçin. Bunu seçtikten sonra yürütülecek şablonu belirleyerek sıyırıcı içindeki bazı web sayfalarını yakalamak için sınırlayabilirsiniz. Sonraki düğmesine basın.

Her kazıma talimatı eklendikten sonra kazıma talimat panelinde görülebilir, her kazıma talimatının yanındaki çapraz kazıma talimatının silinmesine izin verir. Diğer kazıma talimatlarının gerektirdiği bir kazıma talimatı silinirse, bu talimatlar da silinir. Kazıma talimatlarını, kepçe ikonu ile herhangi bir kazıma talimatını sürükleyerek değiştirebilirsiniz.

Kazıma Talimatlarının Elle Yazılması

Kazıma talimatlarını daha belirgin bir şekilde özelleştirmeniz gerekirse veya kod yürütmek istiyorsanız hurdalardan önce veya sonra kazıma talimatlarını manuel olarak değiştirmeniz gerekecektir.

Kazıma talimatları JavaScript tabanlıdır ve kod editörü olabildiğince kolay hale getirmek için sözdizimi denetleyicisi, otomatik tamamlama ve araç ipucu ile birlikte gelir.

Web Kazıyıcı Talimatları Kod editörünün temel işlevselliğine, ekran görüntüsünde gösterildiği gibi, menü seçeneklerinden erişilebilir, her birinin amacı aşağıda ayrıca açıklanmıştır. Kazıma talimatlarınızdaki herhangi bir sözdizimi hatası kod editörünün sol tarafındaki boşlukta belirtilirken.

sihirbaz sihirbaz, ayıklamak istediğiniz sayfanın bölümlerini seçmenize ve web yakalama oluşturma gibi diğer genel görevleri yapmanızı sağlar.

Kazıma Talimatlarını Görüntüle kazıma talimatı kodunu kullanıcıya gösterir.

Tüm Talimatları Sil Tüm sıyırma talimatlarını siler.

Web Sayfası İşlevleri Sayfa anahtar kelimesini girecek into kazıma talimatlarını alın ve mümkün olan her şeyi içeren otomatik tamamlamayı açın. Sayfa işlevleri. Sayfa işlevleri, web sayfasından veri çıkarmanızı sağlar.

Veri İşlevleri Data anahtar kelimesini girecek into kazıma talimatı. Veri fonksiyonları Eğer izin save bilgiler.

Gezinme İşlevleri Navigation anahtar sözcüğüne girer into kod editörü. Gezinme işlevleri Web Kazıyıcı'nın hedef web sitelerinde nasıl gezindiğini kontrol etmenizi sağlar.

Global Fonksiyonlar Global anahtar kelimesini girer into kazıma talimatı. Bu size erişim sağlar fonksiyonlar farklı web sayfalarını ayrıştırma arasında veri depolayabilir. Kazıma talimatlarını yazarken, kazıyıcı web sayfaları arasında hareket ettiğinde, kazıma talimatlarındaki JavaScript değişkenlerinin durumunun tutulması, Global fonksiyonlarını kullanmadığınız sürece save değişkenler aşağıda gösterildiği gibi.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Kalıcı bir global değişken oluşturmak için, Global.set yöntemindeki persist parametresine doğru, aşağıda gösterildiği gibi geçin.

Global.set("myvariable", "hello", true);

Yardımcı İşlevler Utility anahtar sözcüğüne girer into kazıma talimatı. Bu kullanmanıza izin verir ortak fonksiyonlar sorgu ekleme veya kaldırma gibi not yazmalarını kolaylaştıranstring URL’lerin parametreleri.

Ölçüt İşlevleri Criteria anahtar sözcüğüne girer into kazıma talimatı. Bunlar fonksiyonlar kopyaları kaldırmak gibi kazıma sırasında çıkarılan verileri hassaslaştırmanıza olanak tanır.

filtre Kolayca filtre oluşturmanıza olanak sağlar, bunun için bazı işlevler tarafından bir web sayfasından belirli bir HTML öğesini seçmek gerekir. Basitçe, hedef elemanınızın sahip olması gereken nitelikleri seçin ve / veya elemanın ebeveyni / imlerinin bu elemanı seçmesi gerekir. Bu seçeneği tıklatmadan önce imlecinizin, filtreyi de geçirmek için işlevde doğru yerde olduğundan emin olun.

Ekran Görüntüsü İşlevleri ekran görüntüsü seçeneklerini ayarlamanızı sağlar. İmleci, araç ipucu tarafından tanımlandığı şekilde fonksiyonun doğru bölümüne getirin ve ekran görüntüsü seçeneklerine basın. Sonra istediğiniz tüm seçenekleri seçin ve komutu ekleyin.

Kazıma İşleminden Önce veya Sonra İşlemlerin Gerçekleştirilmesi

Kazıma işleminden önce veya sonra komutları Kazıma Talimatları sekmesinin üstündeki seçeneklerin listesini kullanarak çalıştırabilirsiniz. Ne zaman girilen komutlar Kazıma İşleminden Sonra Yürüt sıyrık bittikten sonra çalıştırılacak Herhangi bir komut girildiğinde Kazıma İşleminden Önce Yürüt kazıma başlamadan önce çalıştırılacaksa seçilir.

Bununla birlikte, bu iki özel moddan herhangi birinde sadece mevcut kazıma talimatlarının bir alt kümesi bulunur. Mevcut komutlar Veri, Global ve Navigasyon kazıma talimatlarıdır.

Strings

Strings web sıyırma işlemini yaparken metin tanımlamak için sıyırma talimatlarında kullanılır. bir string çift ​​tarafından sınırlandırılır (") veya tek tırnak ('). Eğer bir string Çifte fiyat teklifi ile başlar, eğer çifte fiyat teklifi ile bitmesi gerekir, eğer string tek bir alıntı ile başlar, tek bir alıntı ile bitmelidir. Örneğin:

"my-class" ve 'my-class'

Ortaya çıkabilecek yaygın bir hata kapatılmamış string hata, bu ne zaman string Yukarıda gösterildiği gibi bir kapanış teklifi içermiyor ya da string. Aşağıdakiler yasa dışı strings:

"my
class"

"my class

Bu hatayı düzeltmek için, satır kesmeleri içermediklerinden ve eşleşen tırnaklara sahip olmadıklarından emin olun;

"my class" ve "my class"

Bazen tek veya çift bir teklifin görünmesini istersiniz. string. Bunu yapmanın en kolay yolu, bir tek bir teklif koymak string çift ​​tırnak ve bir çift tırnak string tek tırnak işareti ile ayrılmış, şöyle:

"Bob's shop" ve '"The best store on the web"'

Alternatif olarak, böyle bir tekliften kaçmak için bir ters eğik çizgi kullanabilirsiniz:

'test\'s'

Genel Manuel Kazıma Görevleri

Bağlantı Denetleyicisi Özel bir link denetleyicisi oluşturun - Bu basit talimatları izleyerek nasıl özel bir link denetleyicisi oluşturulacağını öğrenin.
Resim İndirme Bir web sitesinden tüm görüntüleri indirin - tüm görüntüleri bir web sitesinden nasıl indireceğinizi öğrenin.
Veri Kümesi Oluştur Veri ayıkla ve dönüştür into veri kümesi - Kazıdığınız web sitesinden veri kümesinin nasıl oluşturulacağını öğrenin.
Bağlantıları Çıkar Bir web sitesinden bağlantıları çıkarın - tüm HTML bağlantılarının bir web sitesinden nasıl çıkarılacağını ve save onları istediğiniz biçimde.
Metin seç Desenleri kullanarak metinden değerleri çıkarma - Metin bloklarından değerler çıkarmak için kalıpların nasıl kullanılacağını öğrenin.
OCR Resimlerden metin ayıkla - Resimlerin içindeki metnin nasıl çıkarılacağını öğrenin.
Veri kümesi Veri kümesi nasıl doldurulur - çıkarılan verilerinizi dolgu kullanarak daha iyi biçimlendirin.
Dizi Manipüle Dizileri - Özel dizi yardımcı program yöntemlerinin sıyrıklar içindeki dizileri kolayca işlemek için nasıl kullanılacağını öğrenin.
Aksiyon Kazıma işlemi sırasında yalnızca bir kez eylem gerçekleştirin - Tüm kazıma sırasında bir eylemin nasıl yapıldığını öğrenin.
arıtmak Kazınmış verileri hassaslaştırma - Gerekli olmayan verileri notlarınızdan nasıl çıkaracağınızı keşfedin.
Eposta Adresi Bir web sitesinden e-posta adreslerini kazıyın - bir web sitesinden tüm e-posta adreslerinin nasıl çizileceğini öğrenin.
Ekran görüntüsü Tüm web sitesinin ekran görüntüsü into PDF'ler veya Görüntüler - bir web sitesinin her sayfasını yakalamak için Grabzt'in Web Kazıyıcı'yı nasıl kullanacağınızı öğrenin.
Ekran görüntüsü Yapısal bilgileri yapılandırılmamış metinden çıkart - Duyguları, isimleri, yerleri ve organizasyonları çıkarmak için GrabzIt kullanın.

HTML dışındaki İçeriğe Kazıma

Web Kazıyıcı, PDF’ler, XML, JSON ve RSS’le karşılaştığında, HTML Kazıyıcı’ya dönüştürür; bu, Web Kazıyıcı’nın doğru şekilde ayrıştırmasını ve hangi içeriği çıkarmak istediğinizi seçmenizi sağlar. Örneğin, JSON verisini ayrıştırmak istiyorsanız, verileri dönüştürecektir. into tarafa gösterildiği gibi hiyerarşik bir HTML gösterimi. Bu, kazıma talimatlarını normal şekilde oluşturmanıza olanak sağlar.

Kazıyıcı bir PDF belgesi yüklediğinde benzer şekilde, PDF dönüştürülür into Resimler, köprüler, metin ve tabloların seçilip kazınmasına izin vermek için HTML. Bununla birlikte, bir PDF gerçek bir yapıya sahip olmadığından, tablolar sezgisel tarama kullanılarak tanımlanır ve bu nedenle her zaman doğru değildir.

Seçenekleri Dışa Aktar

Bu sekme, sonuçlarınızı Excel tabloları, XML, JSON, CSV, SQL komutları veya HTML belgeleri gibi seçeneklerinizi nasıl dışa aktarmak istediğinizi seçmenizi sağlar. Ek olarak, bu sekme sıkıştırılmış kazıma sonuçlarının adının ayarlanmasına izin verir. Yalnızca dosya yüklüyorsanız veya web görüntüleri oluşturuyorsanız, sonuçları içeren bir ZIP dosyası alacağınız için bir dışa aktarma seçeneği seçmenize gerek yoktur. Bu sekme ayrıca sonuçları nasıl göndermek istediğinizi belirtmenizi sağlar. Sonuçları ile gönderebilirsiniz Amazon S3, dropbox, Eposta bildirimi, FTP ve WebDav.

Son seçenek, kullanarak kazıma sonuçlarının uygulamanızda işlenmesini sağlayan bir Geri Arama URL’sidir. kazıma API.

Sıkıştırılmış sonuçların dosya adı veya ayrı ayrı gönderilmesini istemeniz durumunda her bir veri dosyası, Varsayılan Dosya Adını Kullan seçeneğinin işaretini kaldırarak ve istediğiniz dosya adını ayarlayarak ayarlanabilir.

Çizme Takvimi

Bir web kazımasını oluştururken Çizme Çizimi sekmesi, çizme işleminin ne zaman başlamasını istediğinizi ve tekrarlamak istiyorsanız, ne sıklıkta yapması gerektiğini ayarlamanızı sağlar.

Hurda İzleme ve Hata Ayıklama

Web kazıma işlemi başladığında durum simgesi olarak değişecektir ve işlenen sayfalar zamanla artmaya başlayacaktır. Kazıma işlemlerinin gerçek zamanlı görüntüsü, kazıyıcı ile karşılaşılan son web sayfasının düzenli bir ekran görüntüsü ile birlikte bir günlük dosyası oluşturulur. Bu kazıma sırasında neler olduğunu görmenizi sağlar. Bu bilgiyi bulmak için, sıranızın yanındaki genişlet simgesine tıklayın ve simgesine tıklayın. izleyici kazıma için sen intBu, sıyırma talimatlarınızla ilgili sorunlar gibi herhangi bir hata olup olmadığını ayrıntılarıyla belirtmelidir.

Kazıma işlemi başarıyla tamamlandıktan sonra durum simgesi , Görüntüleyiciyi açarak sonuç yoksa, günlük ve son ekran görüntüsü size neyin yanlış gittiğini söyleyebilir.

Günlüklerde bildirilen en yaygın sorunlardan biri, sayfayı sıyırmak için yeterli bir görüntü gecikme süresi olmadığı, genellikle Sayfa Yükleme Gecikmesi içinde bulundu Kazıma Seçenekleri sekmesi çoğu web sitesi için yeterlidir.