Web Yakalama ve Dönüştürme Araçları

Web Kazıyıcı Belgeleri

Bir web bağlantısı oluşturmak için, aşağıdaki sekmelere yayılmış beş tür bilgi belirtmeniz gerekir.

  1. Kazıma Seçenekleri
  2. Hedef Web Sitesi
  3. Kazıma talimatları
  4. Seçenekleri Dışa Aktar
  5. Çizme Takvimi

Kazıma Seçenekleri

Aşağıdaki özelliklerin tümü, Kazıma Seçenekleri sekmesinde bir web kazımasını özelleştirmek için kullanılabilir.

Kazıma Adı sıyrığın adı.

Bağlantıları takip et sıyırıcının bağlantıları nasıl izlemesi gerektiği konusunda aşağıdaki seçenekleri sunar:

Dosya İndirmelerini Yoksay bir kez ziyaret edildiğinde dosyanın indirilmesine neden olan herhangi bir bağlantı kurulmaz.

Robots.txt Dosyasını Yoksay Kazıyıcı ayarlanırsa, normal olarak web sitesi sahibi tarafından taranması dışında bırakılan web sayfalarını ziyaret edebilir.

Hata Sayfalarını Yoksay ayarlanırsa web kazıyıcı, hata bildiren tüm web sayfalarını atlayacaktır. Yani herhangi bir HTTP durum kodu 400 veya üstü.

URL parçalarını yoksay ayarlanırsa web kazıyıcı, URL'nin # bu özellik genellikle aynı sayfadaki bir yer imini belirtmek için kullanılır ve bu nedenle normalde gereksiz sayfaların kazınmasına neden olur. Ancak bazı web siteleri bu özelliği farklı içerik göstermek için kullanır; bu durumda bu ayarın devre dışı bırakılması gerekir. Bu seçenek yalnızca takip bağlantılarının gerekli olmadığı durumlarda geçerlidir.

Kopyaları Yoksay eğer ayarlanırsa, ayarladığınız benzerliğe eşit veya daha fazla olan sayfaları yok sayar, örneğin,% 95% 'in aynı olan sayfaları yok sayabilirsiniz.

Sınırı Kazıma web kazıyıcıyı durdurmadan önce kaç sayfa çizileceğini belirlemenizi sağlar.

Saat Dilimi Kullan ayarlanırsa, Web Kazıyıcı'nın kazıdığı tarihleri ​​dönüştürmeye çalışması gerektiğini belirtir into yerel saat diliminiz. Saat diliminiz hesap sayfasında ayarlanabilir.

Lokasyon Web Kazıyıcı'nın kazıma işlemini gerçekleştireceği coğrafi konum. Hedef web sitesinde konuma dayalı kısıtlamalar varsa, bu yararlı olabilir.

Varsayılan Tarih Biçimi tarih biçiminin belirlenemediği tarihleri ​​dönüştürürken, Web Kazıyıcı bunun yerine bu seçilen biçime varsayılan olacaktır.

Sayfa Yükleme Gecikmesi Web Kazıyıcı'nın bir sayfayı ayrıştırmadan önce beklemesi gereken süre milisaniye cinsindendir. Bir sayfa çok fazla AJAX içeriyorsa veya yüklenmiyorsa, bu çok kullanışlıdır.

Hedef Web Sitesi

Hedef Web Sitesi

Hedef Web Sitesi sekmesinde, veri çıkarmak istediğiniz web sitelerini belirtirsiniz. Kazıma aracına bir web sitesinden veri çıkarmasını söylemek için öncelikle bulunduğunuz ana URL'yi belirtmeniz gerekir. intör. http://www.example.com/shop/ Bu kazıyıcı sıyırmaya başlayacak, normal bir web sayfası, PDF belgesi, XML belgesi, JSON belgesi, RSS beslemesi veya site haritası olabilir. Bir web sayfası veya PDF belgesi değilse, kazıyıcı dosyadaki tüm bağlantıları bulur ve her birini ziyaret eder.

Sadece hedef URL’de bulunan bağlantıları takip etmek ve daha sonra Bağlantıları takip et kazıma seçeneği için ilk sayfada. Bu, hedef URL’yi yalnızca sıyrıcının geri kalanını tohumlamak için kullanacaktır.

URL Modeli

Varsayılan olarak, web kazıyıcı, ziyaret ettiği her web sayfasında keşfettiği her bağlantıyı izler. Bağlantıları kısıtlamak istiyorsanız, Web Kazıyıcı Bunu yapmanın basit bir yolu, bir URL Modeli belirlemektir. Bu güçlü teknik temel olarak, desenin bu bölümünde herhangi bir karakterin bulunabileceğini belirtmek için yıldız işaretini joker karakter olarak içeren bir URL'yi belirterek çalışır. Örneğin http://www.example.com/*/articles/* web sitesinin kökünden ikinci dizin olarak makaleleri olan herhangi bir URL'yi sıyırır.

Bir URL kalıbı tanımlamanın daha kısıtlayıcı bir yolu, alternatifleri tanımlamaktır. Örneğin, bu örnek yalnızca mağaza veya haberlerle eşleşecektir: http://www.example.com/ /*

Bu nedenle bu, bununla eşleşir http://www.example.com/store/products/1 Ama değil http://www.example.com/about/.

Veya alternatif olarak, bir şey dışında her şeyi eşleştirmek mümkündür. Örneğin bu örnek mağaza veya haberlerle eşleşmeyecektir: http://www.example.com/ /*

Bu nedenle bu, bununla eşleşir http://www.example.com/about/ Ama değil http://www.example.com/store/products/1!

Bir URL modeli aynı zamanda anahtar kelimeler de içerebilir. Anahtar kelime, çift köşeli parantez içindeki herhangi bir şeydir. Bu yüzden [[URL_START]]www.example.com* bir URL'nin herhangi bir geçerli başlangıcıyla eşleşecektir; dolayısıyla http://www.example.com/, https://www.example.com/ ya da ftp://www.example.com/ Örneğin.

Tohum URL’leri

Tohum URL’leri, kullanıcının Web Kazıyıcı tarafından taranması gereken URL’lerin bir listesini belirlemesini sağlar. Yalnızca Tohum URL’lerinin kazınmasını istiyorsanız, Bağlantıları takip et kazıma seçenekleri için sayfa yok Kazıma Seçenekleri sekmesinde.

Hedef Web Sitesi sekmesinde Kaynak URL'leri ayarlamak için Hedef Ekle düğmesini tıklayın, ardından Kaynak URL'leri Ayarla onay kutusunu işaretleyin ve kazınacak her URL'yi ayrı bir satıra belirtin.

Şablon URL’sinden tohum URL’leri oluşturun

Alternatif olarak, Şablon URL'sini kullanarak otomatik olarak tohum URL'leri oluşturabilirsiniz, bu bir URL değişkenini içeren tek bir URL'dir. Bir URL Değişkeni, yinelenecek bir dizi sayı belirtir.

Başlangıç ​​numarası, URL değişkeninin saymaya başlaması gereken sayıdır, bitiş numarası, URL değişkeninin saymayı durduracağı sayıdır, yinelenen sayı, URL değişkeninin her yinelemesi için sayının artacağı sayıdır.

Örneğin, aşağıdaki Şablon URL’si için http://www.example.com/search?pageNo=

Bu daha sonra aşağıdaki tohum URL'lerini yaratacaktır:

Gönderiyi Gerçekleştir

URL, örneğin bir giriş formu için de POST'a parametreli bir URL belirleyebilir. Bunu yapmak için Hedef URL metin kutusuna form URL'sini belirtin ve kullanmak için gereken gönderi parametrelerini ekleyin. Post değişken değerleri ayrıca aşağıdakiler gibi özel GrabzIt değişkenlerini de içerebilir:

Kazıma talimatları

Kazıma yönergeleri, Web Kazıyıcısına hedef web sitesini kazıdığında hangi eylemleri gerçekleştireceğini söyler. Kazıma Talimatları sekmesi, varsayılan olarak kazıma sihirbazını gösterir, bu da ihtiyacınız olan kazıma talimatlarını eklemeyi kolaylaştırır. Bu sihirbazı kullanmanın güzel bir örneği, ürün listesi ve detay kazıma eğitimi.

Kazıma yapmaya hazır olduğunuzda, Yeni Kazıma Talimatı Ekle bağlantı.

Bu, sihirbazı açacak ve hedef URL’yi otomatik olarak yükleyecek ve kazınmak istediğinizi hemen seçmenize olanak sağlayacaktır. Bir web sayfası veya PDF belgesi yüklenmişse, herhangi bir bağlantıya tıklayabilirsiniz ve örneğin normal bir şekilde hareket eder, örneğin başka bir web sayfasına gitme. İşlemlerden birini seçinceye kadar, ekranın altında, bu noktadaint içeriğe yapılan herhangi bir tıklama, çıkarmak veya işlemek istediğiniz HTML öğesini seçecektir.

Kazıma talimatlarını anlaması gereken ilk şey, varsayılan olarak her web sayfasında yürütüldükleridir. Bunu durdurmanın yolu, şablonların kullanılmasıdır. Bir bağlantıyı tıklatma gibi bir eylem gerçekleştirirken bir şablon atanabilir ve böylece kazıyıcı bu bağlantıyı tıkladığında veya bu düğmeyi tıklattığında, atanan şablona ait olduğunu anlar. Bu, farklı sayfa türlerinin tanımlanmasına izin verir. Örneğin, bazı genel bakış bilgilerini içeren bir ürün kategorisi sayfanız ve ardından ürün bilgilerini içeren bir detay sayfanız olabilir. Her iki sayfa da muhtemelen farklı bir kazıma talimatına ihtiyaç duyar.

Kazıyıcı şablonu

Başlamak için Tıkla İşlemi gerçekleştirin, ardından eylemi gerçekleştirmek istediğiniz öğeleri seçtikten sonra Sonraki düğmesi şablondaki şablonun adını girin. Şablon Oluştur metin kutusu şimdi, kazıyıcı bu eylemleri gerçekleştirdiğinde, döndürülen şablon sağladığınız ad olacaktır.

Daha sonra, bir çizme komutuna belirli bir şablonu atamak için istediğiniz şablonu seçmeniz gerekir. Yürüt açılan komut listesi eklenmeden hemen önce açılan seçenekler penceresinde görünen açılan liste. Bir şablon seçerken üç ana seçenek şunlardır:

Bu seçeneklerden birini seçtiğinizde, kazıma talimatı yalnızca belirtilen şablonda yürütülür.

Veri Çıkarma

Seçtiğinizde bunu fark edeceksiniz. Verileri ayıklamak aksiyon. Ekranın sol alt köşesi, sizi yukarıdaki pencerede bir HTML öğesi seçmeye veya bir genel sayfa özelliği seçmeye davet eder.

Genel bir sayfa özelliğini kullanmak için, genel sayfa özelliği bağlantı. Devam etmek istediğinizi onaylayın. Artık doğrudan sayfadan çıkarılabilecek bir özellikler listesine sahip olacaksınız. Örneğin: Sayfa Başlığı.

Birini seçmek için, seçenekler listesinden seçin ve tıklayın Sonraki veri eklemek için veri kümesi.

Verileri, ilgili HTML öğelerine tıklamanız gereken tam sayfaya ait olmak yerine belirli HTML öğelerinde çıkarmak istiyorsanız, tek veya birden çok öğe seçebilirsiniz. Ancak, birden fazla öğe seçiyorsanız, lütfen bir sütundaki birden çok satır gibi aynı olan birden çok öğeyi deneyin ve seçin, çünkü kazıyıcı seçilen veri koleksiyonunu benzersiz şekilde tanımlayabilecek bir kural oluşturamazsa, bir sıyırma talimatı oluşturulabilir. Ayrıca, tıkladığınız birden fazla öğenin web kazıyıcı sihirbazımız tarafından yinelenen veri olarak tanımlanması durumunda, aynı gruptaki yinelenen verilerin tümü otomatik olarak seçilir. Tek veya çoklu öğelerinizin tümünü seçtikten sonra, ekranın sol alt köşesinden çıkarmak için bir özellik seçin ve ardından Tamam Sonraki.

Veri Kümesi Oluşturma

Veri kümesi ekranı, verilerin işlenme biçimini değiştirmenize olanak sağlar; örneğin, veri kümesini ve içindeki sütunları yeniden adlandırabilirsiniz, yeniden adlandırmak için adı tıklamanız yeterlidir. Bir veri kümesine bir sütun eklediğinizde, yürütülmesi gereken şablonu da seçmeniz gerekir. Sütun adının altındaki açılır listeye tıklayarak bunu değiştirebilirsiniz.

Veri ayıklanırken, doğru satırların hala birbirleriyle ilişkili olduğundan emin olmak için, bazı yinelenen öğelerin tutarsızlıkla tekrar etmesi sıkça görülür. Bağlantı Sütunları Kriterler, tutarsız sütunları veri kümesindeki en tutarlı sütuna bağlamak için kullanılır.

Veri setine daha fazla veri eklemek için düğmesini tıklatın veya veri kümesinden veri çıkarmak için, veya Veri kümesinin tamamını silmek için Veri kümesi aynı zamanda verilere çeşitli kriterlerin uygulanmasına izin verir, bunu yapmak için üstten istenen işlemi seçin ve ardından kriterleri uygulamak için ilgili sütuna tıklayın. Kriterleri eklerken hata yaparsanız, sadece düğmesine basın.

Farklı kriter türlerinin listesi ve bunların nasıl kullanılacağı:

Yukarıdaki işlemlerden birini seçtiğinizde, birden fazla sütunu etkileyebiliyorsa, yalnızca sütunların bir alt kümesini veya tümünü etkilemesine izin vermek isteyip istemediğinizi soracaktır. Çoğu durumda, tüm sütunların etkilenmesini istersiniz, ancak bazı durumlarda, etkilenen sütunları sınırlamak yararlı olur. Örneğin, bir dizi seçiyorsanız etiketler ve değerler, web sayfalarındaki konumu değiştiren tüm etiketleri ve değerleri seçebilirsiniz. Ardından veri setinde, istenen etiketle sınırlandırmak için eşit işlemi kullanın ve sadece etiket ve değer sütunlarının etkilenmesi gerektiğini belirtin. Bu, diğer sütunların silinen satırlardan etkilenmemesini sağlayacaktır, bütünlük için etiket sütununu gizlemek faydalı olacaktır.

İstediğiniz her şeyi değiştirdikten sonra, Tamam'ı tıklatın. Sonraki ve kazıma talimatlarınız kazıma işlemine eklenecektir. Ardından, isterseniz başka kazıma talimatları ekleme seçeneğiniz vardır.

Bir Web Sayfasını Yönetme

Bir web sayfası, çizilmeden önce, tıklatılarak, yazılarak ve aşağı açılır değerlerden değerler seçilerek değiştirilebilir. Bu, yeni bir web sayfasının kazıma talimatlarını yüklemesine neden olmasına rağmen, tüm geçerli kazıma talimatlarını yerine getirene kadar yeniden başlatılmayacağını hatırlamak önemlidir.

Bir web sayfasını değiştirmek için Öğe'yi tıklayın, Hover Elemanı, kaydırma, Metin yaz or Aşağı açılan Liste Değerini Seçin eylemler. Bir tıklama işlemi gerçekleştiriyorsanız, web sayfasındaki herhangi bir öğeye tıklayabilirsiniz. Aksi halde uygun bir HTML öğesi seçmelisiniz, örneğin metin bir metin kutusuna yazılmalıdır. Sonra tıklayın Sonraki. Bu, işlemi tamamlamanıza izin veren bir seçenek kutusu açacaktır. Metin yazarken ve bir açılır menüden seçim yaparken, yazılacak veya seçilen verilerin sırasıyla seçilmesi gerekir. Bunun dışında seçenekler her üç eylem için aynıdır.

İsterseniz bu eylemin gerçekleştirilmesi gereken şablonu ve tıklama eylemi için hangi şablonun uygulanacağını, tıklama işlemi tamamlandıktan sonra seçebilirsiniz. Ancak, aynı sayfada birden fazla tıklama gerçekleştiren bir tıklama işlemine yeni bir şablon atamak, satır içi açılır pencereleri açmak veya ekranda bir şeylerin görünmesini sağlamak gibi iyi bir fikir değildir. Bunun nedeni, tıklama işlemi yalnızca belirli şablonlarda yürütüldüğü takdirde, ilk tıklamayla atanan yeni şablon sıfırlanmayacağından ve dolayısıyla kazımanın nasıl yazıldığına bağlı olarak, bu, gelecekteki tıklamaları yürütülmekte olan aynı sayfada durdurabilir. Bu eylemin yalnızca bir kez yürütülmesini isteyip istemediğinizi de belirleyebilirsiniz. Bu, giriş gibi bir şey yapıyorsanız faydalı olacaktır. into bir web sitesi.

Metin Yazma veya Aşağı Açılan Liste Seçme Değeri eylemleri, sırasıyla birden fazla metin öğesi yazmanıza veya çoklu seçim kutusu seçimleri yapmanızı sağlar. Bunlar kazıma talimatlarına tıklayarak düzenlenebilir Değişkenleri Değiştir veya Görüntüle Soldaki ekran görüntüsünde gösterildiği gibi

Örneğin, bir arama kutusuna bir isim listesi yazmak istiyorsanız bu önemli olabilir. Bir formun yalnızca arama kutusuna bir değer olduğunda gönderilmesini sağlamak için, metin başarılı bir şekilde her yazıldığında bir şablon ayarlanabilir into Bu şablon ayarlanmadıkça metin kutusu ve bir düğmeye tıklanma işlemi gerçekleştirilmez. Tıklama işlemi gerçekleştirildikten sonra, prosedürü sıfırlamak için şablonun başka bir şeyle değiştirilmesi gerekir.

Web sitelerini düzenleyen eylemler yürüttükten sonra, eylemler AJAX işlevini başlatırsa, AJAX içeriğinin kazıma işlemine devam etmeden önce yüklenmesine izin vermek için bir süre beklemek yararlı olacaktır. Bunu bir gecikme ekleyerek yapabilirsiniz. Yürütmeden Sonra Bekle Metin kutusu.

Bir koşul gerçekleştiğinde, doğrudan farklı bir URL’ye atlamak isteyebilirsiniz. Bunu yapmak için URL’ye Git Sonsuz döngülerden kaçınmak için sadece en az bir şablon sıyırıcıda tanımlandığında ve oluşturulduğunda bir şablona atanması gereken eylem.

Sonunda, GrabzIt’ın tüm yakalama API'lerini web notlarınızda kullanabilirsiniz, Web Sayfasını Yakala eylemini seçin ve istediğiniz yakalamayı seçin. Bunu seçtikten sonra yürütülecek şablonu belirleyerek sıyırıcı içindeki bazı web sayfalarını yakalamak için sınırlayabilirsiniz. Sonraki düğmesine basın.

Her kazıma talimatı eklendikten sonra kazıma talimat panelinde görülebilir, her kazıma talimatının yanındaki çapraz kazıma talimatının silinmesine izin verir. Diğer kazıma talimatlarının gerektirdiği bir kazıma talimatı silinirse, bu talimatlar da silinir. Kazıma talimatlarını, kepçe ikonu ile herhangi bir kazıma talimatını sürükleyerek değiştirebilirsiniz.

Kazıma Talimatlarının Elle Yazılması

Kazıma talimatlarını daha özel bir şekilde özelleştirmeniz gerekirse, kazıma talimatlarını manuel olarak değiştirmeniz gerekecektir.

Kazıma talimatları JavaScript tabanlıdır ve kod editörü olabildiğince kolay hale getirmek için sözdizimi denetleyicisi, otomatik tamamlama ve araç ipucu ile birlikte gelir.

Web Kazıyıcı Talimatları Kod editörünün temel işlevselliğine, ekran görüntüsünde gösterildiği gibi, menü seçeneklerinden erişilebilir, her birinin amacı aşağıda ayrıca açıklanmıştır. Kazıma talimatlarınızdaki herhangi bir sözdizimi hatası kod editörünün sol tarafındaki boşlukta belirtilirken.

sihirbaz sihirbaz, ayıklamak istediğiniz sayfanın bölümlerini seçmenize ve web yakalama oluşturma gibi diğer genel görevleri yapmanızı sağlar.

Kazıma Talimatlarını Görüntüle kazıma talimatı kodunu kullanıcıya gösterir.

Tüm Talimatları Sil Tüm sıyırma talimatlarını siler.

Web Sayfası İşlevleri Sayfa anahtar kelimesini girecek into kazıma talimatlarını alın ve mümkün olan her şeyi içeren otomatik tamamlamayı açın. Sayfa işlevleri. Sayfa işlevleri, web sayfasından veri çıkarmanızı sağlar.

Veri İşlevleri Data anahtar kelimesini girecek into kazıma talimatı. Veri fonksiyonları Eğer izin save bilgiler.

Gezinme İşlevleri Navigation anahtar sözcüğüne girer into kod editörü. Gezinme işlevleri Web Kazıyıcının hedef web sitesinde nasıl gezindiğini kontrol etmenize olanak sağlar.

Global Fonksiyonlar Global anahtar kelimesini girer into kazıma talimatı. Bu size erişim sağlar fonksiyonlar farklı web sayfalarını ayrıştırma arasında veri depolayabilir. Kazıma talimatlarını yazarken, kazıyıcı web sayfaları arasında hareket ettiğinde, kazıma talimatlarındaki JavaScript değişkenlerinin durumunun tutulması, Global fonksiyonlarını kullanmadığınız sürece save değişkenler aşağıda gösterildiği gibi.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Kalıcı bir global değişken oluşturmak için, Global.set yöntemindeki persist parametresine doğru, aşağıda gösterildiği gibi geçin.

Global.set("myvariable", "hello", true);

Yardımcı İşlevler Utility anahtar sözcüğüne girer into kazıma talimatı. Bu kullanmanıza izin verir ortak fonksiyonlar sorgu ekleme veya kaldırma gibi not yazmalarını kolaylaştıranstring URL’lerin parametreleri.

Ölçüt İşlevleri Criteria anahtar sözcüğüne girer into kazıma talimatı. Bunlar fonksiyonlar kopyaları kaldırmak gibi kazıma sırasında çıkarılan verileri hassaslaştırmanıza olanak tanır.

filtre Kolayca filtre oluşturmanıza olanak sağlar, bunun için bazı işlevler tarafından bir web sayfasından belirli bir HTML öğesini seçmek gerekir. Basitçe, hedef elemanınızın sahip olması gereken nitelikleri seçin ve / veya elemanın ebeveyni / imlerinin bu elemanı seçmesi gerekir. Bu seçeneği tıklatmadan önce imlecinizin, filtreyi de geçirmek için işlevde doğru yerde olduğundan emin olun.

Ekran Görüntüsü İşlevleri ekran görüntüsü seçeneklerini ayarlamanızı sağlar. İmleci, araç ipucu tarafından tanımlandığı şekilde fonksiyonun doğru bölümüne getirin ve ekran görüntüsü seçeneklerine basın. Sonra istediğiniz tüm seçenekleri seçin ve komutu ekleyin.

Strings

Strings web sıyırma işlemini yaparken metin tanımlamak için sıyırma talimatlarında kullanılır. bir string çift ​​tarafından sınırlandırılır (") veya tek tırnak ('). Eğer bir string Çifte fiyat teklifi ile başlar, eğer çifte fiyat teklifi ile bitmesi gerekir, eğer string tek bir alıntı ile başlar, tek bir alıntı ile bitmelidir. Örneğin:

"my-class" ve 'my-class'

Ortaya çıkabilecek yaygın bir hata kapatılmamış string hata, bu ne zaman string Yukarıda gösterildiği gibi bir kapanış teklifi içermiyor ya da string. Aşağıdakiler yasa dışı strings:

"my
class"

"my class

Bu hatayı düzeltmek için, satır kesmeleri içermediklerinden ve eşleşen tırnaklara sahip olmadıklarından emin olun;

"my class" ve "my class"

Bazen tek veya çift bir teklifin görünmesini istersiniz. string. Bunu yapmanın en kolay yolu, bir tek bir teklif koymak string çift ​​tırnak ve bir çift tırnak string tek tırnak işareti ile ayrılmış, şöyle:

"Bob's shop" ve '"The best store on the web"'

Alternatif olarak, böyle bir tekliften kaçmak için bir ters eğik çizgi kullanabilirsiniz:

'test\'s'

Genel Manuel Kazıma Görevleri

Bağlantı Denetleyicisi Özel bir link denetleyicisi oluşturun - Bu basit talimatları izleyerek nasıl özel bir link denetleyicisi oluşturulacağını öğrenin.
Resim İndirme Bir web sitesinden tüm görüntüleri indirin - tüm görüntüleri bir web sitesinden nasıl indireceğinizi öğrenin.
Veri Kümesi Oluştur Veri ayıkla ve dönüştür into veri kümesi - Kazıdığınız web sitesinden veri kümesinin nasıl oluşturulacağını öğrenin.
Bağlantıları Çıkar Bir web sitesinden bağlantıları çıkarın - tüm HTML bağlantılarının bir web sitesinden nasıl çıkarılacağını ve save onları istediğiniz biçimde.
Metin seç Desenleri kullanarak metinden değerleri çıkarma - Metin bloklarından değerler çıkarmak için kalıpların nasıl kullanılacağını öğrenin.
OCR Resimlerden metin ayıkla - Resimlerin içindeki metnin nasıl çıkarılacağını öğrenin.
Veri kümesi Veri kümesi nasıl doldurulur - çıkarılan verilerinizi dolgu kullanarak daha iyi biçimlendirin.
Dizi Manipüle Dizileri - Özel dizi yardımcı program yöntemlerinin sıyrıklar içindeki dizileri kolayca işlemek için nasıl kullanılacağını öğrenin.
Action Kazıma işlemi sırasında yalnızca bir kez eylem gerçekleştirin - Tüm kazıma sırasında bir eylemin nasıl yapıldığını öğrenin.
arıtmak Kazınmış verileri hassaslaştırma - Gerekli olmayan verileri notlarınızdan nasıl çıkaracağınızı keşfedin.
Eposta Adresi Bir web sitesinden e-posta adreslerini kazıyın - bir web sitesinden tüm e-posta adreslerinin nasıl çizileceğini öğrenin.
Ekran görüntüsü Tüm web sitesinin ekran görüntüsü into PDF'ler veya Görüntüler - bir web sitesinin her sayfasını yakalamak için Grabzt'in Web Kazıyıcı'yı nasıl kullanacağınızı öğrenin.
Ekran görüntüsü Yapısal bilgileri yapılandırılmamış metinden çıkart - Duyguları, isimleri, yerleri ve organizasyonları çıkarmak için GrabzIt kullanın.

HTML dışındaki İçeriğe Kazıma

Web Kazıyıcı, PDF’ler, XML, JSON ve RSS’le karşılaştığında, HTML Kazıyıcı’ya dönüştürür; bu, Web Kazıyıcı’nın doğru şekilde ayrıştırmasını ve hangi içeriği çıkarmak istediğinizi seçmenizi sağlar. Örneğin, JSON verisini ayrıştırmak istiyorsanız, verileri dönüştürecektir. into tarafa gösterildiği gibi hiyerarşik bir HTML gösterimi. Bu, kazıma talimatlarını normal şekilde oluşturmanıza olanak sağlar.

Kazıyıcı bir PDF belgesi yüklediğinde benzer şekilde, PDF dönüştürülür into Resimler, köprüler, metin ve tabloların seçilip kazınmasına izin vermek için HTML. Bununla birlikte, bir PDF gerçek bir yapıya sahip olmadığından, tablolar sezgisel tarama kullanılarak tanımlanır ve bu nedenle her zaman doğru değildir.

Seçenekleri Dışa Aktar

Bu sekme, sonuçlarınızı Excel tabloları, XML, JSON, CSV, SQL komutları veya HTML belgeleri gibi seçeneklerinizi nasıl dışa aktarmak istediğinizi seçmenizi sağlar. Ek olarak, bu sekme sıkıştırılmış kazıma sonuçlarının adının ayarlanmasına izin verir. Yalnızca dosya yüklüyorsanız veya web görüntüleri oluşturuyorsanız, sonuçları içeren bir ZIP dosyası alacağınız için bir dışa aktarma seçeneği seçmenize gerek yoktur. Bu sekme ayrıca sonuçları nasıl göndermek istediğinizi belirtmenizi sağlar. Sonuçları ile gönderebilirsiniz Amazon S3, dropbox, Eposta bildirimi, FTP ve WebDav.

Son seçenek, kullanarak kazıma sonuçlarının uygulamanızda işlenmesini sağlayan bir Geri Arama URL’sidir. kazıma API.

Sıkıştırılmış sonuçların dosya adı veya ayrı olarak gönderilmesini isterseniz her bir veri dosyası Varsayılan Dosya Adını Kullan seçeneğinin işareti kaldırılarak ve istediğiniz dosya adı ayarlanarak ayarlanabilir. Ek olarak, dosya adınıza bir zaman damgası eklenebilir. {GrabzIt_Timestamp_UTC+1} dosya adında. +1, UTC'den saat cinsinden farkı gösterir.

Ayrıca, bir kazıma işleminin sonuçlarını, Sonuçları düğmesinin yanında senin kazın, bu, gerçek zamanlı kazıma sonuçlarını ve son 48 saat içinde gerçekleştirilen önceki sonuçları gösterir.

Çizme Takvimi

Bir web kazıması oluştururken Kazımayı Planla sekmesi, kazımanın ne zaman başlamasını istediğinizi ve tekrarlanmasını istiyorsanız ne sıklıkta yapması gerektiğini ayarlamanıza olanak tanır. Kazıma, bir web sayfasında bir değişiklik algılandığında çalışacak şekilde de yapılandırılabilir. Bunu yapmak için Bir web sayfası değiştiğinde başla onay kutusunu işaretleyin, ardından izlenecek web sayfasının URL'sini ve CSS seçici sayfanın bulunduğunuz kısmının intÖnemsiz değişikliklerden kaynaklanan yanlış pozitifleri önlemek için sayfanın küçük bir bölümünün seçilmesi önemlidir.

Hurda İzleme ve Hata Ayıklama

Web kazıma işlemi başladığında durum simgesi olarak değişecektir ve işlenen sayfalar zamanla artmaya başlayacaktır. Kazıma işlemlerinin gerçek zamanlı görüntüsü, kazıyıcı ile karşılaşılan son web sayfasının düzenli bir ekran görüntüsü ile birlikte bir günlük dosyası oluşturulur. Bu kazıma sırasında neler olduğunu görmenizi sağlar. Bu bilgiyi bulmak için, sıranızın yanındaki genişlet simgesine tıklayın ve simgesine tıklayın. izleyici kazıma için sen intBu, sıyırma talimatlarınızla ilgili sorunlar gibi herhangi bir hata olup olmadığını ayrıntılarıyla belirtmelidir.

Kazıma işlemi başarıyla tamamlandıktan sonra durum simgesi , Görüntüleyiciyi açarak sonuç yoksa, günlük ve son ekran görüntüsü size neyin yanlış gittiğini söyleyebilir.

Günlüklerde bildirilen en yaygın sorunlardan biri, sayfayı sıyırmak için yeterli bir görüntü gecikme süresi olmadığı, genellikle Sayfa Yükleme Gecikmesi içinde bulundu Kazıma Seçenekleri sekmesi çoğu web sitesi için yeterlidir.