Web Yakalama ve Dönüştürme Araçları

Bir web sitesi ve tüm içeriği nasıl indirilir?

 Web Sitesi

Sadece bitmiş sonuç değil, bir web sitesinin tamamını indirmenin önemli olduğu bazı durumlar vardır. Ancak HTML web sayfaları, CSS gibi kaynaklar, scriptler ve görüntüler.

Bunun nedeni, kodun bir yedeğini almak istediğiniz, ancak bir nedenden dolayı orijinal kaynağa artık ulaşamadığınızdır. Veya belki de bir web sitesinin zaman içinde nasıl değiştiğine dair ayrıntılı bir kayıt istersiniz.

Neyse ki Grabzt'in Web Kazıyıcı bunu bir web sitesindeki tüm web sayfalarını tarayarak başarabilir. Ardından, her web sayfasında kazıyıcı, sayfada gösterilen tüm kaynaklarla birlikte HTML'yi indirir.

Tüm Web Sitesini İndirmek İçin Kazıma Oluştur

GrabzIt web sitenizi indirmeyi olabildiğince kolay hale getirmek için bir kazıma şablonu sağlar.

Başlamak bu şablonu yükle.

Sonra girin hedef URL, bu URL daha sonra hatalar ve gerekli değişiklikler için otomatik olarak kontrol edilir. Tutmak Kazıma işlemini otomatik başlat onay kutusunu işaretlediğinizde kazıma işleminiz otomatik olarak başlayacaktır.

Kazıma Makinenizi Özelleştirme

Şablonu değiştirmek isterseniz, şablonun işaretini kaldırın. Kazıma işlemini otomatik başlat Onay kutusu. Değişikliklerden biri, örneğin bir web sitesinin düzenli kopyalarını oluşturmak için kazımayı düzenli bir programda çalıştırmak olacaktır. Üzerinde Çizme Takvimi sekmesinde, Kazıma tekrarla onay kutusunu işaretleyin ve ardından kazıma işleminin ne sıklıkta tekrarlanmasını istediğinizi seçin. Sonra tıklayın güncelleştirme kazımayı başlatmak için.

İndirilen Web Sitenizi Kullanma

Kazıma işlemi bittiğinde bir ZIP dosyası alacaksınız. Daha sonra ZIP dosyasını çıkartın ve içindeki dosyalar Files adlı bir dizinde bulunur, indirilen tüm web sayfaları ve web sitesi kaynakları olacaktır. Ayrıca dizinin kökünde data.html adında özel bir HTML sayfası olacaktır. Bu dosyayı bir web tarayıcısında açın; üç sütunlu bir HTML tablosu bulacaksınız:

  • Kaynak URL - Bu, web kazıyıcı kaynağın bulunduğu URL'dir. Örneğin, http://www.example.com/logo.jog
  • Kaynak Türü - Bu, indirilmiş olan kaynak türüdür. Dört tür kaynak vardır.
    • Web Sayfası
    • Resim
    • Harici Kaynak - Link etiketinden indirilen herhangi bir kaynak
    • Senaryo
  • Yeni Dosya Adı - kaynağın bulunduğu yeni dosya adı saved altında. Bu sütunun aynı zamanda dosyaya bir bağlantı içerdiğini ve indirilen tüm kaynakların incelenmesini kolaylaştıracağını unutmayın.

Bu dosya, yeni dosya adlarını eski konumlarıyla eşleştirmenize yardımcı olmak için tasarlanmıştır. Bir URL, doğrudan bir dosya yapısına eşlenemediğinden, bir URL doğrudan dosya yolunda depolanamayacak kadar büyük olabileceğinden, bu gereklidir.

Ayrıca, özellikle bir web sayfası, çeşitli sorguları değiştirerek çok fazla farklı içeriği temsil edebiliyorsa, birçok permütasyon olabilir. string parametreler! Bunun yerine web sitesini dosya klasöründe düz bir yapıda saklıyoruz ve bu dosyaları orijinal yapıya eşlemek için size data.html dosyasını veriyoruz.

Elbette bu nedenle indirilen bir HTML sayfasını açamazsınız ve web'de gördüğünüz web sayfasını görmeyi beklersiniz. Bunu yapmak için, HTML dosyasının onları yerel dosya yapınızda bulabilmesi için görüntünün, komut dosyasının ve CSS kaynaklarının vs. yollarını yeniden yazmanız gerekir.

ZIP dosyasının kök dizininde bulunacak başka bir dosya Website.csv'dir. Bu, data.html dosyasıyla aynı bilgileri içerir. Ancak, web sitesindeki indirmeyi programlanmış bir şekilde okumak ve işlemek isterseniz, belki de URL’lerden indirilen web sitesini yeniden oluşturmak için URL’leri kullanarak eşlemeyi kullanarak.