Web Yakalama ve Dönüştürme Araçları

URL’leri ve HTML’yi DOCX’e dönüştürme

Python API

HTML veya web sayfalarını dönüştürme yeteneği ekleme into Uygulamanıza yönelik Word belgeleri hiç bu kadar kolay olmamıştı GrabzIt'ın Python API'si. Ancak başlamadan önce aradıktan sonra bunu hatırlayın. URLToDOCX, HTMLToDOCX or FileToDOCX yöntemler Save or SaveTo DOCX'i oluşturmak için yöntem çağrılmalıdır.

Temel Seçenekler

Web sayfalarını DOCX olarak yakalamak, tüm web sayfasını dönüştürür into Çok sayıda sayfadan oluşan bir Word belgesi. Bir web sayfasını dönüştürmek için sadece bir parametre gereklidir into bir Word belgesi veya HTML'yi DOCX'e dönüştür aşağıdaki örneklerde gösterildiği gibi.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

Özel tanımlayıcı

Özel bir tanımlayıcıyı DOCX Aşağıda gösterildiği gibi yöntemler, bu değer daha sonra GrabzIt Python işleyicinize döndürülür. Örneğin, bu özel tanımlayıcı, bir DOCX belgesinin belirli bir veritabanı kaydı ile ilişkilendirilmesine izin veren bir veritabanı tanımlayıcısı olabilir.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Başlıkları ve Altbilgiler

Bir Word belgesine üstbilgi veya altbilgi eklemek için, belirli bir dilekçe uygulamak isteyebilirsiniz. şablon üretilen DOCX'e. Bu şablon olmalı saved önceden ve herhangi bir özel değişkenle birlikte üstbilgi ve altbilgi içeriğini belirtir. Aşağıdaki örnek kodda, kullanıcı "benim şablonum" adı verilen bir şablon kullanıyor.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

HTML öğesini DOCX'e dönüştür

Doğrudan bir div veya span gibi bir HTML öğesini doğrudan dönüştürmek istiyorsanız intGrabzt'in Python kütüphanesi ile yapabileceğiniz bir Word dökümanı. Geçmelisin CSS seçici dönüştürmek istediğiniz HTML öğesinin targetElement GrabzIt yöntemiDOCXOptions sınıf.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

Bu örnekte, yayındaki kimliği olan yayılma alanındaki tüm içeriği yakalamak istiyoruz. Articlebu nedenle bunu aşağıda gösterildiği gibi GrabzIt API'sine aktarıyoruz.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")