أدوات لالتقاط وتحويل الويب

تحويل URL و HTML إلى DOCXبيثون API

إضافة القدرة على تحويل HTML أو صفحات الويب intمستندات Word إلى التطبيق الخاص بك لم تكن أسهل مع GrabzIt's Python API. ولكن قبل أن تبدأ تذكر أنه بعد استدعاء URLToDOCX, HTMLToDOCX or FileToDOCX طرق Save or SaveTo يجب استدعاء الأسلوب لإنشاء DOCX بالفعل.

الخيارات الأساسية

التقاط صفحات ويب أثناء تحويل DOCX صفحة الويب بالكامل intمستند Word الذي يمكن أن يتكون من العديد من الصفحات. مطلوب معلمة واحدة فقط من أجل تحويل صفحة ويب intكلمة وثيقة أو ل تحويل HTML إلى DOCX كما هو مبين في الأمثلة أدناه.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

معرف مخصص

يمكنك تمرير معرف مخصص إلى DOCX الأساليب كما هو موضح أدناه ، ثم يتم إرجاع هذه القيمة إلى معالج GrabzIt Python. على سبيل المثال ، يمكن أن يكون هذا المعرف المخصص معرف قاعدة بيانات ، مما يسمح لوثيقة DOCX أن ترتبط بسجل قاعدة بيانات معين.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

الرؤوس والتذييلات

لإضافة رأس أو تذييل الصفحة إلى مستند Word ، يمكنك طلب أنك تريد تطبيق معين قالب إلى DOCX التي يتم إنشاؤها. يجب أن يكون هذا القالب saveد مقدما وسيحدد محتويات رأس وتذييل جنبا إلى جنب مع أي متغيرات خاصة. في المثال رمز أدناه يستخدم المستخدم قالب أنشأوه يسمى "القالب".

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

تحويل عنصر HTML إلى DOCX

إذا كنت تريد فقط تحويل عنصر HTML مثل div أو span مباشرة intيا مستند Word يمكنك مع مكتبة بايثون GrabzIt. يجب أن تمر محدد CSS عنصر HTML الذي ترغب في تحويله إلى targetElement طريقة GrabzItDOCXOptions فئة.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

في هذا المثال ، نود أن نلتقط كل المحتوى الموجود في النطاق الذي يحمل معرف Article، لذلك ننقل هذا إلى GrabzIt API كما هو موضح أدناه.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")