أدوات لالتقاط وتحويل الويب

كشط عناوين البريد الإلكتروني من موقع على شبكة الإنترنت

المثالان التاليان جزء من نفس الشيء قالب.

مكشطة الويب GrabzIt يوفر العديد من طرق المساعدة الخاصة لتسهيل استخراج عناوين البريد الإلكتروني من موقع ويب. المثال التالي يحصل على جميع محتويات HTML من صفحة ويب ثم يمر عبر Utility.Text.extractAddresses طريقة للعثور على جميع عناوين البريد الإلكتروني صالحة قبل حفظ العناوين intمجموعة بيانات الزراعة العضوية ، والتي يتم إرسالها بعد ذلك إلى المستخدم.

بدلاً من ذلك ، يمكن فقط استخراج عنوان البريد الإلكتروني المطابق الأول باستخدام Utility.Text.extractAddress الأسلوب.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

كشط عناوين البريد الإلكتروني من وثائق PDF

يمكن أيضا أن تكون مستندات PDF كشط لعناوين البريد الإلكتروني بطريقة مشابهة لكيفية صفحات الويب الموضحة أعلاه. كما ترون في المثال أدناه ، فإن العملية هي نفسها تمامًا باستثناء أن PDF.getText() يستخدم الأسلوب بدلا من Page.getHtml() الأسلوب.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

كشط عناوين البريد الإلكتروني من الصور

GrabzIt لديه القدرة على استخراج النص من الصور هذا يعني أنه يمكن أيضًا الاستفادة من هذه القدرة لاستخراج عناوين البريد الإلكتروني من الصور. المثال أدناه يستخلص أي عناوين بريد إلكتروني من جميع الصور على صفحة ويب.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

بينما تستخرج تعليمات الكشط أدناه أي إضافات للبريد الإلكتروني من الصور الموجودة في مستندات PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));