أدوات لالتقاط وتحويل الويب

استخراج البيانات وتحويلها intيا مجموعة البيانات

أحد المتطلبات الأكثر شيوعًا هو استخراج البيانات من موقع ويب وتشغيلها intهيكل جدولي يمكن تصديره لمزيد من المعالجة. ولكن فقط ما هي مجموعة البيانات وكيف يتم استخدامها في مكشطة الويب GrabzIt?

مجموعة بيانات المثال: قائمة الأسعار

يوجد أدناه بيانات الجدول الموجودة في مجموعة البيانات قائمة الاسعاريتكون الجدول من ثلاثة أعمدة تسمية البند, وصف السلعة و سعر البند.

تسمية البند وصف السلعة سعر البند
الكاميرات والتصوير يأخذ الصور الرقمية $99.00

لإنشاء مجموعة البيانات هذه ، ستحتاج إلى استخدام إرشادات الكشط التالية.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

هذا يستخدم Data.save طريقة لإضافة أ قيمة البيانات إلى معين بيانات و عمود. في كل مرة Data.save يتم استدعاء الأسلوب باستخدام نفس مجموعة البيانات ومعلمات اسم العمود الذي يضاف صف جديد إلى هذا العمود. ومع ذلك ، فإن إرشادات الكشط أعلاه ليست مفيدة للغاية لأننا نقوم بإنشاء مجموعة البيانات باستخدام القيم الثابتة. يعرض الكود أدناه HTML لصفحة ويب ، وسنقوم بعد ذلك بكتابة إرشادات الكشط لاستخراج البيانات من الصفحة بشكل حيوي و save it intيا مجموعة البيانات.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

سوف نستخدم الآن Page.getTagValue طريقة لاستخراج القيم من علامات الامتداد.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

كما ترون Page.getTagValue تستخدم الطرق عامل تصفية ، والذي يحدد بشكل فريد عنصر HTML الذي يحتاج النص إلى استخلاصه منه. في هذه الحالة ، تحدد المرشحات أن سمة HTML id يجب أن تساوي spnLabel, spnDescription or spnPrice على التوالي. يمكنك بسهولة إنشاء مرشح من خلال النقر على زر تصفية أيقونة ، والتي تعرض معالج لتبسيط بناء مرشح.

بمجرد إنشاء مجموعة البيانات الخاصة بك كما أوضحنا هنا ، يمكنك أن تقرر كيف تريد تصديرها على خيارات التصدير علامة التبويب.