أدوات لالتقاط وتحويل الويب

إنشاء مدقق ارتباط مخصص

هذا المثال متاح أيضًا قالب.

مكشطة الويب GrabzIt يتسم بالمرونة الكبيرة مما يسمح له بأداء مجموعة متنوعة من المهام عبر الإنترنت ، مثل التحقق من ارتباطات مواقع الويب وإعداد التقارير المكسورة.

أول شيء فعله هو إنشاء كشط وقم بتعيين موقع الويب الهدف الذي تريد التحقق منه ، ثم استخدم الرمز أدناه للحصول على إرشادات الكشط.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

السطر الأول var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); مقتطفات جميع عناوين المواقع الارتباط التشعبي ويضعها في urls متغير. السطر التالي يستخدم Utility.Array.unique طريقة لجعل جميع عناوين المواقع فريدة من نوعها.

يضمن السطر الثالث عدم فحص الروابط مرتين للقيام بذلك ، وقد قرأنا عناوين URL التي سبق أن تم فحصها saveد وتصفية الروابط المستخرجة من هذا. إذا كنت تريد تسجيل كل صفحة على الرابط ، فاحذف هذا السطر.

بعد أن تم تنظيف بيانات عنوان URL ، فإننا ندور في كل عنوان URL متبقي ، ونحفظه في بيانات جنبا إلى جنب مع الصفحة الحالية ، قبل التحقق من وجود عنوان URL باستخدام Utility.URL.exists طريقة، أسلوب. نتيجة هذا الاختيار ثم أيضا saveد في مجموعة البيانات.

بدلاً من ذلك ، يمكنك التحقق من وجود صور لمواقع الويب عن طريق استبدال الرمز Page.getTagAttributes('href', {"tag":{"equals":"a"}}); مع Page.getTagAttributes('src', {"tag":{"equals":"img"}});.