أدوات لالتقاط وتحويل الويب

كيفية تنزيل موقع على شبكة الإنترنت وجميع محتوياته؟

الموقع الإلكتروني

هناك بعض الحالات عندما يكون من المهم تنزيل موقع ويب بالكامل ، وليس فقط النتيجة النهائية. لكن صفحات الويب HTML ، موارد مثل CSS والبرامج النصية والصور.

هذا ربما لأنك تريد نسخة احتياطية من الشفرة ولكن لم يعد بإمكانك الوصول إلى المصدر الأصلي لسبب ما. أو ربما تريد سجلًا مفصلاً حول كيفية تغير موقع الويب بمرور الوقت.

لحسن الحظ ، يمكن لـ GrabzIt's Web Scraper تحقيق ذلك من خلال الزحف إلى جميع صفحات الويب على موقع الويب. ثم يقوم كل مكشطة بتنزيل HTML على كل صفحة ويب مع أي موارد مشار إليها في الصفحة.

إنشاء كشط لتحميل موقع كامل

لجعل تنزيل موقع الويب الخاص بك سهلاً قدر الإمكان ، يوفر GrabzIt قالب كشط.

للبدء تحميل هذا القالب.

ثم أدخل URL الهدف، يتم بعد ذلك فحص عنوان URL تلقائيًا بحثًا عن أخطاء وأي تغييرات مطلوبة يتم إجراؤها. حافظ علي بدء Scrape تلقائيًا تم تحديد مربع الاختيار ، وستبدأ كشطتك تلقائيًا.

تخصيص الكشط الخاص بك

إذا كنت ترغب في تغيير القالب ، قم بإلغاء تحديد بدء Scrape تلقائيًا خانة الاختيار. سيكون أحد التغييرات تشغيل الكشط وفقًا لجدول منتظم ، على سبيل المثال ، لإنشاء نسخ منتظمة من موقع ويب. على ال جدول كشط انقر فوق علامة التبويب كرر كشط ثم حدد عدد المرات التي تريد أن تتكرر بها الكشط. ثم اضغط تحديث لبدء الكشط.

باستخدام موقع الويب الذي تم تنزيله

بمجرد انتهاء الكشط ، ستحصل على ملف ZIP. بعد ذلك ، سيتم استخراج ملف ZIP والداخل الموجود في دليل يسمى الملفات ، كل صفحات الويب وموارد موقع الويب التي تم تنزيلها. سيكون هناك أيضًا صفحة HTML خاصة تسمى data.html في جذر الدليل. افتح هذا الملف في متصفح الويب وستجد جدول HTML به ثلاثة أعمدة:

  • عنوان URL للمورد - هذا هو عنوان URL الذي عثر عليه مكشطة الويب على المورد. هكذا على سبيل المثال: http://www.example.com/logo.jog
  • نوع المورد - هذا هو نوع المورد الذي تم تنزيله. هناك أربعة أنواع من الموارد.
    • صفحة على الإنترنت
    • صورة
    • مورد خارجي - أي مورد تم تنزيله من علامة ارتباط
    • سيناريو
  • اسم ملف جديد - اسم ملف جديد كان المورد saveد تحت. لاحظ أن هذا العمود يحتوي أيضًا على رابط للملف ، مما يجعل فحص كل المورد الذي تم تنزيله أسهل كثيرًا.

تم تصميم هذا الملف لمساعدتك في تعيين أسماء الملفات الجديدة إلى مواقعها القديمة. هذا ضروري لأنه لا يمكن تعيين عنوان URL مباشرة إلى بنية الملف حيث يمكن أن يكون عنوان URL أكبر من أن يتم تخزينه مباشرة في مسار الملف.

كما يمكن أن يكون هناك العديد من التباديل خاصةً عندما يمكن أن تمثل صفحة الويب الكثير من المحتوى المختلف عن طريق تغيير استعلام مختلف string المعلمات! لذا بدلاً من ذلك ، نقوم بتخزين موقع الويب في بنية مسطحة في مجلد الملف ونمنحك ملف data.html لتعيين هذه الملفات إلى الهيكل الأصلي.

بالطبع بسبب هذا ، لا يمكنك فتح صفحة HTML التي تم تنزيلها وتتوقع رؤية صفحة الويب التي شاهدتها على الويب. للقيام بذلك ، ستحتاج إلى إعادة كتابة مسارات الصورة والبرنامج النصي وموارد CSS ، إلخ ، حتى يتمكن ملف HTML من العثور عليها في بنية ملفك المحلي.

يسمى الملف الآخر الذي سيتم تضمينه في جذر ملف ZIP Website.csv. يحتوي هذا بالضبط على نفس المعلومات مثل ملف data.html. ومع ذلك ، يتم تضمين ذلك في حالة الرغبة في قراءة تنزيل موقع الويب ومعالجته بشكل برمجي ربما باستخدام التعيين من URL إلى الملفات لإعادة إنشاء موقع الويب الذي تم تنزيله.