أدوات لالتقاط وتحويل الويب

وثائق مكشطة الويب

لإنشاء كشط ويب ، يجب عليك تحديد خمسة أنواع من المعلومات ، موزعة على علامات التبويب التالية.

  1. خيارات كشط
  2. المواقع المستهدفة
  3. كشط تعليمات
  4. خيارات التصدير
  5. جدول كشط

خيارات كشط

تتوفر جميع الميزات التالية لتخصيص كشط ويب في علامة التبويب خيارات الكشط.

اسم كشط اسم الخردة.

اتبع الروابط يوفر الخيارات التالية حول كيفية قيام المكشطة باتباع الروابط:

  • كما هو مطلوب - الإعداد الافتراضي والأكثر أمانًا ، سيؤدي ذلك إلى جعل الكاشطة تتبع فقط الروابط التي يتم توجيهها إليها
  • جميع الصفحات - تتبع الكاشطة كل رابط يعثر عليه
  • الصفحة الأولى - فقط اتبع الروابط الموجودة في الصفحة الأولى ، المحددة كهدف
  • حتى n صفحات من الصفحة الأولية - فقط اتبع الروابط على الصفحات بالعدد المحدد من النقرات من الصفحة الأولى
  • في الإطارات - اتبع الروابط الموجودة في الإطارات والإطارات

تجاهل ملف Robots.txt إذا تم ضبط المكشطة ، فيمكنه زيارة صفحات الويب المستثناة عادةً من الزحف بواسطة مالك الموقع.

تجاهل تنزيلات الملفات بمجرد تعيين أي روابط ، والتي تسبب تنزيل الملف عند زيارته لا يتم تنزيلها.

تجاهل التكرارات إذا تم التعيين ، فسيتجاهل الصفحات التي تساوي أو تزيد عن التشابه الذي قمت بتعيينه ، على سبيل المثال ، يمكنك تجاهل الصفحات التي تكون 95٪ هي نفسها.

الحد من كشط يسمح لك بتحديد عدد الصفحات التي يجب أن يتخلص منها مكشطة الويب قبل إيقافها.

استخدم منطقتي الزمنية إذا تم تعيينه ، فيشير إلى أن Web Scraper يجب أن يحاول تحويل أي تواريخ يقوم بإلغاءها intس المنطقة الزمنية الخاصة بك. يمكن تعيين منطقتك الزمنية على صفحة الحساب.

موقع الموقع الجغرافي الذي ستقوم Web Scraper بتنفيذه من. قد يكون ذلك مفيدًا إذا كان موقع الويب المستهدف به قيود بناءً على الموقع.

تنسيق التاريخ الافتراضي عند تحويل التواريخ التي لا يمكن فيها تحديد تنسيق التاريخ ، ستقوم Web Scraper افتراضيًا بالتنسيق المختار.

تأخير تحميل الصفحة هذا هو الوقت بالميلي ثانية التي يجب أن تنتظر فيها مكشطة الويب قبل تحليل الصفحة. هذا مفيد للغاية إذا كانت الصفحة تحتوي على الكثير من أجاكس أو كانت بطيئة في التحميل.

المواقع المستهدفة

المواقع المستهدفة

في علامة التبويب "مواقع الويب المستهدفة" ، يمكنك تحديد مواقع الويب التي تريد استخراج البيانات منها. لإخبار أداة الكشط باستخراج البيانات من موقع ويب ، عليك أولاً تحديد عنوان URL الرئيسي لك intعلى سبيل المثال http://www.example.com/shop/ كانت هذه هي أن المكشطة ستبدأ عملية الكشط ، ويمكن أن تكون صفحة ويب عادية أو وثيقة PDF أو وثيقة XML أو وثيقة JSON أو موجز RSS أو خريطة الموقع. إذا لم تكن صفحة ويب أو مستند PDF ، فسيجد الكاشطة جميع الروابط في الملف ويزور كل واحد.

لمتابعة الروابط الموجودة في عنوان URL الهدف فقط وليس أي صفحات لاحقة ، يمكنك تعيين اتبع الروابط خيار كشط إلى في الصفحة الأولى. سيؤدي ذلك إلى استخدام عنوان URL الهدف فقط لبقاء بقية الخردة.

افتراضيًا ، يتبع مكشطة الويب كل رابط يكتشفه في كل صفحة ويب يزورها. إذا كنت ترغب في تقييد ما يربط مكشطة الويب فيما يلي ، إحدى الطرق البسيطة للقيام بذلك هي تحديد نمط عنوان URL. يعمل هذا عن طريق تحديد عنوان URL مع العلامة النجمية كبطاقة برية للدلالة على أن أي أحرف يمكن أن تكون موجودة في هذا الجزء من النموذج. على سبيل المثال http://www.example.com/*/articles/* يمكن أن تتخلص من أي عنوان URL يحتوي على مقالات مثل الدليل الثاني من جذر الموقع.

يمكن لعنوان URL أيضًا تحديد عنوان URL مع معلمات لـ POST أيضًا على سبيل المثال نموذج تسجيل الدخول. للقيام بذلك ، حدد عنوان URL للنموذج في مربع النص "عنوان URL الهدف" وقم بإضافة معلمات النشر المطلوبة للاستخدام. يمكن أن تتضمن قيم متغيرات المشاركة أيضًا متغيرات GrabzIt الخاصة ، مثل:

  • {{day}} - اليوم كقيمة مكونة من رقمين
  • {{month}} - الشهر كقيمة مكونة من رقمين
  • {{year}} - السنة كقيمة من أربعة أرقام
  • {{hour}} - ساعة كقيمة مكونة من رقمين
  • {{minute}} - دقيقة كقيمة مكونة من رقمين
  • {{second}} - الثانية كقيمة مكونة من رقمين

وأخيرا يمكنك تحديد عناوين URL للبذور للتأكد من أن عناوين URL هذه مكشوفة.

عنوان URL للبذور

تتيح عناوين URL للبذور للمستخدم تحديد قائمة بعناوين URL التي يجب الزحف إليها بواسطة Web Scraper. إذا كنت تريد فقط عناوين URL للبذور التي تم كشطها ، فقم بتعيين اتبع الروابط خيارات كشط إلى لا توجد صفحات في علامة التبويب خيارات الكشط.

لتعيين عناوين URL للبذور في علامة التبويب "مواقع الويب المستهدفة" ، انقر فوق الزر "إضافة هدف" ثم حدد مربع الاختيار "تعيين عناوين URL للبذور" وحدد كل عنوان URL ليتم كشطه في سطر منفصل.

إنشاء عنوان URL أساسي من عنوان URL للنموذج

بدلاً من ذلك ، يمكنك تلقائيًا إنشاء عناوين URL أولية باستخدام عنوان URL للنموذج ، وهذا هو عنوان URL واحد يتضمن متغير URL. يحدد متغير URL مجموعة من الأرقام التي سيتم تكرارها.

{{start number|finish number|iterate number}}

  • رقم البداية الرقم الذي يبدأ به متغير URL في
  • رقم النهاية الرقم الذي ينتهي به متغير URL في
  • تكرار الرقم الرقم الذي يتغير عنوان URL به

رقم البداية هو الرقم الذي يجب أن يبدأ به متغير URL في الحساب ، والرقم النهائي هو الرقم الذي سيتوقف فيه متغير URL عن الحساب ، والرقم المتكرر هو الرقم الذي سيزداد الرقم لكل تكرار لمتغير عنوان URL.

على سبيل المثال لعنوان URL الخاص بالقالب التالي http://www.example.com/search?pageNo={{1|3|1}}

سيؤدي ذلك إلى إنشاء عناوين URL الأولية التالية:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

كشط تعليمات

أخبر تعليمات Scrape Web Scraper بالإجراءات التي يجب تنفيذها عند إلغاء موقع الويب (المواقع) الهدف. تعرض علامة التبويب تعليمات الكشط معالج الكشط افتراضيًا ، مما يسهل إضافة تعليمات الكشط التي تحتاج إليها. لتبدأ اضغط على إضافة تعليمات جديدة كشط الرابط.

سيؤدي هذا إلى فتح المعالج وسيتم تحميل عنوان URL الهدف تلقائيًا ، مما يسمح لك بتحديد ما تريد كشطه على الفور. إذا تم تحميل صفحة ويب أو وثيقة PDF ، فيمكنك النقر فوق أي رابط وستعمل كالمعتاد ، مثل التنقل إلى صفحة ويب أخرى. حتى تختار أحد الإجراءات ، في الجزء السفلي من الشاشة ، في هذا بوint ستحدد أي نقرات على المحتوى عنصر HTML الذي ترغب في استخراجه أو معالجته.

أول شيء يجب فهمه حول إرشادات الكشط هو أنه يتم تنفيذها على كل صفحة ويب بشكل افتراضي. طريقة إيقاف هذا من خلال استخدام القوالب. يمكن تعيين قالب عند تنفيذ إجراء مثل النقر فوق أحد الارتباطات ، وكلما زار المكشطة هذا الرابط أو نقر هذا الزر ، فسوف يتعرف على أنه ينتمي إلى القالب المخصص. هذا يسمح بتحديد أنواع الصفحات المختلفة. على سبيل المثال ، قد يكون لديك صفحة فئة منتج تحتوي على بعض معلومات النظرة العامة ثم صفحة تفاصيل تحتوي على معلومات المنتج. ربما تحتاج كلتا الصفحتين إلى مجموعة مختلفة من إرشادات الكشط.

قالب مكشطة

لتبدأ اختيار انقر الإجراء ، ثم بمجرد تحديد العناصر التي تريد تنفيذ الإجراء عليها والنقر فوق التالى زر أدخل اسم القالب في إنشاء قالب مربع النص الآن عندما ينفذ المكشطة هذه الإجراءات ، سيكون القالب الذي تم إرجاعه هو الاسم الذي قدمته.

ثم لتعيين قالب معين إلى تعليمات كشط تحتاج إلى تحديد القالب المطلوب من تنفيذ في القائمة المنسدلة ، والتي تظهر في نافذة الخيارات التي تظهر قبل إضافة تعليمة scrape. الخيارات الثلاثة الرئيسية عند اختيار قالب هي كما يلي:

  • كل الصفحات - لا تستخدم قالبًا ، لتعليمات الكشط هذه ، سيتم تنفيذ تعليمة scrape في جميع صفحات الويب.
  • القالب الافتراضي - لا تستخدم أحد القوالب التي يحددها المستخدم. سيتم تنفيذ تعليمة scrape على أي صفحة ويب لا تحتوي على قالب محدد.
  • معرف المستخدم القالب - أحد القوالب التي تم تعريفها بواسطتك لتحديد صفحة ويب معينة أو إجراء معين.

بمجرد تحديد أحد هذه الخيارات ، سيتم تنفيذ تعليمة scrape فقط على القالب المحدد.

استخراج البيانات

ستلاحظ أنه عند تحديد استخراج البيانات الإجراء ، تصبح سلسلة من عناصر البيانات المراد استخراجها متاحة على الفور للتنزيل في الركن الأيسر السفلي من الشاشة. هذه هي خصائص الصفحة بأكملها التي يمكنك تنزيلها. لاختيار واحد ، ما عليك سوى تحديده من قائمة الخيارات والنقر التالى لإضافة البيانات إلى بيانات.

إذا كنت ترغب في استخراج البيانات في عناصر HTML محددة بدلاً من الانتماء إلى الصفحة بأكملها التي تحتاج إلى النقر فوق عناصر HTML ذات الصلة ، يمكنك تحديد عناصر مفردة أو متعددة. ومع ذلك ، إذا كنت تختار عناصر متعددة ، فيرجى محاولة تحديد عناصر متعددة متشابهة ، مثل صفوف متعددة في عمود ، لأنه إذا تعذر على الكاشطة إنشاء قاعدة يمكنها تحديد مجموعة البيانات المحددة بشكل فريد ، فلن يتم تعليم الكشط أن تكون قادرة على أن تنشأ. علاوة على ذلك ، إذا تم تحديد العناصر المتعددة التي تقوم بالنقر فوقها على أنها تكرار البيانات بواسطة معالج مكشطة الويب الخاص بنا ، فسيتم تحديد جميع البيانات المتكررة في نفس المجموعة تلقائيًا. بمجرد تحديد كل العناصر الفردية أو المتعددة ، اختر سمة لاستخراجها من أسفل يسار الشاشة ثم انقر فوق "نعم" التالى.

إنشاء مجموعة بيانات

تتيح لك شاشة مجموعة البيانات تغيير طريقة معالجة البيانات ، على سبيل المثال يمكنك إعادة تسمية مجموعة البيانات والأعمدة الموجودة فيها ، فقط انقر على الاسم لإعادة تسميتها. عندما تضيف عمودًا إلى مجموعة بيانات ، فإنك تحتاج أيضًا إلى اختيار القالب الذي يجب تنفيذه فيه. يمكنك تغيير ذلك بالنقر فوق القائمة المنسدلة الموجودة أسفل اسم العمود.

غالبًا عند استخراج البيانات ، من الشائع تكرار بعض العناصر المكررة بشكل غير متسق ، لضمان استمرار بقاء الصفوف الصحيحة مرتبطة مع بعضها البعض. ربط الأعمدة المعايير ، لربط الأعمدة غير المتناسقة مع العمود الأكثر اتساقًا في مجموعة البيانات.

لإضافة المزيد من البيانات إلى مجموعة البيانات ، انقر فوق زر ، أو انقر فوق لإزالة البيانات من مجموعة البيانات ، أو لحذف مجموعة البيانات بأكملها. تسمح مجموعة البيانات أيضًا بتطبيق العديد من المعايير على البيانات ، للقيام بذلك ، حدد الإجراء المطلوب من الأعلى ثم انقر فوق العمود ذي الصلة لتطبيق المعايير. إذا قمت بخطأ مضيفا معايير فقط انقر فوق .

فيما يلي قائمة بأنواع المعايير المختلفة وكيفية استخدامها:

  • الحد من الصفوف - سيؤدي هذا إلى قصر عدد الصفوف المستخرجة من صفحة الويب على العدد الذي تحدده. لاستخدام انقر ثم انقر فوق الصف الذي بعده ، والذي ترغب في قطعه.
  • كرر - يكرر عناصر العمود حتى يطابق العمود طول أطول عمود. لاستخدام فقط انقر ثم انقر فوق العمود الذي ترغب في تكرار العناصر له.
  • جعل فريدة من نوعها - يزيل أي قيم مكررة لجميع القيم المدخلة intيا العمود. لاستخدام فقط انقر ثم انقر فوق العمود الذي ترغب في جعله فريدًا.
  • استخراج القيم - حدد نمطًا لاستخراج عناصر البيانات المتطابقة فقط من مجموعة نصية. لاستخدام فقط انقر ، حدد العمود ذي الصلة ، ثم اتبع الإرشادات لإنشاء نمط سيعيد البيانات ذات الصلة من string.
  • تقليم القيم - تحديد نمط لتقليص النص الزائد. لاستخدام فقط انقر ، حدد العمود ذي الصلة ، ثم اتبع الإرشادات لإنشاء نمط من شأنه تقليم النص.
  • ربط الأعمدة - يسمح لربط الأعمدة معًا. بحيث عند استخراج البيانات ، ستظهر السجلات في نفس الصف مثل الصف النسبي في العمود المرتبط حتى عندما يكون هناك عدم تطابق في عدد النتائج. لاستخدام فقط انقر ، حدد العمود المراد ربطه ثم العمود المراد الارتباط به.
  • إخفاء العمود - في بعض الأحيان تريد تضمين عمود للتصفية عليه ولكن لا تريد تضمين القيم في النتيجة النهائية. للقيام بذلك فقط اضغط ، حدد العمود الذي ترغب في استبعاده.
  • فرز تصاعدي - فرز حسب العمود ، تصاعدي. لاستخدام انقر ثم اختر العمود الذي تريد الفرز حسبه.
  • ترتيب تنازلي - فرز حسب العمود ، تنازلي. لاستخدام انقر ثم اختر العمود الذي تريد الفرز حسبه.
  • يحتوي - تشمل فقط القيم التي تحتوي على القيمة المحددة. لاستخدام انقر حدد العمود المطلوب ، ثم أدخل القيمة التي يجب أن تحتوي عليها قيم العمود.
  • يساوي - تشمل فقط القيم التي تساوي القيمة المحددة. لاستخدام انقر حدد العمود المطلوب ، ثم أدخل القيمة التي يجب أن تكون قيم العمود مساوية لها.
  • لا يساوي - تشمل فقط القيم التي لا تساوي القيمة المحددة. لاستخدام انقر حدد العمود المطلوب ، ثم أدخل القيمة التي يجب ألا يساويها العمود.
  • أقل من - تشمل فقط القيم التي هي أقل من القيمة المحددة. لاستخدام انقر لتحديد العمود المطلوب ، ثم أدخل القيمة التي يجب أن يقل عنها العمود.
  • أكثر من - تشمل فقط القيم التي تكون أكبر من القيمة المحددة. لاستخدام انقر لتحديد العمود المطلوب ، ثم أدخل القيمة التي يجب أن يتجاوزها العمود.

عندما تختار إحدى العمليات المذكورة أعلاه إذا كان يمكن أن تؤثر على أعمدة متعددة ، فسوف يسألك عما إذا كنت تريد السماح لها فقط بالتأثير على مجموعة فرعية من الأعمدة أو جميعها. في معظم الحالات ، تريد أن تؤثر على جميع الأعمدة ، ولكن في بعض الحالات يكون من المفيد الحد من الأعمدة المنجزة. على سبيل المثال ، إذا كنت تختار سلسلة من التسميات والقيمالذي يغير الموضع عبر صفحات الويب ، يمكنك تحديد جميع التصنيفات والقيم. ثم في مجموعة البيانات ، استخدم العملية يساوي لقصرها على التسمية المطلوبة وحدد أن أعمدة التسمية والقيمة يجب أن تتأثر فقط. سيضمن ذلك عدم تأثر الأعمدة الأخرى بالصفوف التي يتم حذفها ، ومن المفيد اكتمال إخفاء عمود التصنيف.

بمجرد تعديل كل ما تريد ، انقر فوق "نعم" التالى وسيتم إضافة إرشادات الكشط الخاصة بك إلى الكشط.

معالجة صفحة ويب

يمكن معالجة صفحة ويب قبل أن يتم كشطها ، وذلك بالنقر فوق القيم وكتابتها واختيارها من القائمة المنسدلة. من المهم أن تتذكر أنه على الرغم من أن هذا قد يتسبب في تحميل صفحة ويب جديدة ، لن يتم إعادة تشغيل إرشادات الكشط حتى يتم تنفيذ جميع إرشادات الكشط المطبقة.

لمعالجة صفحة ويب اختر إما انقر فوق العنصر, تحوم العنصر, التمرير, أكتب نصا or حدد القائمة المنسدلة القيمة أجراءات. إذا كنت تقوم بإجراء نقرة ، فيمكنك النقر فوق أي عدد من العناصر على صفحة ويب. وإلا يجب عليك تحديد عنصر HTML مناسب ، على سبيل المثال يجب كتابة النص في مربع نص. ثم اضغط التالى. سيؤدي هذا إلى فتح مربع خيار يتيح لك إكمال الإجراء. عند كتابة نص وتحديده من القائمة المنسدلة ، يجب اختيار البيانات المراد كتابتها أو تحديدها على التوالي. بخلاف ذلك الخيارات هي نفسها لجميع الإجراءات الثلاثة.

إذا كنت ترغب في أن تتمكن من تحديد القالب الذي يجب أن يتم تنفيذه في هذا الإجراء ولكي ينطبق إجراء النقر ، بمجرد اكتمال إجراء النقرة. ومع ذلك ، فإن تعيين قالب جديد لإجراء النقر الذي يؤدي نقرات متعددة على نفس الصفحة ، ليس فكرة جيدة ، مثل فتح النوافذ المنبثقة المضمّنة أو جعل الأشياء تظهر على الشاشة. هذا لأنه إذا تم تنفيذ إجراء النقرة فقط على قوالب معينة ، فلن تتم إعادة تعيين القالب الجديد الذي تم تعيينه بواسطة النقرة الأولى ، وبالتالي اعتمادًا على كيفية كتابة الكشط ، فقد يؤدي ذلك إلى إيقاف النقرات المستقبلية على نفس الصفحة. يمكنك أيضًا تحديد ما إذا كنت تريد تنفيذ هذا الإجراء مرة واحدة فقط ، وهو أمر مفيد إذا كنت تفعل شيئًا مثل تسجيل الدخول intيا الموقع.

تتيح لك إجراءات كتابة نص أو تحديد قيمة قائمة منسدلة لكتابة عناصر متعددة من النص أو القيام بتحديدات مربع اختيار متعددة ، على التوالي. يمكن تحريرها من خلال النقر على تعليمات الكشط تغيير أو عرض المتغيرات زر ، كما هو مبين في الصورة إلى اليسار.

قد يكون هذا مهمًا إذا كنت ترغب في كتابة قائمة بالأسماء في مربع البحث ، على سبيل المثال. لضمان تقديم نموذج فقط عندما يكون هناك قيمة في مربع البحث ، يمكن تعيين قالب في كل مرة يتم فيها كتابة النص بنجاح intلم يتم تنفيذ مربع النص وإجراء النقر على زر ما لم يتم تعيين هذا القالب. بعد تنفيذ إجراء النقرة ، سيتعين بعد ذلك تغيير القالب إلى شيء آخر لإعادة ضبط الإجراء.

بعد تنفيذ الإجراءات التي تتعامل مع مواقع الويب ، من المفيد الانتظار لفترة من الوقت إذا بدأت الإجراءات في تشغيل وظيفة AJAX ، للسماح بتحميل محتوى AJAX قبل المتابعة باستخدام الكشط. يمكنك القيام بذلك عن طريق إضافة تأخير في بعد التنفيذ انتظر مربع الكتابة.

قد ترغب في الانتقال مباشرةً إلى عنوان URL مختلف بمجرد استيفاء بعض الشروط. للقيام بذلك استخدام الذهاب إلى URL الإجراء ، الذي لن يظهر إلا عند تحديد قالب واحد على الأقل في الكشط وعندما يتم إنشاؤه يجب تعيينه إلى قالب ، للمساعدة في تجنب الحلقات اللانهائية.

أخيرًا ، يمكنك استخدام جميع واجهات برمجة تطبيقات الالتقاط من GrabzIt في قصاصات الويب الخاصة بك ، فقط اختر إجراء Capture Web Page ، واختر الالتقاط المطلوب. يمكنك تقييد ذلك لالتقاط صفحات ويب معينة داخل الكشط عن طريق تحديد قالب للتنفيذ بمجرد تحديد التالى .

بعد إضافة كل تعليمات scrape ، يمكن رؤيتها في لوحة تعليمات scrape ، يسمح التقاطع الموجود بجانب كل تعليمة scrape بحذف تعليمة scrape. إذا تم حذف تعليمة scrape التي تتطلبها تعليمات scrape الأخرى ، فسيتم أيضًا حذف هذه التعليمات. يمكنك تغيير ترتيب تعليمات الكشط عن طريق سحب أي تعليمات كشط مع رمز الاستيلاء.

كتابة تعليمات كشط يدويا

إذا كنت بحاجة إلى تخصيص إرشادات الكشط بطريقة أكثر تحديدًا أو إذا كنت ترغب في تنفيذ التعليمات البرمجية قبل أو بعد الورطات سوف تحتاج إلى تغيير تعليمات كشط يدويا.

تعتمد تعليمات scrape على جافا سكريبت ، ويأتي محرر الشفرة كاملاً مع مدقق بناء الجملة ، الإكمال التلقائي ونصائح الأدوات لجعلها سهلة قدر الإمكان.

تعليمات مكشطة الويب يمكن الوصول إلى الوظيفة الأساسية لمحرر الشفرة من خلال خيارات القائمة ، كما هو موضح في لقطة الشاشة ، ويتم توضيح الغرض من كل منها على حدة أدناه. بينما يتم الإشارة إلى أي أخطاء في بناء الجملة في إرشادات الكشط الخاصة بك في الحضيض الأيسر لمحرر الشفرة.

ساحر يتيح لك المعالج تحديد أجزاء من الصفحة التي ترغب في أخذها والقيام بمهام شائعة أخرى مثل إنشاء لقطات على الويب.

عرض تعليمات كشط يعرض رمز تعليمات الكشط للمستخدم.

حذف جميع التعليمات يحذف جميع التعليمات كشط.

وظائف صفحة الويب سوف تدخل الكلمة الصفحة intس تعليمات كشط وفتح الإكمال التلقائي ، والذي يحتوي على كل ما هو ممكن وظائف الصفحة. تسمح لك وظائف الصفحة باستخراج البيانات من صفحة الويب.

وظائف البيانات سوف تدخل كلمة البيانات الرئيسية intس تعليمات كشط. وظائف البيانات تسمح لك ل save معلومات.

وظائف الملاحة يدخل الكلمة الرئيسية للملاحة into محرر الكود. ال وظائف الملاحة تسمح لك بالتحكم في كيفية تصفح Web Scraper لموقع الويب (المواقع) المستهدفة.

وظائف عالمية يدخل الكلمة العالمية intس تعليمات كشط. هذا يتيح لك الوصول إلى وظائف التي يمكن أن تخزن البيانات بين تحليل صفحات الويب المختلفة. عند كتابة تعليمات scrape ، من المهم أن تتذكر أن حالة متغيرات JavaScript في تعليمات scrape لا يتم الاحتفاظ بها عندما يتحرك الكاشطة بين صفحات الويب ، إلا إذا كنت تستخدم وظائف Global save المتغيرات ، كما هو مبين أدناه.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

لإنشاء متغير عمومي ثابت ، تمر وفقًا للمعلمة الدائمة في طريقة Global.set ، كما هو موضح أدناه.

Global.set("myvariable", "hello", true);

وظائف فائدة يدخل الكلمة الرئيسية المساعدة intس تعليمات كشط. هذا يتيح لك استخدام وظائف مشتركة التي تجعل تدوينات الكتابة أسهل ، مثل إضافة أو إزالة الاستعلامstring المعلمات من عناوين المواقع.

وظائف المعايير يدخل الكلمة الأساسية للمعايير intس تعليمات كشط. هؤلاء وظائف يسمح لك بتحسين البيانات المستخرجة أثناء الكشط ، مثل التخلص من التكرارات.

تصفية / فلترة يسمح لك بإنشاء مرشح بسهولة ، وهذا مطلوب من قبل بعض الوظائف لتحديد عنصر HTML معين من داخل صفحة ويب. ما عليك سوى تحديد السمات التي يجب أن يكون للعنصر المستهدف الخاص بك و / أو يجب على الوالد (الوالدين) في العنصر تحديد ذلك العنصر. تأكد من أنه قبل النقر فوق هذا الخيار ، يكون المؤشر في المكان الصحيح في الوظيفة لتمرير المرشح أيضًا.

وظائف لقطة الشاشة يسمح لك بتعيين خيارات لقطة الشاشة. ما عليك سوى وضع المؤشر في الجزء الصحيح من الوظيفة ، كما هو محدد بواسطة تلميح الأدوات واضغط على خيارات لقطة الشاشة. ثم اختر كل الخيارات التي تريدها وأدخل الأمر.

تنفيذ الإجراءات قبل أو بعد كشط

يمكنك تشغيل الأوامر قبل أو بعد كشط باستخدام قائمة الخيارات المنسدلة الموجودة أعلى علامة التبويب تعليمات Scrape. أي أوامر دخلت عندما تنفيذ بعد كشط المحدد سيتم تشغيله بعد انتهاء الكشط. بينما دخلت أي أوامر عندما تنفيذ قبل كشط تم تحديده سيتم تشغيله قبل بدء الكشط.

ومع ذلك ، في أي من هذين الوضعين الخاصين ، لا يوجد سوى مجموعة فرعية من تعليمات الكشط المتاحة. الأوامر المتاحة هي تعليمات كشط البيانات والبيانات العالمية والملاحة.

Strings

Stringتُستخدم s في إرشادات الكشط ، عند تنفيذ scrape على الويب ، لتحديد النص. أ string محدد بواسطة مزدوج (") أو علامات اقتباس مفردة ('). اذا كان string بدء اقتباس مزدوج يجب أن ينتهي بعلامة اقتباس مزدوجة ، إذا كان string يبدأ مع اقتباس واحد يجب أن ينتهي مع اقتباس واحد. على سبيل المثال:

"my-class" و 'my-class'

خطأ شائع يمكن أن يحدث هو مغلق string خطأ ، وهذا هو عندما أ string لا يحتوي على سعر إغلاق كما هو موضح أعلاه أو هناك فاصل أسطر في string. ما يلي غير قانوني strings:

"my
class"

"my class

لإصلاح هذا الخطأ هو التأكد من أنها لا تحتوي على فواصل أسطر ولديها علامات اقتباس مطابقة ، مثل:

"my class" و "my class"

في بعض الأحيان تريد عرض أسعار مفردة أو مزدوجة في string. أسهل طريقة للقيام بذلك هي وضع اقتباس واحد في string محدد بعلامات اقتباس مزدوجة و اقتباس مزدوج في string محدد بعلامات اقتباس مفردة ، مثل ذلك:

"Bob's shop" و '"The best store on the web"'

بدلاً من ذلك ، يمكنك استخدام شرطة مائلة للخلف للهروب من عرض أسعار مثل:

'test\'s'

دليل كشط المهام الشائعة

رابط مدقق إنشاء مدقق ارتباط مخصص - تعرف على كيفية إنشاء مدقق ارتباط مخصص باتباع هذه الإرشادات البسيطة.
تحميل الصور قم بتنزيل جميع الصور من موقع الويب - معرفة كيفية تنزيل جميع الصور من موقع كامل.
إنشاء مجموعة بيانات استخراج البيانات وتحويلها intيا مجموعة البيانات - تعرف على كيفية إنشاء مجموعة بيانات من موقع الويب الذي تقوم بتجريفه.
استخراج الروابط استخراج الروابط من موقع على شبكة الإنترنت - معرفة كيفية استخراج جميع روابط HTML من موقع كامل و save لهم في الشكل الذي تريده.
اختر نص استخراج القيم من النص باستخدام الأنماط - تعرف على كيفية استخدام الأنماط لاستخراج القيم من كتل النص.
التعرف الضوئي على الحروف استخراج النص من الصور - معرفة كيفية استخراج النص الموجود داخل الصور.
بيانات كيفية وسادة مجموعة البيانات - تنسيق البيانات المستخرجة بشكل أفضل باستخدام الحشو.
مجموعة معالجة المصفوفات - تعرف على كيفية استخدام أساليب الأداة المساعدة للصفيف الخاص للتعامل بسهولة مع المصفوفات داخل الشظايا.
عمل أداء العمل مرة واحدة فقط خلال كشط - تعرف على كيفية تنفيذ إجراء ما مرة واحدة فقط خلال عملية قصاصة كاملة.
صقل تكرير البيانات كشط - اكتشف كيفية إزالة البيانات غير المطلوبة من الخردة.
عنوان البريد الإلكتروني كشط عناوين البريد الإلكتروني من موقع على شبكة الإنترنت - اكتشف كيف تتخلص من جميع عناوين البريد الإلكتروني من موقع الويب.
لقطة شاشة قطة كاملة الموقع intملفات PDF أو الصور - تعرف على كيفية استخدام GrabzIt's Web Scraper لالتقاط كل صفحة من موقع الويب بالكامل.
لقطة شاشة استخراج المعلومات المهيكلة من النص غير منظم - استخدم GrabzIt لاستخراج المشاعر والأسماء والمواقع والمنظمات.

تجريف المحتوى بخلاف HTML

عندما يصادف Web Scraper ملفات PDF و XML و JSON و RSS ، فسوف يحولها إلى تقريب HTML ، مما يسمح لنا Web Scraper بتحليلها بشكل صحيح ويمكنك تحديد المحتوى الذي ترغب في استخراجه. على سبيل المثال ، إذا أردت تحليل بيانات JSON ، فسوف يقوم بتحويل البيانات intتمثيل HTML الهرمي كما هو موضح بالجانب. هذا يتيح لك بناء تعليمات كشط كالمعتاد.

بطريقة مماثلة عندما يقوم المكشطة بتحميل مستند PDF ، يتم تحويل PDF intأتش تي أم أل للسماح للصور والارتباطات التشعبية والنص والجداول لتحديد واختيار كشط. على الرغم من أن PDF لا يحتوي على هيكل حقيقي ، يتم تحديد الجداول باستخدام الاستدلال وبالتالي فهي ليست دقيقة دائمًا.

خيارات التصدير

تتيح لك علامة التبويب هذه اختيار الطريقة التي ترغب في تصدير نتائجك بها ، بما في ذلك أوامر جداول بيانات Excel أو XML أو JSON أو CSV أو SQL أو مستندات HTML. بالإضافة إلى ذلك ، تتيح علامة التبويب هذه تعيين اسم نتائج الكشط المضغوط. إذا كنت تقوم فقط بتنزيل الملفات أو إنشاء لقطات على الويب ، فلا داعي لاختيار خيار تصدير حيث ستتلقى فقط ملف ZIP يحتوي على النتائج. تتيح لك علامة التبويب هذه أيضًا تحديد الطريقة التي ترغب في إرسال النتائج بها. يمكنك إرسال النتائج عبر الأمازون S3, دروببوإكس، إشعار البريد الإلكتروني ، FTP و WEBDAV.

الخيار الأخير هو عنوان رد الاتصال (Callback) ، والذي يسمح بمعالجة نتائج الخردة في التطبيق الخاص بك باستخدام موقعنا كشط API.

يمكن تعيين اسم ملف النتائج المضغوطة أو كل ملف بيانات إذا طلبت إرسالها بشكل منفصل عن طريق إلغاء تحديد خيار استخدام اسم الملف الافتراضي وتعيين اسم الملف المطلوب.

جدول كشط

عند إنشاء كشط ويب ، تتيح لك علامة التبويب Schedule Scrape ضبط الوقت الذي ترغب في بدء تشغيله فيه ، وإذا كنت ترغب في تكرار ذلك ، فكم مرة يجب أن تفعل ذلك.

رصد وتصحيح القصاصات

بمجرد بدء تشغيل كشط الويب ، سيتغير رمز الحالة إلى وسوف تبدأ الصفحات التي تمت معالجتها في الزيادة بمرور الوقت. يتم إنتاج لقطة سريعة في الوقت الحقيقي للتقدم الذي يتم إحرازه مع إنشاء ملف سجل مع لقطة شاشة عادية لآخر صفحة ويب واجهها الكاشطة. هذا يتيح لك معرفة ما يحدث أثناء الكشط. للعثور على هذه المعلومات ، انقر على أيقونة التوسيع بجوار الكشط وانقر مشاهد لكشط أنت intيجب أن يكون هذا بالتفصيل إذا كان هناك أي أخطاء مثل مشاكل في تعليمات كشط الخاص بك.

بمجرد اكتمال الكشط بنجاح ، ستتحول أيقونة الحالة إلى ، إذا لم تكن هناك نتيجة بفتح "عارض" ، فقد يخبرك السجل وآخر لقطة للشاشة بالخطأ.

واحدة من أكثر المشاكل شيوعًا التي تم الإبلاغ عنها في السجلات وهي عدم وجود تأخير كافٍ للتقديم لخدش الصفحة ، وغالبًا ما تكون هناك زيادة بسيطة في تأخير تحميل الصفحة وجدت في خيارات كشط علامة التبويب كافية لمعظم المواقع.