أدوات لالتقاط وتحويل الويب

وثائق مكشطة الويب

لإنشاء كشط ويب ، يجب عليك تحديد خمسة أنواع من المعلومات ، موزعة على علامات التبويب التالية.

  1. خيارات كشط
  2. موقع الهدف
  3. كشط تعليمات
  4. خيارات التصدير
  5. جدول كشط

خيارات كشط

تتوفر جميع الميزات التالية لتخصيص كشط ويب في علامة التبويب خيارات الكشط.

اسم كشط اسم الخردة.

اتبع الروابط يوفر الخيارات التالية حول كيفية قيام المكشطة باتباع الروابط:

تجاهل تنزيلات الملفات بمجرد تعيين أي روابط ، والتي تسبب تنزيل الملف عند زيارته لا يتم تنزيلها.

تجاهل ملف Robots.txt إذا تم ضبط المكشطة ، فيمكنه زيارة صفحات الويب المستثناة عادةً من الزحف بواسطة مالك الموقع.

تجاهل صفحات الخطأ إذا تم ضبطها، فسوف تتخطى أداة استخراج الويب أي صفحات ويب تبلغ عن خطأ. لذا فإن أي رموز حالة HTTP 400 أو أعلى.

تجاهل أجزاء URL إذا تم تعيينها، فسوف تتجاهل أداة استخراج الويب الجزء من عنوان URL بعد # تُستخدم هذه الميزة بشكل شائع للإشارة إلى إشارة مرجعية على نفس الصفحة وبالتالي تؤدي عادةً إلى كشط الصفحات التي لا داعي لها. ومع ذلك، تستخدم بعض مواقع الويب هذه الميزة لعرض محتوى مختلف، وفي هذه الحالة يجب تعطيل هذا الإعداد. ينطبق هذا الخيار فقط عندما لا تكون روابط المتابعة مطلوبة.

تجاهل التكرارات إذا تم التعيين ، فسيتجاهل الصفحات التي تساوي أو تزيد عن التشابه الذي قمت بتعيينه ، على سبيل المثال ، يمكنك تجاهل الصفحات التي تكون 95٪ هي نفسها.

الحد من كشط يسمح لك بتحديد عدد الصفحات التي يجب أن يتخلص منها مكشطة الويب قبل إيقافها.

استخدم منطقتي الزمنية إذا تم تعيينه ، فيشير إلى أن Web Scraper يجب أن يحاول تحويل أي تواريخ يقوم بإلغاءها intس المنطقة الزمنية الخاصة بك. يمكن تعيين منطقتك الزمنية على صفحة الحساب.

الموقع الجغرافي الموقع الجغرافي الذي ستقوم Web Scraper بتنفيذه من. قد يكون ذلك مفيدًا إذا كان موقع الويب المستهدف به قيود بناءً على الموقع.

تنسيق التاريخ الافتراضي عند تحويل التواريخ التي لا يمكن فيها تحديد تنسيق التاريخ ، ستقوم Web Scraper افتراضيًا بالتنسيق المختار.

تأخير تحميل الصفحة هذا هو الوقت بالميلي ثانية التي يجب أن تنتظر فيها مكشطة الويب قبل تحليل الصفحة. هذا مفيد للغاية إذا كانت الصفحة تحتوي على الكثير من أجاكس أو كانت بطيئة في التحميل.

موقع الهدف

موقع الهدف

في علامة التبويب موقع الويب المستهدف، يمكنك تحديد مواقع الويب التي تريد استخراج البيانات منها. لإخبار أداة الكشط باستخراج البيانات من موقع ويب، عليك أولاً تحديد عنوان URL الرئيسي الذي أنت عليه intعلى سبيل المثال http://www.example.com/shop/ كانت هذه هي أن المكشطة ستبدأ عملية الكشط ، ويمكن أن تكون صفحة ويب عادية أو وثيقة PDF أو وثيقة XML أو وثيقة JSON أو موجز RSS أو خريطة الموقع. إذا لم تكن صفحة ويب أو مستند PDF ، فسيجد الكاشطة جميع الروابط في الملف ويزور كل واحد.

لمتابعة الروابط الموجودة في عنوان URL الهدف فقط وليس أي صفحات لاحقة ، يمكنك تعيين اتبع الروابط خيار كشط إلى في الصفحة الأولى. سيؤدي ذلك إلى استخدام عنوان URL الهدف فقط لبقاء بقية الخردة.

نمط عنوان URL

افتراضيًا ، يتبع مكشطة الويب كل رابط يكتشفه في كل صفحة ويب يزورها. إذا كنت ترغب في تقييد ما يربط مكشطة الويب كما يلي، إحدى الطرق البسيطة للقيام بذلك هي تحديد نمط عنوان URL. تعمل هذه التقنية القوية بشكل أساسي عن طريق تحديد عنوان URL بالعلامة النجمية كحرف بدل للإشارة إلى إمكانية وجود أي أحرف في هذا الجزء من النمط. على سبيل المثال http://www.example.com/*/articles/* يمكن أن تتخلص من أي عنوان URL يحتوي على مقالات مثل الدليل الثاني من جذر الموقع.

هناك طريقة أكثر تقييدًا لتحديد نمط عنوان URL وهي تحديد البدائل. على سبيل المثال ، لن يتطابق هذا المثال إلا مع المتجر أو الأخبار: http://www.example.com/ /*

لذلك هذا من شأنه أن يطابق هذا http://www.example.com/store/products/1 ولكن ليس http://www.example.com/about/.

أو بدلاً من ذلك من الممكن مطابقة كل شيء ما عدا شيء ما. على سبيل المثال، لن يتطابق هذا المثال مع المتجر أو الأخبار: http://www.example.com/ /*

لذلك هذا من شأنه أن يطابق هذا http://www.example.com/about/ ولكن ليس http://www.example.com/store/products/1!

يمكن أن يحتوي نمط عنوان URL أيضًا على كلمات رئيسية. الكلمة الأساسية هي أي شيء موجود بين قوسين مربعين. لذا [[URL_START]]www.example.com* سيتطابق مع أي بداية صالحة لعنوان URL http://www.example.com/, https://www.example.com/ أو حتى ftp://www.example.com/ على سبيل المثال.

عنوان URL للبذور

تتيح عناوين URL للبذور للمستخدم تحديد قائمة بعناوين URL التي يجب الزحف إليها بواسطة Web Scraper. إذا كنت تريد فقط عناوين URL للبذور التي تم كشطها ، فقم بتعيين اتبع الروابط خيارات كشط إلى لا توجد صفحات في علامة التبويب خيارات الكشط.

لتعيين عناوين URL للبذور في علامة تبويب موقع الويب المستهدف، انقر فوق الزر "إضافة هدف" ثم حدد مربع الاختيار "تعيين عناوين URL للبذور" وحدد كل عنوان URL ليتم استخلاصه على سطر منفصل.

إنشاء عنوان URL أساسي من عنوان URL للنموذج

بدلاً من ذلك ، يمكنك تلقائيًا إنشاء عناوين URL أولية باستخدام عنوان URL للنموذج ، وهذا هو عنوان URL واحد يتضمن متغير URL. يحدد متغير URL مجموعة من الأرقام التي سيتم تكرارها.

رقم البداية هو الرقم الذي يجب أن يبدأ به متغير URL في الحساب ، والرقم النهائي هو الرقم الذي سيتوقف فيه متغير URL عن الحساب ، والرقم المتكرر هو الرقم الذي سيزداد الرقم لكل تكرار لمتغير عنوان URL.

على سبيل المثال لعنوان URL الخاص بالقالب التالي http://www.example.com/search?pageNo=

سيؤدي ذلك إلى إنشاء عناوين URL الأولية التالية:

تنفيذ المشاركة

يمكن لعنوان URL أيضًا تحديد عنوان URL مع معلمات لـ POST أيضًا على سبيل المثال نموذج تسجيل الدخول. للقيام بذلك ، حدد عنوان URL للنموذج في مربع النص "عنوان URL الهدف" وقم بإضافة معلمات النشر المطلوبة للاستخدام. يمكن أن تتضمن قيم متغيرات المشاركة أيضًا متغيرات GrabzIt الخاصة ، مثل:

كشط تعليمات

تخبر تعليمات الكشط Web Scraper بالإجراءات التي يجب تنفيذها عند إلغاء موقع الويب الهدف. تعرض علامة التبويب تعليمات الكشط معالج الكشط افتراضيًا ، مما يسهل إضافة إرشادات الكشط التي تحتاجها. يظهر مثال جيد لاستخدام هذا المعالج في ملف قائمة المنتجات وتفاصيل البرنامج التعليمي كشط.

بمجرد أن تصبح جاهزًا لبدء الكشط ، اضغط على إضافة تعليمات جديدة كشط الرابط.

سيؤدي هذا إلى فتح المعالج وسيتم تحميل عنوان URL الهدف تلقائيًا ، مما يسمح لك بتحديد ما تريد كشطه على الفور. إذا تم تحميل صفحة ويب أو وثيقة PDF ، فيمكنك النقر فوق أي رابط وستعمل كالمعتاد ، مثل التنقل إلى صفحة ويب أخرى. حتى تختار أحد الإجراءات ، في الجزء السفلي من الشاشة ، في هذا بوint ستحدد أي نقرات على المحتوى عنصر HTML الذي ترغب في استخراجه أو معالجته.

أول شيء يجب فهمه حول إرشادات الكشط هو أنه يتم تنفيذها على كل صفحة ويب بشكل افتراضي. طريقة إيقاف هذا من خلال استخدام القوالب. يمكن تعيين قالب عند تنفيذ إجراء مثل النقر فوق أحد الارتباطات ، وكلما زار المكشطة هذا الرابط أو نقر هذا الزر ، فسوف يتعرف على أنه ينتمي إلى القالب المخصص. هذا يسمح بتحديد أنواع الصفحات المختلفة. على سبيل المثال ، قد يكون لديك صفحة فئة منتج تحتوي على بعض معلومات النظرة العامة ثم صفحة تفاصيل تحتوي على معلومات المنتج. ربما تحتاج كلتا الصفحتين إلى مجموعة مختلفة من إرشادات الكشط.

قالب مكشطة

لتبدأ اختيار انقر الإجراء ، ثم بمجرد تحديد العناصر التي تريد تنفيذ الإجراء عليها والنقر فوق التالى زر أدخل اسم القالب في إنشاء قالب مربع النص الآن عندما ينفذ المكشطة هذه الإجراءات ، سيكون القالب الذي تم إرجاعه هو الاسم الذي قدمته.

ثم لتعيين قالب معين إلى تعليمات كشط تحتاج إلى تحديد القالب المطلوب من تنفيذ في القائمة المنسدلة ، والتي تظهر في نافذة الخيارات التي تظهر قبل إضافة تعليمة scrape. الخيارات الثلاثة الرئيسية عند اختيار قالب هي كما يلي:

بمجرد تحديد أحد هذه الخيارات ، سيتم تنفيذ تعليمة scrape فقط على القالب المحدد.

استخراج البيانات

ستلاحظ أنه عند تحديد استخراج البيانات عمل. يدعوك الجزء السفلي الأيسر من الشاشة إما إلى تحديد عنصر HTML في النافذة أعلاه أو اختيار خاصية صفحة عامة.

لاستخدام خاصية صفحة عمومية ، انقر فوق خاصية الصفحة العالمية حلقة الوصل. ثم أكد أنك تريد المتابعة. سيكون لديك الآن قائمة بالخصائص التي يمكن استخلاصها مباشرة من الصفحة. على سبيل المثال: عنوان الصفحة.

لاختيار واحد ، ما عليك سوى تحديده من قائمة الخيارات والنقر التالى لإضافة البيانات إلى بيانات.

إذا كنت ترغب في استخراج البيانات في عناصر HTML محددة بدلاً من الانتماء إلى الصفحة بأكملها التي تحتاج إلى النقر فوق عناصر HTML ذات الصلة ، يمكنك تحديد عناصر مفردة أو متعددة. ومع ذلك ، إذا كنت تختار عناصر متعددة ، فيرجى محاولة تحديد عناصر متعددة متشابهة ، مثل صفوف متعددة في عمود ، لأنه إذا تعذر على الكاشطة إنشاء قاعدة يمكنها تحديد مجموعة البيانات المحددة بشكل فريد ، فلن يتم تعليم الكشط أن تكون قادرة على أن تنشأ. علاوة على ذلك ، إذا تم تحديد العناصر المتعددة التي تقوم بالنقر فوقها على أنها تكرار البيانات بواسطة معالج مكشطة الويب الخاص بنا ، فسيتم تحديد جميع البيانات المتكررة في نفس المجموعة تلقائيًا. بمجرد تحديد كل العناصر الفردية أو المتعددة ، اختر سمة لاستخراجها من أسفل يسار الشاشة ثم انقر فوق "نعم" التالى.

إنشاء مجموعة بيانات

تتيح لك شاشة مجموعة البيانات تغيير طريقة معالجة البيانات ، على سبيل المثال يمكنك إعادة تسمية مجموعة البيانات والأعمدة الموجودة فيها ، فقط انقر على الاسم لإعادة تسميتها. عندما تضيف عمودًا إلى مجموعة بيانات ، فإنك تحتاج أيضًا إلى اختيار القالب الذي يجب تنفيذه فيه. يمكنك تغيير ذلك بالنقر فوق القائمة المنسدلة الموجودة أسفل اسم العمود.

غالبًا عند استخراج البيانات ، من الشائع تكرار بعض العناصر المكررة بشكل غير متسق ، لضمان استمرار بقاء الصفوف الصحيحة مرتبطة مع بعضها البعض. ربط الأعمدة المعايير ، لربط الأعمدة غير المتناسقة مع العمود الأكثر اتساقًا في مجموعة البيانات.

لإضافة المزيد من البيانات إلى مجموعة البيانات ، انقر فوق زر ، أو انقر فوق لإزالة البيانات من مجموعة البيانات ، أو لحذف مجموعة البيانات بأكملها. تسمح مجموعة البيانات أيضًا بتطبيق العديد من المعايير على البيانات ، للقيام بذلك ، حدد الإجراء المطلوب من الأعلى ثم انقر فوق العمود ذي الصلة لتطبيق المعايير. إذا قمت بخطأ مضيفا معايير فقط انقر فوق .

فيما يلي قائمة بأنواع المعايير المختلفة وكيفية استخدامها:

عندما تختار إحدى العمليات المذكورة أعلاه إذا كان يمكن أن تؤثر على أعمدة متعددة ، فسوف يسألك عما إذا كنت تريد السماح لها فقط بالتأثير على مجموعة فرعية من الأعمدة أو جميعها. في معظم الحالات ، تريد أن تؤثر على جميع الأعمدة ، ولكن في بعض الحالات يكون من المفيد الحد من الأعمدة المنجزة. على سبيل المثال ، إذا كنت تختار سلسلة من التسميات والقيمالذي يغير الموضع عبر صفحات الويب ، يمكنك تحديد جميع التصنيفات والقيم. ثم في مجموعة البيانات ، استخدم العملية يساوي لقصرها على التسمية المطلوبة وحدد أن أعمدة التسمية والقيمة يجب أن تتأثر فقط. سيضمن ذلك عدم تأثر الأعمدة الأخرى بالصفوف التي يتم حذفها ، ومن المفيد اكتمال إخفاء عمود التصنيف.

بمجرد تعديل كل ما تريد ، انقر فوق "نعم" التالى وستتم إضافة تعليمات الكشط إلى الكشط. لديك بعد ذلك خيار إضافة المزيد من تعليمات الكشط إذا كنت ترغب في ذلك.

معالجة صفحة ويب

يمكن معالجة صفحة ويب قبل أن يتم كشطها ، وذلك بالنقر فوق القيم وكتابتها واختيارها من القائمة المنسدلة. من المهم أن تتذكر أنه على الرغم من أن هذا قد يتسبب في تحميل صفحة ويب جديدة ، لن يتم إعادة تشغيل إرشادات الكشط حتى يتم تنفيذ جميع إرشادات الكشط المطبقة.

لمعالجة صفحة ويب اختر إما انقر فوق العنصر, تحوم العنصر, التمرير, أكتب نصا or حدد القائمة المنسدلة القيمة أجراءات. إذا كنت تقوم بإجراء نقرة ، فيمكنك النقر فوق أي عدد من العناصر على صفحة ويب. وإلا يجب عليك تحديد عنصر HTML مناسب ، على سبيل المثال يجب كتابة النص في مربع نص. ثم اضغط التالى. سيؤدي هذا إلى فتح مربع خيار يتيح لك إكمال الإجراء. عند كتابة نص وتحديده من القائمة المنسدلة ، يجب اختيار البيانات المراد كتابتها أو تحديدها على التوالي. بخلاف ذلك الخيارات هي نفسها لجميع الإجراءات الثلاثة.

إذا كنت ترغب في أن تتمكن من تحديد القالب الذي يجب أن يتم تنفيذه في هذا الإجراء ولكي ينطبق إجراء النقر ، بمجرد اكتمال إجراء النقرة. ومع ذلك ، فإن تعيين قالب جديد لإجراء النقر الذي يؤدي نقرات متعددة على نفس الصفحة ، ليس فكرة جيدة ، مثل فتح النوافذ المنبثقة المضمّنة أو جعل الأشياء تظهر على الشاشة. هذا لأنه إذا تم تنفيذ إجراء النقرة فقط على قوالب معينة ، فلن تتم إعادة تعيين القالب الجديد الذي تم تعيينه بواسطة النقرة الأولى ، وبالتالي اعتمادًا على كيفية كتابة الكشط ، فقد يؤدي ذلك إلى إيقاف النقرات المستقبلية على نفس الصفحة. يمكنك أيضًا تحديد ما إذا كنت تريد تنفيذ هذا الإجراء مرة واحدة فقط ، وهو أمر مفيد إذا كنت تفعل شيئًا مثل تسجيل الدخول intيا الموقع.

تتيح لك إجراءات كتابة نص أو تحديد قيمة قائمة منسدلة لكتابة عناصر متعددة من النص أو القيام بتحديدات مربع اختيار متعددة ، على التوالي. يمكن تحريرها من خلال النقر على تعليمات الكشط تغيير أو عرض المتغيرات زر ، كما هو مبين في الصورة إلى اليسار.

قد يكون هذا مهمًا إذا كنت ترغب في كتابة قائمة بالأسماء في مربع البحث ، على سبيل المثال. لضمان تقديم نموذج فقط عندما يكون هناك قيمة في مربع البحث ، يمكن تعيين قالب في كل مرة يتم فيها كتابة النص بنجاح intلم يتم تنفيذ مربع النص وإجراء النقر على زر ما لم يتم تعيين هذا القالب. بعد تنفيذ إجراء النقرة ، سيتعين بعد ذلك تغيير القالب إلى شيء آخر لإعادة ضبط الإجراء.

بعد تنفيذ الإجراءات التي تتعامل مع مواقع الويب ، من المفيد الانتظار لفترة من الوقت إذا بدأت الإجراءات في تشغيل وظيفة AJAX ، للسماح بتحميل محتوى AJAX قبل المتابعة باستخدام الكشط. يمكنك القيام بذلك عن طريق إضافة تأخير في بعد التنفيذ انتظر مربع الكتابة.

قد ترغب في الانتقال مباشرةً إلى عنوان URL مختلف بمجرد استيفاء بعض الشروط. للقيام بذلك استخدام الذهاب إلى URL الإجراء ، الذي لن يظهر إلا عند تحديد قالب واحد على الأقل في الكشط وعندما يتم إنشاؤه يجب تعيينه إلى قالب ، للمساعدة في تجنب الحلقات اللانهائية.

أخيرًا ، يمكنك استخدام جميع واجهات برمجة تطبيقات الالتقاط من GrabzIt في قصاصات الويب الخاصة بك ، فقط اختر إجراء Capture Web Page ، واختر الالتقاط المطلوب. يمكنك تقييد ذلك لالتقاط صفحات ويب معينة داخل الكشط عن طريق تحديد قالب للتنفيذ بمجرد تحديد التالى .

بعد إضافة كل تعليمات scrape ، يمكن رؤيتها في لوحة تعليمات scrape ، يسمح التقاطع الموجود بجانب كل تعليمة scrape بحذف تعليمة scrape. إذا تم حذف تعليمة scrape التي تتطلبها تعليمات scrape الأخرى ، فسيتم أيضًا حذف هذه التعليمات. يمكنك تغيير ترتيب تعليمات الكشط عن طريق سحب أي تعليمات كشط مع رمز الاستيلاء.

كتابة تعليمات كشط يدويا

إذا كنت بحاجة إلى تخصيص تعليمات الكشط بطريقة أكثر تحديدًا ، فستحتاج إلى تغيير تعليمات الكشط يدويًا.

تعتمد تعليمات scrape على جافا سكريبت ، ويأتي محرر الشفرة كاملاً مع مدقق بناء الجملة ، الإكمال التلقائي ونصائح الأدوات لجعلها سهلة قدر الإمكان.

تعليمات مكشطة الويب يمكن الوصول إلى الوظيفة الأساسية لمحرر الشفرة من خلال خيارات القائمة ، كما هو موضح في لقطة الشاشة ، ويتم توضيح الغرض من كل منها على حدة أدناه. بينما يتم الإشارة إلى أي أخطاء في بناء الجملة في إرشادات الكشط الخاصة بك في الحضيض الأيسر لمحرر الشفرة.

ساحر يتيح لك المعالج تحديد أجزاء من الصفحة التي ترغب في أخذها والقيام بمهام شائعة أخرى مثل إنشاء لقطات على الويب.

عرض تعليمات كشط يعرض رمز تعليمات الكشط للمستخدم.

حذف جميع التعليمات يحذف جميع التعليمات كشط.

وظائف صفحة الويب سوف تدخل الكلمة الصفحة intس تعليمات كشط وفتح الإكمال التلقائي ، والذي يحتوي على كل ما هو ممكن وظائف الصفحة. تسمح لك وظائف الصفحة باستخراج البيانات من صفحة الويب.

وظائف البيانات سوف تدخل كلمة البيانات الرئيسية intس تعليمات كشط. وظائف البيانات تسمح لك ل save معلومات.

وظائف الملاحة يدخل الكلمة الرئيسية للملاحة into محرر الكود. ال وظائف الملاحة تسمح لك بالتحكم في كيفية تنقل Web Scraper في موقع الويب المستهدف.

وظائف عالمية يدخل الكلمة العالمية intس تعليمات كشط. هذا يتيح لك الوصول إلى وظائف التي يمكن أن تخزن البيانات بين تحليل صفحات الويب المختلفة. عند كتابة تعليمات scrape ، من المهم أن تتذكر أن حالة متغيرات JavaScript في تعليمات scrape لا يتم الاحتفاظ بها عندما يتحرك الكاشطة بين صفحات الويب ، إلا إذا كنت تستخدم وظائف Global save المتغيرات ، كما هو مبين أدناه.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

لإنشاء متغير عمومي ثابت ، تمر وفقًا للمعلمة الدائمة في طريقة Global.set ، كما هو موضح أدناه.

Global.set("myvariable", "hello", true);

وظائف فائدة يدخل الكلمة الرئيسية المساعدة intس تعليمات كشط. هذا يتيح لك استخدام وظائف مشتركة التي تجعل تدوينات الكتابة أسهل ، مثل إضافة أو إزالة الاستعلامstring المعلمات من عناوين المواقع.

وظائف المعايير يدخل الكلمة الأساسية للمعايير intس تعليمات كشط. هؤلاء وظائف يسمح لك بتحسين البيانات المستخرجة أثناء الكشط ، مثل التخلص من التكرارات.

منقي يسمح لك بإنشاء مرشح بسهولة ، وهذا مطلوب من قبل بعض الوظائف لتحديد عنصر HTML معين من داخل صفحة ويب. ما عليك سوى تحديد السمات التي يجب أن يكون للعنصر المستهدف الخاص بك و / أو يجب على الوالد (الوالدين) في العنصر تحديد ذلك العنصر. تأكد من أنه قبل النقر فوق هذا الخيار ، يكون المؤشر في المكان الصحيح في الوظيفة لتمرير المرشح أيضًا.

وظائف لقطة الشاشة يسمح لك بتعيين خيارات لقطة الشاشة. ما عليك سوى وضع المؤشر في الجزء الصحيح من الوظيفة ، كما هو محدد بواسطة تلميح الأدوات واضغط على خيارات لقطة الشاشة. ثم اختر كل الخيارات التي تريدها وأدخل الأمر.

Strings

Stringتُستخدم s في إرشادات الكشط ، عند تنفيذ scrape على الويب ، لتحديد النص. أ string محدد بواسطة مزدوج (") أو علامات اقتباس مفردة ('). اذا كان string بدء اقتباس مزدوج يجب أن ينتهي بعلامة اقتباس مزدوجة ، إذا كان string يبدأ مع اقتباس واحد يجب أن ينتهي مع اقتباس واحد. على سبيل المثال:

"my-class" و 'my-class'

خطأ شائع يمكن أن يحدث هو مغلق string خطأ ، وهذا هو عندما أ string لا يحتوي على سعر إغلاق كما هو موضح أعلاه أو هناك فاصل أسطر في string. ما يلي غير قانوني strings:

"my
class"

"my class

لإصلاح هذا الخطأ هو التأكد من أنها لا تحتوي على فواصل أسطر ولديها علامات اقتباس مطابقة ، مثل:

"my class" و "my class"

في بعض الأحيان تريد عرض أسعار مفردة أو مزدوجة في string. أسهل طريقة للقيام بذلك هي وضع اقتباس واحد في string محدد بعلامات اقتباس مزدوجة و اقتباس مزدوج في string محدد بعلامات اقتباس مفردة ، مثل ذلك:

"Bob's shop" و '"The best store on the web"'

بدلاً من ذلك ، يمكنك استخدام شرطة مائلة للخلف للهروب من عرض أسعار مثل:

'test\'s'

دليل كشط المهام الشائعة

رابط مدقق إنشاء مدقق ارتباط مخصص - تعرف على كيفية إنشاء مدقق ارتباط مخصص باتباع هذه الإرشادات البسيطة.
تحميل الصور قم بتنزيل جميع الصور من موقع الويب - معرفة كيفية تنزيل جميع الصور من موقع كامل.
إنشاء مجموعة بيانات استخراج البيانات وتحويلها intيا مجموعة البيانات - تعرف على كيفية إنشاء مجموعة بيانات من موقع الويب الذي تقوم بتجريفه.
استخراج الروابط استخراج الروابط من موقع على شبكة الإنترنت - معرفة كيفية استخراج جميع روابط HTML من موقع كامل و save لهم في الشكل الذي تريده.
اختر نص استخراج القيم من النص باستخدام الأنماط - تعرف على كيفية استخدام الأنماط لاستخراج القيم من كتل النص.
التعرف الضوئي على الحروف استخراج النص من الصور - معرفة كيفية استخراج النص الموجود داخل الصور.
بيانات كيفية وسادة مجموعة البيانات - تنسيق البيانات المستخرجة بشكل أفضل باستخدام الحشو.
مجموعة معالجة المصفوفات - تعرف على كيفية استخدام أساليب الأداة المساعدة للصفيف الخاص للتعامل بسهولة مع المصفوفات داخل الشظايا.
اكشن أداء العمل مرة واحدة فقط خلال كشط - تعرف على كيفية تنفيذ إجراء ما مرة واحدة فقط خلال عملية قصاصة كاملة.
صقل تكرير البيانات كشط - اكتشف كيفية إزالة البيانات غير المطلوبة من الخردة.
البريد الإلكتروني كشط عناوين البريد الإلكتروني من موقع على شبكة الإنترنت - اكتشف كيف تتخلص من جميع عناوين البريد الإلكتروني من موقع الويب.
لقطة شاشة قطة كاملة الموقع intملفات PDF أو الصور - تعرف على كيفية استخدام GrabzIt's Web Scraper لالتقاط كل صفحة من موقع الويب بالكامل.
لقطة شاشة استخراج المعلومات المهيكلة من النص غير منظم - استخدم GrabzIt لاستخراج المشاعر والأسماء والمواقع والمنظمات.

تجريف المحتوى بخلاف HTML

عندما يصادف Web Scraper ملفات PDF و XML و JSON و RSS ، فسوف يحولها إلى تقريب HTML ، مما يسمح لنا Web Scraper بتحليلها بشكل صحيح ويمكنك تحديد المحتوى الذي ترغب في استخراجه. على سبيل المثال ، إذا أردت تحليل بيانات JSON ، فسوف يقوم بتحويل البيانات intتمثيل HTML الهرمي كما هو موضح بالجانب. هذا يتيح لك بناء تعليمات كشط كالمعتاد.

بطريقة مماثلة عندما يقوم المكشطة بتحميل مستند PDF ، يتم تحويل PDF intأتش تي أم أل للسماح للصور والارتباطات التشعبية والنص والجداول لتحديد واختيار كشط. على الرغم من أن PDF لا يحتوي على هيكل حقيقي ، يتم تحديد الجداول باستخدام الاستدلال وبالتالي فهي ليست دقيقة دائمًا.

خيارات التصدير

تتيح لك علامة التبويب هذه اختيار الطريقة التي ترغب في تصدير نتائجك بها ، بما في ذلك أوامر جداول بيانات Excel أو XML أو JSON أو CSV أو SQL أو مستندات HTML. بالإضافة إلى ذلك ، تتيح علامة التبويب هذه تعيين اسم نتائج الكشط المضغوط. إذا كنت تقوم فقط بتنزيل الملفات أو إنشاء لقطات على الويب ، فلا داعي لاختيار خيار تصدير حيث ستتلقى فقط ملف ZIP يحتوي على النتائج. تتيح لك علامة التبويب هذه أيضًا تحديد الطريقة التي ترغب في إرسال النتائج بها. يمكنك إرسال النتائج عبر الأمازون S3, Dropbox ، إشعار البريد الإلكتروني ، FTP و WEBDAV.

الخيار الأخير هو عنوان رد الاتصال (Callback) ، والذي يسمح بمعالجة نتائج الخردة في التطبيق الخاص بك باستخدام موقعنا كشط API.

يمكن تعيين اسم ملف النتائج المضغوطة أو كل ملف بيانات إذا طلبت إرسالها بشكل منفصل عن طريق إلغاء تحديد خيار استخدام اسم الملف الافتراضي وتعيين اسم الملف المطلوب. بالإضافة إلى ذلك ، يمكن إضافة طابع زمني إلى اسم الملف الخاص بك عن طريق وضعه {GrabzIt_Timestamp_UTC+1} في اسم الملف. يشير +1 إلى الإزاحة بالساعات من التوقيت العالمي المنسق (UTC).

يمكنك أيضًا عرض نتائج الكشط بالنقر فوق عرض النتائج الزر بجوار كشطك، سيعرض هذا أي نتائج كشط في الوقت الفعلي ، بالإضافة إلى النتائج السابقة التي تم إجراؤها خلال الـ 48 ساعة الماضية.

جدول كشط

عند إنشاء نسخة ويب، تسمح لك علامة التبويب "جدولة النسخة" بتعيين الوقت الذي تريد أن تبدأ فيه النسخة، وإذا كنت تريد تكرارها، فكم مرة يجب أن تفعل ذلك. يمكن أيضًا تكوين الكشط للتشغيل عند اكتشاف تغيير في صفحة الويب. لفعل هذا ابدأ عندما تتغير صفحة الويب في خانة الاختيار، ثم أدخل عنوان URL لصفحة الويب المراد مراقبتها، بالإضافة إلى محدد CSS من جزء الصفحة الذي أنت فيه intمن المهم تحديد جزء صغير من الصفحة لتجنب النتائج الإيجابية الكاذبة بسبب التغييرات غير المهمة.

رصد وتصحيح القصاصات

بمجرد بدء تشغيل كشط الويب ، سيتغير رمز الحالة إلى وسوف تبدأ الصفحات التي تمت معالجتها في الزيادة بمرور الوقت. يتم إنتاج لقطة سريعة في الوقت الحقيقي للتقدم الذي يتم إحرازه مع إنشاء ملف سجل مع لقطة شاشة عادية لآخر صفحة ويب واجهها الكاشطة. هذا يتيح لك معرفة ما يحدث أثناء الكشط. للعثور على هذه المعلومات ، انقر على أيقونة التوسيع بجوار الكشط وانقر مشاهد لكشط أنت intيجب أن يكون هذا بالتفصيل إذا كان هناك أي أخطاء مثل مشاكل في تعليمات كشط الخاص بك.

بمجرد اكتمال الكشط بنجاح ، ستتحول أيقونة الحالة إلى ، إذا لم تكن هناك نتيجة بفتح "عارض" ، فقد يخبرك السجل وآخر لقطة للشاشة بالخطأ.

واحدة من أكثر المشاكل شيوعًا التي تم الإبلاغ عنها في السجلات وهي عدم وجود تأخير كافٍ للتقديم لخدش الصفحة ، وغالبًا ما تكون هناك زيادة بسيطة في تأخير تحميل الصفحة وجدت في خيارات كشط علامة التبويب كافية لمعظم المواقع.