أدوات لالتقاط وتحويل الويب

استخراج البيانات من وثائق PDF

لا يعد تجريد البيانات من محتوى مستندات PDF مرنًا مثل القيام بذلك من مستندات HTML ، ولكن لا يزال هناك عدد من الطرق لتحقيق ذلك باستخدام مكشطة الويب GrabzIt. أول من كشط محتوى PDF الذي تستخدمه PDF وظائف بدلا من Page وظائف ولكن وظائف خلاف ذلك بشكل عام بنفس الطريقة.

يعد عامل تصفية مستند PDF أبسط من ذلك بالنسبة لمستند HTML أولاً وقبل كل شيء يجب عليك تحديد نوع المحتوى الذي تريد استخراجه: الارتباطات أو الصور أو النصوص.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

بالنسبة للروابط والصور ، يمكنك تقييد الصورة أو الارتباط الذي يتم إرجاعه عن طريق تحديد موضعه.

PDF.getValue({"type":"image","position":"2"});

الحصول على الصورة الثانية في وثيقة. بالنسبة للنصوص والصور والروابط ، يمكنك تقييد البيانات التي يتم إرجاعها عن طريق تحديد رقم الصفحة.

PDF.getValue({"type":"image","position":"2","page":"5"});

هذا سيعود الصورة الثانية من الصفحة الخامسة. يأتي النص مع الخيار المضاف لرقم السطر ، لكن النص لا يدعم الموضع.

PDF.getValue({"type":"text","page":"5","line":"10"});

هذا يحصل على السطر العاشر من النص من الصفحة الخامسة. بخلاف هذه الاختلافات خيار عامل التصفية يعمل مسح البيانات من مستندات PDF بطريقة مشابهة جدًا ل تجريف البيانات من مستندات HTMLومع ذلك ، نظرًا لأنه لا يمكنك تحديد ما تستخرجه باستخدام مرشح PDF ، فقد تحتاج إلى تحديد ملف النمط لاستخراج المعلومات الصحيحة من النص.