أدوات لالتقاط وتحويل الويب

كيفية استخراج المعلومات المهيكلة تلقائيًا من نص غير منظم؟

يمكن أن يتضمن النص المكتوب العادي الكثير من المعلومات التي لا يمكن استخراجها بسهولة. على سبيل المثال ، ربما تكون الجملة عبارة عن مراجعة عن شركة ، ولكن كيف تعرف ما إذا كانت المراجعة جيدة أم سيئة؟

مكشطة الويب العادية لن تكون قادرة على استخراج هذه المعلومات. ومع ذلك ، يمكن لـ GrabzIt استخدامه في بناء قدرات معالجة اللغة الطبيعية. كما هو موضح في المثال أدناه ، يتم تحليل نص الصفحة وإرجاع إحدى القيم التالية سلبية للغاية ، سلبية ، محايدة ، إيجابية وإيجابية للغاية.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

بالرغم ان مكشطة الويب GrabzIt يمكن استخراج الكثير من النص بما في ذلك الكشف عن اللغة وأسماء المواقع وأسماء الأشخاص وأسماء المنظمات. أمثلة منها مبينة أدناه.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

لا يلزمك كتابة أي من إرشادات الكشط هذه بنفسك ، حيث ستظهر تلقائيًا عند تحديد عنصر HTML قابل للتطبيق في معالج الكشط الخاص بنا.