يمكن أن يتضمن النص المكتوب العادي الكثير من المعلومات التي لا يمكن استخراجها بسهولة. على سبيل المثال ، ربما تكون الجملة عبارة عن مراجعة عن شركة ، ولكن كيف تعرف ما إذا كانت المراجعة جيدة أم سيئة؟
مكشطة الويب العادية لن تكون قادرة على استخراج هذه المعلومات. ومع ذلك ، يمكن لـ GrabzIt استخدامه في بناء قدرات معالجة اللغة الطبيعية. كما هو موضح في المثال أدناه ، يتم تحليل نص الصفحة وإرجاع إحدى القيم التالية سلبية للغاية ، سلبية ، محايدة ، إيجابية وإيجابية للغاية.
Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');
بالرغم ان مكشطة الويب GrabzIt يمكن استخراج الكثير من النص بما في ذلك الكشف عن اللغة وأسماء المواقع وأسماء الأشخاص وأسماء المنظمات. أمثلة منها مبينة أدناه.
//Language Detection Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language'); //Identify Geographic Locations Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations'); //Identify People's Names Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names'); //Identify Organizations Names Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');
لا يلزمك كتابة أي من إرشادات الكشط هذه بنفسك ، حيث ستظهر تلقائيًا عند تحديد عنصر HTML قابل للتطبيق في معالج الكشط الخاص بنا.