تقنية تمكّن الروبوتات من الرؤية والفهم كالبشر

ابتكار "معهد الابتكار التكنولوجي" في أبوظبي يدمج الرؤية واللغة في نموذج ذكاء اصطناعي واحد، ليتمكن الآلات من قراءة النصوص، وتحديد الأشياء، وتفسير البيئات المادية في آنٍ واحد

مصدر الصورة:

TII

تخيل روبوتاً يتجول داخل مستودع ضخم؛ فبينما يتحرك، يقوم بمسح الصناديق المتراكمة، وقراءة ملصقات الشحن بثلاث لغات مختلفة، وتحديد الطرود التالفة، وتوجيه العناصر إلى أماكنها الصحيحة، كل ذلك في تدفق واحد دون الحاجة للتوقف لمعالجة كل مهمة على حدة.

هذا هو جوهر عمل "فالكون بيرسيبشن" (Falcon Perception)، نموذج الذكاء الاصطناعي متعدد الوسائط الذي أطلقه معهد الابتكار التكنولوجي في أبوظبي بتاريخ 31 مارس 2026. فعلى عكس أنظمة الذكاء الاصطناعي التقليدية التي تعالج الصور (الرؤية) والنصوص (اللغة) كعمليتين منفصلتين، يدمج "فالكون بيرسيبشن" كلتا الوظيفتين في معمارية واحدة متكاملة، مما يلغي حاجة الروبوت الصناعي لبرمجيات متعددة للتعرف على قطعة معينة وقراءة رقمها التسلسلي وفهم تعليمات صيانتها.

لماذا كانت الآلات بحاجة إلى هذا التوحيد؟

تتعامل أنظمة الذكاء الاصطناعي الحالية مع الرؤية واللغة كمشكلتين منعزلتين. فنماذج الرؤية الحاسوبية تكتشف الأجسام ولكنها لا تستطيع قراءة النصوص الموجودة عليها، ونماذج اللغة تعالج التعليمات المكتوبة ولكنها "عمياء" عن محيطها. لكن المهام في العالم الحقيقي تتطلب الربط بينهما لحظياً.

خذ مثالاً على مفتش الجودة في مصنع: فهو يرى عيباً في المنتج، ويقرأ رقم التشغيلة، ويطابقه مع سجلات الإنتاج—ثلاث عمليات ذهنية تحدث في آنٍ واحد. في السابق، كانت مطالبة الذكاء الاصطناعي بفعل الشيء نفسه تتطلب تشغيل ثلاثة نماذج مختلفة، وثلاث دورات معالجة، ورموزاً برمجية معقدة لربط مخرجاتها. هذا التشتت ينهار في البيئات الديناميكية؛ فالرافعات الشوكية ذاتية القيادة تحتاج لقراءة ملصقات الطرود أثناء الملاحة، والروبوتات الجراحية يجب أن تعرف الأدوات بصرياً وتفسر الرسوم البيانية الإجرائية في وقت واحد.

"فالكون بيرسيبشن" ينهي هذا التشتت؛ إذ يتولى نموذج معماري واحد عمليات التعرف البصري، وقراءة النصوص، والاستنتاج المكاني، وفهم اللغة في "تمريرة واحدة" (Single forward pass). يرى النظام حاوية شحن، يقرأ عبارة "قابل للكسر - هذا الجانب للأعلى"، يفهم متطلبات التوجيه، وينفذ المهمة فوراً دون الحاجة لتبادل البيانات بين نماذج متخصصة.

كيف يعمل نموذج الرؤية واللغة؟

صمّم معهد الابتكار التكنولوجي "فالكون بيرسيبشن" بحيث يعالج الصور والنصوص عبر مسارات عصبية مشتركة، بدلاً من مسارات منفصلة:

  1. المعالجة الموحدة: يستخدم النموذج "محولات الرؤية" (Vision Transformers) لتقسيم الصور إلى أجزاء صغيرة (Patches) وترميز العلاقات المكانية بينها، بينما تتم معالجة النصوص عبر "محولات اللغة".
  2. التفاعل من البداية: بدلاً من تشغيل العمليتين بشكل مستقل ودمج النتائج لاحقاً، يغذي النموذج كلاً من البيانات البصرية واللغوية في هيكل موحد حيث تتفاعل الميزات البصرية واللغوية منذ اللحظة الأولى.
  3. الفهم السياقي: لا يكتفي النموذج برؤية "مفتاح ربط" وقراءة كلمة "مفتاح" في الدليل، بل يدرك أن الجسم البصري يطابق المصطلح المكتوب، ويفسر أبعاد الحجم من النص، ويتعرف على سياق التركيب من ملاحظات الرسم التخطيطي—كل ذلك في دورة استنتاج واحدة.

لقد صُمم النموذج لبيئات العمل الحقيقية؛ فهو يتعامل مع الصور منخفضة الدقة، ويقرأ النصوص المتداخلة أو المشوشة، ويعمل على الأجهزة الطرفية (Edge devices) دون الحاجة لاتصال دائم بالسحابة، وهي خصائص حاسمة للروبوتات والمصانع.

ماذا يعني هذا الريادة الإماراتية في الذكاء الاصطناعي؟

تستثمر دولة الإمارات بقوة في السيادة التقنية؛ فبدلاً من الاعتماد على الشركات الأجنبية، تبني الدولة بنية تحتية للحوسبة فائقة الأداء وتدرب باحثين محليين. ويمثل "فالكون بيرسيبشن" خطوة استراتيجية نحو الأنظمة متعددة الوسائط—وهي "الجبهة التالية" في تطوير الذكاء الاصطناعي العالمي. ومن خلال إتاحة نموذج مفتوح ومُحسّن للتطبيقات المادية، تثبت أبوظبي مكانتها كمصدر لأدوات الذكاء الاصطناعي العملية، وليس مجرد مركز للأبحاث النظرية.

مصمم لخدمة عالم الصناعة والروبوتات

يستهدف هذا النموذج الإماراتي التطبيقات الصناعية التي تلتقي فيها الرؤية واللغة باستمرار:

  • الروبوتات: تصفح البيئات مع قراءة اللوحات الإرشادية، وتفسير مخططات التجميع أثناء تحديد المكونات.
  • التصنيع: فحص المنتجات، وقراءة الأرقام التسلسلية، ومطابقة المواصفات، ورصد العيوب في خطوة واحدة.
  • معالجة الوثائق: قراءة الفواتير والرسومات التقنية واستخراج النصوص وفهم التوقيعات دون الحاجة لخطوط أنابيب ذكاء اصطناعي متعددة.
  • الخدمات اللوجستية: فرز الطرود بناءً على البيانات البصرية والنصية المدمجة، بغض النظر عن اتجاه ملصق الشحن.

وقد أُطلق النموذج بموجب ترخيص مفتوح المصدر، مما يجعله بنية تحتية عالمية تضاف إلى عائلة نماذج "فالكون" التي وصلت تطبيقاتها إلى 190 دولة.

ماذا يعني هذا الريادة الإماراتية في الذكاء الاصطناعي؟

تستثمر دولة الإمارات بقوة في السيادة التقنية؛ فبدلاً من الاعتماد على الشركات الأجنبية، تبني الدولة بنية تحتية للحوسبة فائقة الأداء وتدرب باحثين محليين. ويمثل "فالكون بيرسيبشن" خطوة استراتيجية نحو الأنظمة متعددة الوسائط—وهي "الجبهة التالية" في تطوير الذكاء الاصطناعي العالمي. ومن خلال إتاحة نموذج مفتوح ومُحسّن للتطبيقات المادية، تثبت أبوظبي مكانتها كمصدر لأدوات الذكاء الاصطناعي العملية، وليس مجرد مركز للأبحاث النظرية.

Lock

لقد تجاوزت حدودك المجانية لمشاهدة المحتوى المميز لدينا

يرجى الاشتراك للحصول على وصول غير محدود إلى ابتكاراتنا.