ابتكار "معهد الابتكار التكنولوجي" في أبوظبي يدمج الرؤية واللغة في نموذج ذكاء اصطناعي واحد، ليتمكن الآلات من قراءة النصوص، وتحديد الأشياء، وتفسير البيئات المادية في آنٍ واحد
مصدر الصورة:
TII
تخيل روبوتاً يتجول
داخل مستودع ضخم؛ فبينما يتحرك، يقوم بمسح الصناديق المتراكمة، وقراءة ملصقات
الشحن بثلاث لغات مختلفة، وتحديد الطرود التالفة، وتوجيه العناصر إلى أماكنها
الصحيحة، كل ذلك في تدفق واحد دون الحاجة للتوقف لمعالجة كل مهمة على حدة.
هذا هو جوهر عمل "فالكون بيرسيبشن" (Falcon Perception)، نموذج الذكاء الاصطناعي متعدد
الوسائط الذي أطلقه معهد الابتكار التكنولوجي في أبوظبي بتاريخ 31 مارس 2026. فعلى
عكس أنظمة الذكاء الاصطناعي التقليدية التي تعالج الصور (الرؤية) والنصوص (اللغة)
كعمليتين منفصلتين، يدمج "فالكون بيرسيبشن" كلتا الوظيفتين في معمارية
واحدة متكاملة، مما يلغي حاجة الروبوت الصناعي لبرمجيات متعددة للتعرف على قطعة
معينة وقراءة رقمها التسلسلي وفهم تعليمات صيانتها.
تتعامل أنظمة الذكاء
الاصطناعي الحالية مع الرؤية واللغة كمشكلتين منعزلتين. فنماذج الرؤية الحاسوبية
تكتشف الأجسام ولكنها لا تستطيع قراءة النصوص الموجودة عليها، ونماذج اللغة تعالج
التعليمات المكتوبة ولكنها "عمياء" عن محيطها. لكن المهام في العالم الحقيقي
تتطلب الربط بينهما لحظياً.
خذ مثالاً على مفتش
الجودة في مصنع: فهو يرى عيباً في المنتج، ويقرأ رقم التشغيلة، ويطابقه مع سجلات
الإنتاج—ثلاث عمليات ذهنية تحدث في آنٍ واحد. في السابق، كانت مطالبة الذكاء
الاصطناعي بفعل الشيء نفسه تتطلب تشغيل ثلاثة نماذج مختلفة، وثلاث دورات معالجة،
ورموزاً برمجية معقدة لربط مخرجاتها. هذا التشتت ينهار في البيئات الديناميكية؛
فالرافعات الشوكية ذاتية القيادة تحتاج لقراءة ملصقات الطرود أثناء الملاحة،
والروبوتات الجراحية يجب أن تعرف الأدوات بصرياً وتفسر الرسوم البيانية الإجرائية
في وقت واحد.
"فالكون بيرسيبشن" ينهي هذا التشتت؛ إذ يتولى نموذج معماري
واحد عمليات التعرف البصري، وقراءة النصوص، والاستنتاج المكاني، وفهم اللغة في
"تمريرة واحدة" (Single forward pass). يرى النظام حاوية شحن، يقرأ عبارة
"قابل للكسر - هذا الجانب للأعلى"، يفهم متطلبات التوجيه، وينفذ المهمة
فوراً دون الحاجة لتبادل البيانات بين نماذج متخصصة.
صمّم معهد الابتكار
التكنولوجي "فالكون بيرسيبشن" بحيث يعالج الصور والنصوص عبر مسارات
عصبية مشتركة، بدلاً من مسارات منفصلة:
لقد صُمم النموذج
لبيئات العمل الحقيقية؛ فهو يتعامل مع الصور منخفضة الدقة، ويقرأ النصوص المتداخلة
أو المشوشة، ويعمل على الأجهزة الطرفية (Edge devices) دون الحاجة لاتصال دائم بالسحابة، وهي خصائص حاسمة للروبوتات والمصانع.
تستثمر دولة الإمارات
بقوة في السيادة التقنية؛ فبدلاً من الاعتماد على الشركات الأجنبية، تبني الدولة
بنية تحتية للحوسبة فائقة الأداء وتدرب باحثين محليين. ويمثل "فالكون
بيرسيبشن" خطوة استراتيجية نحو الأنظمة متعددة الوسائط—وهي "الجبهة
التالية" في تطوير الذكاء الاصطناعي العالمي. ومن خلال إتاحة نموذج مفتوح
ومُحسّن للتطبيقات المادية، تثبت أبوظبي مكانتها كمصدر لأدوات الذكاء الاصطناعي
العملية، وليس مجرد مركز للأبحاث النظرية.
يستهدف هذا النموذج
الإماراتي التطبيقات الصناعية التي تلتقي فيها الرؤية واللغة باستمرار:
وقد أُطلق النموذج
بموجب ترخيص مفتوح المصدر، مما يجعله بنية تحتية عالمية تضاف إلى عائلة نماذج
"فالكون" التي وصلت تطبيقاتها إلى 190 دولة.
تستثمر دولة الإمارات
بقوة في السيادة التقنية؛ فبدلاً من الاعتماد على الشركات الأجنبية، تبني الدولة
بنية تحتية للحوسبة فائقة الأداء وتدرب باحثين محليين. ويمثل "فالكون
بيرسيبشن" خطوة استراتيجية نحو الأنظمة متعددة الوسائط—وهي "الجبهة
التالية" في تطوير الذكاء الاصطناعي العالمي. ومن خلال إتاحة نموذج مفتوح
ومُحسّن للتطبيقات المادية، تثبت أبوظبي مكانتها كمصدر لأدوات الذكاء الاصطناعي
العملية، وليس مجرد مركز للأبحاث النظرية.
يرجى الاشتراك للحصول على وصول غير محدود إلى ابتكاراتنا.