yuhui-zh15/VLMClassifier
این پروژه مربوط به بررسی دلایل ضعف مدلهای زبانی مبتنی بر تصویر (VLMها) در وظیفه طبقهبندی تصویر است.
کاربرد:
این ابزار به محققان کمک میکند تا عملکرد مدلهای ترکیبی زبان و تصویر را در وظایف طبقهبندی دقیقتر تحلیل کنند و نقاط ضعف آنها را شناسایی نمایند.
در چه شرایطی بهتره استفاده شود؟
وقتی میخواهید بفهمید چرا یک مدل VLM که در درک تصاویر و متن خوب عمل میکند، در تشخیص کلاس تصاویر ضعیف است. همچنین برای توسعه مدلهای بهتر که هم درک بصری و هم دقت طبقهبندی بالایی داشته باشند، مناسب است.
چند مثال از موارد استفاده:
- تحلیل رفتار مدلهای VLM در دیتاستهای استاندارد مثل ImageNet
- مقایسه عملکرد مدلهای مختلف در وظیفه طبقهبندی با و بدون نشانههای زبانی
- طراحی آزمایشهای کنترلشده برای بررسی تأثیر زبان بر دقت بصری
- بهبود معماری مدلهای چندوجهی با تمرکز بر تعادل بین درک زبانی و بصری
- ##VLM
- ##ImageClassification
- ##NeurIPS2024
- ##MultimodalLearning
- ##AIResearch
- ##ComputerVision
- ##LanguageModels
- ##VisualGrounding
- ##ModelAnalysis
- ##DeepLearning
