مایکروسافت در جریان برگزاری اولین روز کنفراس توسعه‌دهندگان بیلد 2017 یکسری نطق‌ها و سخن‌رانی‌هایی را داشت. اما به نظر می‌رسد در یک سال گذشته مایکروسافت سرمایه‌گذاری سنگینی را در حوزه محاسبات شناختی انجام داده است. به‌طوری که در جریان برگزاری این مراسم از برنامه‌ها و سرویس‌های جدیدی رونمایی کرد که بر مبنای محاسبات شناختی کار می‌کنند. سرویس جدید وب‌محور Video Indexer نیز از جمله این موارد است. این سرویس به کاربران اجازه می‌دهد متن ویدیوها را به ده زبان زنده دنیا استخراج کنند.

سرویس وب‌محور جدید Video Indexer به دنبال آن است تا به کاربران کمک کند حجم بالایی از ویدوی‌ها را به‌طور خودکار طبقه‌بندی کرده و کتابخانه دقیقی را بر پایه آن‌ها ایجاد کنند. این سرویس به‌طور خودکار قادر است ابرداده‌های (metadata) مرتبط با فایل‌های چند رسانه‌ای را به اشکال مختلفی ایجاد کند. سرویس فوق به خوبی این توانایی را دارد تا زبان به‌کارگرفته شده در ویدیوها را شناسایی کرده و متن خروجی متعلق به این ویدیوها را در ارتباط با 10 زبان زنده دنیا در اختیار مصرف کننده قرار دهد.

در نتیجه کاربران به سادگی این توانایی را خواهند داشت تا زیرنویس‌های قدرتمندی را برای فیلم‌ها تولید کنند. مایکروسافت برای ترجمه متون از سرویس خودش Microsoft Translator استفاده کرده است. این سرویس به خوبی قادر است زیرنویس‌های مربوطه را برای فیلم‌ها تولید کند. اما قابلیت‌های سرویس فوق به موردی که به آن اشاره کردیم، محدود نمی‌شود. سرویس فوق همچنین این توانایی را دارد تا به‌طور خودکار چهره‌ همه افرادی که در یک فیلم قرار دارند را از طریق فناوری تشخیص چهره شناسایی کند.

حتا قادر است اگر چهره درون یک فیلم فرد شناخته شده و مشهوری باشد، نامی را برای آن چهره مشخص کرده یا به شما اجازه دهد نام موردنظر خودتان را برای یک چهره مشخص کنید. هر دو فرآیند تشخیص چهره و ارائه رونوشت برای چهره در یک تابع جستجو قرار دارند، در نتیجه این امکان در اختیار شما قرار دارد تا به بخش‌هایی از یک ویدیو که در نظر دارید آن‌را مشاهده کنید رفته یا از دیدن آن صرفنظر کنید.

مایکروسافت با ارائه این سرویس به دنبال آن نیست تا رقیب یوتیوب شود، بلکه به دنبال آن است تا یک استریم ویدویی زنده را در اختیار مصرف کننده قرار دهد. سرویسی که تعامل بهتری با کاربر داشته باشد و همچنین درآمد قابل توجهی را نصیب مایکروسافت کند. جالب آن‌که سرویس فوق حتا این توانایی را دارد تا اشیای موجود در فیلم‌ها را شناسایی کرده و یک طبقه‌بندی را برای آن‌ها ارائه کند.

گوگل نیز سرویس مشابهی موسوم به cloud Video Intelligence API را طراحی کرده است. سرویسی که در اختیار مشتریان تجاری این شرکت قرار دارد. مایکروسافت گفته است که سرویس Video Indexer برای آن‌که بتواند یک ویدیو را تحلیل کند به 45 دقیقه زمان نیاز دارد. Presentation Translator که در قالب افزونه‌ای برای نرم‌افزار پاورپوینت عرضه شده است، یکی دیگر از سرویس‌های شناختی جدید مایکروسافت است. این سرویس نیز دقیقا همان‌کاری را انجام می‌دهد که حدس زده‌اید.

این سرویس نیز قادر است سخن‌رانی‌هایی که به ده زبان قابل تشخیص انجام شده‌اند را شناسایی کرده و در قالب یک متن در اختیار کاربران قرار دهد. اما کاربران این توانایی را دارند تا دامنه تشخیص گفتار را به 60 زبان افزایش دهند. از دیگر سرویس‌های شناختی ارائه شده در این کنفرانس می‌توان به Bing Custom Search، Custom Vision Service و Custom Decision Service اشاره کرد.

شبکه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *