سیری باشکوه
سیری اپل، باهوش، مفید و البته کمی شوخ طبع است
در تاریخ چهارم اکتبر 2011 میلادی، اپل آی‌فون 4S را همراه با سیری (Siri) به جهان معرفی کرد. در این تاریخ، اپل به ثبت اختراع برخی فناوری‌های به کار رفته در سیری بر اساس قوانین ایالات متحده اقدام کرد. دستیار شخصی قدرتمندی که سبک جدیدی از رقابت را در میان شرکت‌های بزرگ فناوری به وجود آورد. تشخیص صدا کاری است که سیری انجام می‌دهد. اما واژه‌های شناسایی شده به تنهایی نمی‌توانند به یک سیستم اعلام کنند، کاربر واقعاً انتظار انجام چه کاری را دارد. اما زمانی ‌که از عبارتی همچون «پیامی را برای جیسون پرلو ارسال کن، او عاشق لینوکس است» استفاده می‌شود، این جمله برای سیری مفهوم پیدا می‌کند. هر زمان تعاملی با سیری انجام دهید، در اصل به گفت‌وگو با سروری پرداخته‌اید که در کلاود قرار دارد. سرور کلاود سعی می‌کند کلمات شما را تشخیص دهد و مفهوم آن‌ها را درک کند.

این مطلب یکی از مجموعه مقالات پرونده ویژه «کاربردهای هوش مصنوعی در زندگی روزمره» است. برای دریافت کل پرونده ویژه اینجا  کلیک کنید.

ایده‌های قدیمی زمینه‌ساز پیش‌رفت‌های امروزی
برای چند دهه در انتظار کامپیوترهایی شبیه به HAL در یک اودیسه فضایی 2001 و کامپیوتر U.S.S Enterprise در فیلم Start Trek بودیم. سال‌های متمادی در انتظار کامپیوترهایی بودیم که بتوانند با ما صحبت کنند و شبیه به انسان‌های واقعی به تعامل بپردازند. شبیه به انسان‌هایی که از ضریب هوشی فوق‌العاده برخوردار هستند و دانش آن‌ها در نوک انگشتان‌شان قرار دارد. حتی چشم‌انداز اولیه اپل از ویژگی صوتی چندان واضح نبود. در اواخر دهه 1980 میلادی، اپل مفهومی به‌نام هدایت‌گر دانش (Knowledge Navigator) را مطرح کرد. این مفهوم نخستین بار توسط مدیرعامل آن روزگار اپل، جان اسکالی، معرفی شد. این مفهوم دستگاهی را توصیف می‌کند که توانایی دسترسی به شبکه‌ای بزرگ از بانک‌های اطلاعاتی حاوی اطلاعات ابرمتن را دارد و از عامل نرم‌افزاری (Software agent) برای جست‌وجوی این دارایی‌ها استفاده می‌کند. در آن زمان، اپل مجموعه‌ای از ویدیوها و کلیپ‌ها را آماده کرد و به مردم نشان داد که چگونه می‌توانند از طریق کامپیوتری که شبیه تبلت‌های امروزی و به یک سری قابلیت‌های پیش‌رفته مجهز بود، به تعامل بپردازند و گفت‌وگویی طبیعی را تجربه کنند. این آواتارهای صوتی و تصویری کاملاً انسانی بودند و توانایی انجام یک مکالمه بی‌عیب و نقص را با کاربر داشتند و به کاربر کمک می‌کردند کارهای خود را برنامه‌ریزی کند، با دوستان و همکاران خود به تعامل بپردازد و به همه اطلاعات طبقه‌بندی شده در یک شبکه دسترسی داشته باشد.

در اواخر دهه 1980 میلادی، اپل مفهومی به‌نام هدایت‌گر دانش را مطرح کرد. این مفهوم نخستین بار توسط مدیرعامل آن روزگار اپل، جان اسکالی، معرفی شد. این مفهوم دستگاهی را توصیف می‌کند که توانایی دسترسی به شبکه‌ای بزرگ از بانک‌های اطلاعاتی حاوی اطلاعات ابرمتن را دارد و از عامل نرم‌افزاری برای جست‌وجوی این دارایی‌ها استفاده می‌کند.

هر چند سیستم‌های آن زمان نتوانستند به همان سطحی از تعامل و ارتباط که در ویدیوهای آن روزگار نشان داده شده بودند برسند، اما با ظهور صفحه‌نمایش‌های لمسی، آی‌فون، آی‌پاد و سیری، امروزه اپل گام‌های بزرگی را برای این چشم‌انداز برداشته است. البته فناوری تشخیص گفتار پدیده جدیدی نیست و این توانایی از سال‌های دور در اختیار کامپیوترها قرار داشته است. در نتیجه، اپل را نمی‌توان نخستین شرکتی برشمرد که موفق شده است به چنین راه‌کاری دست پیدا کند. در دهه 1980 میلادی، هر فردی با خرید یک سخت‌افزار و نرم‌افزار ویژه این توانایی را در اختیار داشت تا با سیستم خود به تعامل بپردازد. برای این ‌کار نیاز بود تا نرم‌افزار مورد نظر را آموزش دهد تا صحبت‌های شما را درک کند و تنها توانایی انجام یک سری از وظایف کوچک را داشته باشد. این توانایی برای برخی افراد که کامپیوتر جزء یکی از بخش‌های اصلی کارشان بود ضروری بود، اما برای عموم کاربران به‌کارگیری چنین سیستمی چندان عملی نبود. در اوایل دهه 1990 میلادی، اپل کامپیوترهای صوتی و تصویری مکینتاش (Quadra AV) را عرضه کرد. این کامپیوترها همراه با سخت‌افزار و نرم‌افزار تشخیص گفتار عرضه شدند. هر چند آن‌ها محدودیت‌هایی داشتند، اما توانایی انجام مجموعه محدودی از وظایف را از طریق صوت داشتند.
در سال‌های بعد، در تبلیغات Mac OS X و همراه با آن ویندوز ویستا اعلام شد که این سیستم‌عامل‌ها توانایی ادغام‌ فناوری تشخیص گفتار را دارند، اما این ویژگی در آن روزگار بیش‌تر جنبه تبلیغی داشت. به‌ طوری که ماوس و صفحه‌کلید نسبت به مکانیسم صوتی سریع‌ترین راه ممکن برای ورود دستورات به کامپیوترهای خانگی بودند.

پس‌زمینه حق اختراع اپل
در گواهی ثبت اختراع اپل که در سال 2012 منتشر شد، این شرکت اعلام کرد دستگاه‌های الکترونیکی باید توانایی دسترسی به حجم گسترده و رو به رشدی از سرویس‌ها، وظایف و اطلاعات را از طریق اینترنت یا منابع دیگر داشته باشند. بیش‌تر مصرف‌کنندگان از دستگاه‌هایی همچون تبلت‌ها و گوشی‌های هوشمندی استفاده می‌کنند که با اجرای برنامه‌های کاربردی دسترسی به انواع مختلفی از وظایف و در دسترس قرار دادن انواع مختلفی از اطلاعات را امکان‌پذیر می‌سازند. در اغلب موارد، برنامه‌ها یا سایت‌ها از ویژگی‌ها و رابط کاربری مخصوص به خود و پارادیم عملیاتی خاص خود برای انجام وظایف سنگین یا یادگیری رفتار مصرف‌کننده استفاده می‌کنند. همچنین، بیش‌تر کاربران ممکن است به‌سختی توانایی شناسایی قابلیت‌ها یا اطلاعاتی را داشته باشند که در دستگاه‌های الکترونیکی یا سایت‌های مختلف قرار گرفته است. در نتیجه، این احتمال وجود دارد که کاربران توانایی به دست آوردن نتایج مورد نظر را نداشته باشند یا از منابعی که در اختیار دارند به‌درستی استفاده نکنند. در بیش‌تر موارد سیستم‌های مدرن به‌سختی می‌توانند آن‌ گونه که کاربر انتظار دارد به آن پاسخ دهند. در نتیجه، کاربران به واسطه‌هایی نیاز دارند که امکان بهره‌برداری از فناوری‌ها را به شکل مطلوبی در اختیار آن‌‌ها قرار دهند.

راه حل اپل سیری است
راه حل اپل اختراع یک دستیار خودکار هوشمند است که روی دستگاه‌های الکترونیکی پیاده‌سازی شود و با کاربر دستگاه به تعامل بپردازد و برای استفاده بهینه از سرویس‌های راه دور و محلی به کاربر کمک کند. دستیار خودکار هوشمند این توانایی را دارد که گفت‌وگویی طبیعی با کاربر و فراخوانی سرویس‌های خارجی را برای دریافت اطلاعات مناسب و عملیات مختلف داشته باشد. سیری دستیاری صوتی است که هوش و زبان طبیعی انسانی را تقلید می‌کند. او توانایی تفسیر دستورالعمل‌های صوتی و در صورت امکان اجرای آن‌ها را دارد.

اپل سال گذشته میلادی حق اختراع جدیدی را برای سیری منتشر ساخت که در آن کاربران توانایی سفارشی‌سازی کلمات را برای سیری دارند.

سیری توانایی باز کردن برنامه‌ها را دارد و درباره زمان پخش فیلم‌ها، امتیازات ورزشی، رزرو میز در رستوران ارسال پیام یا برقراری تماس با مخاطبان از طریق فهرست مخاطبان و انجام وظایف دیگر به کاربر کمک می‌کند. سیری تنها محدود به دریافت دستورات و اجرای آن‌ها در پس‌زمینه نیست. او نه تنها این توانایی را دارد تا به شما بگوید اکنون در حال چه کاری است، بلکه می‌تواند پرسش‌هایی را مطرح کند که با استفاده از پاسخ‌های شما تصمیمات دقیق‌تر و عملکرد بهتری ارائه کند. سیری در طی این سال‌ها از یک سیستم تشخیص صوتی به ابزاری کارآمدتر تبدیل شده است. در برخی موارد، دستیاران شخصی هنوز توانایی انجام کارهایی همچون استخراج و تفسیر منظور کاربر، درخواست و دریافت روشن اطلاعات و انجام عملیاتی بر اساس نیت کاربر خود را ندارند. در مجموع، سیری این ویژگی‌ها را دارد:
- از رابط خوبی برای گفت‌وگو برخوردار است. 
- قابل پیکربندی است.
- از حافظه کوتاه و بلندمدت بهره می‌برد.
- توانایی درک محتوای مکالمات را دارد. 
- توانایی ارائه سرویس‌های مسافرتی و کار در زمینه تجارت الکترونیک را دارد.
- به‌طور خودکار توانایی ارائه اطلاعات و خدمات را دارد.
- توانایی ارائه توصیه‌های شخصی را دارد.
- در نهایت، توانایی کنترل عملیاتی را که روی آی‌اواس انجام می‌شود، دارد. 

معماری مفهومی سیری
نخستین حق اختراع اپل در ارتباط با سیری در سال 2012 منتشر شد. در شکل 1، نمونه‌ای از پیکربندی سیری را مشاهده می‌کنید. در شکل 2، تجسمی از معماری سیستمی سیری را برای چند مشتری مختلف و در فرآیندهای مختلفی که شامل سیستم‌های ناوبری ماشین، سیستم‌های کنترل صوتی و سیستم‌های سرگرمی ماشین است مشاهده می‌کنید.

 شکل 1: دیاگرام ساده‌ای از تجسم یک دستیار هوشمند خودکار را در تصویر مشاهده می‌کنید. ورودی‌ها و رویدادها به‌عنوان مقادیر خام به این چرخه هوشمند وارد شدند و بعد از آن‌که در هسته مرکزی این دستیار شخصی مورد تجزیه و تحلیل قرار گرفتند، خروجی در اختیار کاربر یا دیگر فرآیندها قرار می‌گیرد.

 شکل 2: معماری سیستمی نشان داده شده برای انواع مختلفی از کلاینت‌ها و حالت‌های عملیاتی

اپل سال گذشته میلادی حق اختراع جدیدی را برای سیری منتشر ساخت که در آن کاربران توانایی سفارشی‌سازی کلمات را برای سیری دارند (شکل 3). با توجه به این‌که هر کاربر از یک سری کلمات و لغات خاص استفاده می‌کند که ممکن است در بانک ‌اطلاعاتی سیری وجود نداشته باشد، اپل تصمیم گرفت برای تعامل بیش‌تر کاربر با سیری این ویژگی منحصر به‌فرد را به سیری اضافه کند. این ویژگی جدید ماحصل تلاش‌های لیک هری چن، آدام جان چه یر، دیدی‌یر رنه گزونی و توماس رابرت گروبر بوده است. 

 شکل 3: اپل با ارائه حق اختراع سال 2014 میلادی موفق به ثبت اختراع لغات شخصی برای سیری شد.

سیری چگونه کار می‌کند؟
زمانی ‌که با سیری به صحبت می‌پردازید، گفتار شما به سرعت کدگذاری و در قالب داده‌های دیجیتالی فشرده نگه‌داری می‌شود. سیگنال تلفن ‌همراه شما از طریق نزدیک‌ترین برج سلولی که در نزدیکی محل شما قرار دارد به‌صورت بی‌سیم مخابره و از طریق خطوطی مجدد به ISP بازگردانده می‌شود. جایی ‌که در آن ارتباط با سرور ابری برقرار و در این مرحله مجموعه‌ای از حالت‌ها در قالب یک زبان قابل درک بارگذاری شده و مجدد ارسال می‌شود. به‌طور هم‌زمان، گفتار شما به‌صورت محلی روی دستگاه تلفن همراه شما نیز مورد بررسی قرار می‌گیرد. تشخیص‌دهنده نصب شده روی تلفن‌ همراه با سرور مستقر در کلاود ارتباط برقرار می‌کند تا مطمئن شود آیا دستور وارد شده می‌تواند به‌صورت محلی مدیریت شود یا حتماً لازم است برای دریافت کمک بیش‌تر به شبکه‌ای متصل شود. به‌طور مثال، از تلفن ‌همراه خود درخواست کنید یک موسیقی برای شما پخش کند. اگر تشخیص‌دهنده محلی متوجه شود قدرت کافی برای پردازش گفتار شما را دارد، به سرور کلاود اعلام می‌کند به کمک او نیاز ندارد و پیغام “Thanks very much” و “we’re OK here” را برای سرور ارسال می‌کند.

مکانیسم‌های تشخیص صدا در طی این سال‌ها پیش‌رفت قابل توجهی داشته‌اند و زمانی ‌که دکمه را فشار دهید و شروع به صحبت کنید، در بیش‌تر موارد قادر به تشخیص کلمات وارد شده هستند. 

سرور گفتار شما را با مدل آماری برآورد شده بر اساس گفتار شما و صداهایی که در مجاورت شما بوده است مورد مقایسه قرار می‌دهد. به‌طور مثال، کلمات شما از چه حرف‌هایی تشکیل شده است؟ (در همان زمان، گفتار شما با یک نسخه استاندارد مقایسه می‌شود.) در هر دو حالت، ضریب موفقیت بالا است. بر اساس این نظریه گفتار شما در قالب مجموعه‌ای از حروف صدادار و صامت شناخته و سپس از طریق یک مدل زبانی کلمات موجود در گفتار شما تخمین زده می‌شود. 
در ادامه، کامپیوتر فهرستی از کاندیداهای مفسر را برای تفسیر مجموعه لغاتی که در گفتار شما وجود داشته است، مورد استفاده قرار می‌دهد. اگر ترجمه لغات به‌طور دقیق انجام شده باشد، کامپیوتر تشخیص می‌دهد، شما در نظر دارید یک پیام کوتاه را به اریک اولسن که اطلاعات او در فهرست مخاطبان شما قرار دارد ارسال کنید و پیام شما به‌طرز معجزه آسایی روی صفحه به نمایش درمی‌آید، بدون آن‌که به استفاده از دست خود نیاز داشته باشید. اگر گفتار شما بیش از اندازه مبهم باشد و فرآیند پردازش طولانی و پیچیده شود، کامپیوتر تسلیم می‌شود و به شما اعلام می‌کند که معنای گفتار شما Eric Olssen بوده یا Eric Schmdit. مکانیسم‌های تشخیص صدا در طی این سال‌ها پیش‌رفت قابل توجهی داشته‌اند و زمانی ‌که دکمه را فشار دهید و شروع به صحبت کنید، در بیش‌تر موارد قادر به تشخیص کلمات وارد شده هستند. 

مردم از سیری چگونه استفاده می‌کنند؟
بر اساس نظرسنجی‌های به عمل آمده، بخش عمده‌ای از کاربران سیری از این دستیار شخصی برای انجام وظایف پایه شبیه به برقراری تماس، جست‌وجوی اطلاعات یا پیام کوتاه استفاده می‌کنند. 
تعداد کمی از کاربران برای تنظیم قرار ملاقات و انجام وظایف پیچده‌تر از آن استفاده می‌کنند. اما اگر از سیری برای انجام وظایف دیگر استفاده شود، آن‌گاه مشاهده خواهید کرد بهره‌وری شما تا چه میزان افزایش پیدا می‌کند. هر چند دستیار شخصی برای انجام کارهای حرفه‌ای طراحی شده است، اما می‌توانید از او پرسش‌های عجیب و غریبی نیز بپرسید. به‌طور مثال، اگر از سیری بپرسید زندگی چه معنایی می‌دهد، پاسخ‌های زیر را دریافت خواهید کرد:

• "It's nothing Nietzsche couldn't teach ya."
• "I don't know. But I think there's an app for that..."
• "All evidence to date suggests it's chocolate."
یا اگر به او بگویید عاشقش هستید، به شما خواهد گفت:
• "That's nice. Can we get back to work now?"
• "All you need is love. And your iPhone."
• "I hope you don't say that to all the other phones."
 

منابع:

-http://www.patentlyapple.com/patently-apple/2014/12/apple-granted-32-pat...
-https://en.wikipedia.org/wiki/Knowledge_Navigator
-http://appledailyreport.com/apple-wins-patent-personalized-vocabulary-si...
-http://appledailyreport.com/apple-wants-to-allow-you-to-add-a-personaliz...
-http://www.patentlyapple.com/patently-apple/2012/01/apple-introduces-us-...
-http://electronics.howstuffworks.com/gadgets/high-tech-gadgets/siri6.htm 
-http://www.zdnet.com/article/how-apples-siri-really-works

برچسب: