دیتاست‌های رایگان برای توسعه سامانه‌های تشخیص گفتار
کنسرسیوم غیرانتفاعی MLCommons با‌ عرضه عمومی دو سری داده صوتی بسیار جامع، این فرصت را در اختیار همه توسعه‌دهندگان سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق قرار داده است تا به دیتاست‌های مفصلی دسترسی داشته باشند. با این اقدام، به نوعی انحصار شرکت‌های بزرگ در این حوزه شکسته می‌شود. توسعه مدل‌های جدید یادگیری ماشین، وابسته به حجم بسیار زیادی از داده است و این دو دیتا‌ست که از جمله غنی‌ترین دیتاست‌های موجود در رده خود هستند کمک زیادی به این حوزه خواهند کرد.

shabake-mag.jpg

مدتی است که فناوری‌های تشخیص گفتار، مورد توجه بسیاری از شرکت‌ها قرار گرفته‌اند بطوریکه شمار زیادی از شرکت‌ها اعلام کرده‌اند که استفاده از چنین فناوری را در دستور کار خود دارند. یکی از ملزومات مهم برپایی سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق، در اختیار داشتن دیتا‌ست‌ها یا داده‌های آموزشی جامع و مفصل است. معمولاً چنین دیتا‌ست‌هایی در اختیار افراد عادی و حتی بسیاری از شرکت‌ها و سازمان‌ها نبوده و همین باعث می‌شود فقط شرکت‌هایی نظیر گوگل بتوانند با تکیه بر داده‌های عظیمی که در اختیار دارند در این حوزه پیشرو باشند.

 

MLCommons کنسرسیوم غیرانتفاعی که در زمینه عرضه منابع و ابزارهای توسعه رایگان برای هوش مصنوعی فعالیت می‌کند دو دیتاست بسیار غنی گفتار صوتی را در اختیار عموم قرار داده است. این دو دیتاست یعنی People’s Speech Dataset و Multilingual Spoken Words Corpus یا به اختصار MSWC نتیجه تحقیقاتی است که توسط گروهی زیر نظر این کنسرسیوم و از سال ۲۰۱۸ به منظور ایجاد یک دیتاست کاربردی از ۵۰ زبان پرکاربرد دنیا تشکیل شد. محققانی از مراکز تحقیقاتی نظیر دانشگاه‌های هاروارد و میشگان و نیز شرکت‌هایی نظیر علی‌بابا، اوراکل، گوگل، اینتل و بایدو در این تلاش شرکت داشته‌اند.

 

هدف دیتاست People’s Speech Dataset شناسایی گفتار است و بیش از سی هزار ساعت گفتار صوتی که تحت لایسنس Creative Commons قرار دارد را شامل می شود. از این دیتاست برای استفاده در ساختن مدل‌های شناسایی گفتاری که در دستیارهای صوتی و نرم‌افزارهای ترجمه کاربرد دارند می‌توان استفاده کرد. هدف MSWC نیز شناسایی کلمات کلیدی در یک گفتار است. MSWC شامل ۳۴۰ هزار کلمه کلیدی با بیش از ۲۳ میلیون مثال بوده که طیفی وسیعی از زبان‌های رایج دنیا را پوشش می‌دهد. این دیتاست در کاربردهایی نظیر ساخت دستگاه‌های هوشمند و برپایی مراکز تلفن کاربرد دارد. بنابر ادعای این کنسرسیوم،People’s Speech Dataset از جمله جامع‌ترین دیتاست‌های گفتار انگلیسی است که حق‌استفاده دانشگاهی و تجاری از آن آزاد است. MSWC نیز یکی از بزرگترین دیتا‌ست‌های گفتار صوتی است که کلمات کلیدی به ۵۰ زبان دنیا را پوشش می‌دهد.

 

مدت‌هاست دیتا‌ست‌های رایگانی نظیر TED-LIUM و  LibriSpeech به منظور آموزش دادن و آزمودن سامانه‌های تشخیص گفتار، در دسترس توسعه‌دهندگان قرار دارند. ولی دسترسی به برخی نظیر Fisher و  Switchboard نیازمند تهیه کسب حق‌استفاده ( لایسنس) بوده و یا استفاده از آن‌ها هزینه زیادی دارد. این امر سبب می‌شود که حتی سازمان‌هایی که بودجه زیادی نسبت به شرکت‌های کوچک‌تر دارند از نظر دسترسی به دیتاست‌ها در مقابل شرکت‌های بزرگی همچون گوگل، اپل و آمازون کم بیاورند. این امر سبب عقب افتادن آن‌ها در توسعه سامانه‌های تشخیص گفتار مبتنی بر یادگیری عمیق می‌شود. شرکت‌هایی نظیر گوگل به واسطه ابزارهایی نظیر اسمارت‌فون‌ها و بلندگوهای هوشمند، به حجم زیادی از داده‌های آموزشی دسترسی دارند. این امکان در اختیار همه شرکت‌ها و سازمان‌ها نیست. بعنوان مثال چهار سال قبل زمانیکه محققان موزیلا توسعه یک سامانه تشخیص گفتار انگلیسی موسوم به DeepSpeech را آغاز کردند، مجبور شدند برای تکمیل داده‌های مورد نیازشان به ایستگاه‌های تلویزیونی و رادیویی و دپارتمان‌های زبان دانشگاه‌ها مراجعه کنند. انتظار می‌رود که با آزاد شدن استفاده از People’s Speech Dataset و MSWC، محققان بیشتری بتوانند بر روی توسعه سامانه‌های تشخیص گفتار کار کنند.

 

People’s Speech Dataset به نوعی تکمیل‌کننده Common Voice است که از سوی موزیلا عرضه شده و یکی دیگر از بزرگترین دیتاست‌های گفتار در جهان است. بطوریکه بیش از ۹ هزار ساعت داده صوتی به ۶۰ زبان دنیا دارد. شرکت انویدیا به تازگی اعلام کرده است که ۱.۵ میلیون دلار در Common Voice سرمایه‌گذاری می‌کند تا با جلب توجه سایرین، از این ایده پشتیبانی شود.

ماهنامه شبکه را از کجا تهیه کنیم؟
ماهنامه شبکه را می‌توانید از کتابخانه‌های عمومی سراسر کشور و نیز از دکه‌های روزنامه‌فروشی تهیه نمائید.

ثبت اشتراک نسخه کاغذی ماهنامه شبکه     
ثبت اشتراک نسخه آنلاین

 

کتاب الکترونیک +Network راهنمای شبکه‌ها

  • برای دانلود تنها کتاب کامل ترجمه فارسی +Network  اینجا  کلیک کنید.

کتاب الکترونیک دوره مقدماتی آموزش پایتون

  • اگر قصد یادگیری برنامه‌نویسی را دارید ولی هیچ پیش‌زمینه‌ای ندارید اینجا کلیک کنید.

ایسوس

نظر شما چیست؟