برداشت از iIndustry Watch؛ فقط ایدهای برای تأمل بیشتر
▬ چگونه میتوان از «کلاندادهها» برای حل معضلات اجتماعی استفاده کرد؟
▬ هر روز ۵/۲ کوانتیلیون (عدد یک با ۱۸ صفر به توان ۲) بایت داده تولید میشوند. این دادهها از تصاویر، ویدئوها، مطالب اینترنتی منتشره در سایتهای رسانههای اجتماعی، حسگرهای هوشمند، رکورد تراکنشهای خرید، سیگنالهای جی. پی. اس تلفن همراه و... ناشی میشوند.
▬ اینها «کلاندادهها» هستند.
▬ بر اساس یک پژوهش انجام شده توسط دفتر کسب و کار تکنولوژی مک کینزی، سود بزرگی هم برای جوامع تحقیقی، و هم برای جوامع تجاری، پیرامون دادههای بزرگ وجود دارد. پیشبینی شده است که «تحلیل «کلاندادهها» به پایهای کلیدی برای رقابت، موج جدید رشد بهرهوری، نوآوری و مازاد مصرفکننده تبدیل خواهد شد».
▬ اما ظاهراً، افراد بسیار کمی به اینکه چگونه میتوان از «کلاندادهها» برای حل معضلات اجتماعی استفاده کرد، توجه دارند. در واقع، اغلب کارهای انجام شده در این جهت نیست. چرا چنین است؟ در محافل پژوهشی بینالمللی چه کاری میتوان کرد تا از اثر برخی از برجستهترین ایدهها روی موضوعهای اجتماعی، اطمینان حاصل کرد؟
▬ من از محققان و حرفهایهای بسیار مشهور برای حضور در پنلی به منظور بحث درباره این موضوع دعوت کردهام. «راجر بارگا»، رهبر گروه اکستریم کامپیوتینگ؛ «لورا هاآس»، مدیر موسسه تودههای داده؛ «آلان هایوی»، پژوهشگر گوگل و رییس گروه استراکچرد دیتای ایالات متحده امریکا؛ «پُل میلر»، مشاور شرکت کلود دیتای بریتانیا کارشناسان حاضر در این پنل هستند. مشروح این پنل را پیش رو دارید:
░▒▓ سؤال اول: به نظر شما، میتوان از برخی از پژوهشهای کنونی و آینده درباره «کلاندادهها» به منظور دستیابی به سرمایه اجتماعی استفاده کرد؟
▬ آلان: بله، «کلاندادهها» تنها نشانه اندازه و حجم یکسری داده منفرد نیست، بلکه مجموعهای از داده است که به صورت آنلاین در اختیار ما قرار دارد. (به طور مثال، دادههای دولتی، نهادهای غیردولتی، دولتهای محلی و روزنامه نگاران) با در کنار هم قرار دادن این دادهها ما میتوانیم به گفتن روایتی از این دادهها کمک کرده و آنها را برای جمعیتی بزرگتر ارزشمند و سودده کنیم. به عنوان نمونه، جایزه اخیر روزنامه نگاری «دنیش» به ارائه روایتی زیبا از دادهها اعطا شد. دادههایی درباره این که کدام دکترها از سوی صنعت پزشکی حمایت میشوند. توانمند کردن مردم برای برقراری ارتباط با این دادهها بخشی از دستور کار «کلاندادهها» است.
▬ لورا: دقیقاً؛ در واقع، بسیاری از تلاشهایی که امروزه، به آنها اشتغال داریم، کاملاً در این جهت هستند. بخش عمدهای از پژوهشهای ما درباره «سیاره هوشمندتر» پیرامون استفاده هوشمندانهتر مقادیر زیاد دادههای ناشی از اندازهگیری، مشاهده و کسب اطلاعات هم درباره پدیدههای طبیعی، و هم پدیدههای دست ساخت بشر روی سیاره زمین است.
▬ پل: نکته اول اهمیت تشخیص پیشرفتهای تکنولوژیک، تکنولوژیهای جدید و شیوههای جدید کاری است که اغلب هم منافع اجتماعی ملموس، و هم منافع اجتماعی غیرملموس را به عنوان پیامد ناخواسته یا فرعی چیزی دیگر منتقل میکند. «رابرت اُون» و همتایانش در اواخر قرن هجدهم و اوایل قرن نوزدهم احتمالاً، دارای انگیزههای اصلی برای دستیابی به رفاه اجتماعی و برنامههای آموزشی که به کارگران خود ارائه میکردند، بودند؛ اما، موفقیت تجاری کارخانههای آنها بود که امکان و هزینه اقدامات بشردوستانه را فراهم کرد.
▬ البته، پس از مدتی، کودکان دارای تحصیلات بهتر به کارگران کارآمدتر کارخانه تبدیل شدند. از اینرو، این کار کاملاً نوعدوستانه هم نبود. به روشنی زمینه مناسبی برای رشد و گسترش «کلاندادهها» در ارائه منافع مستقیم به حوزههایی که به جامعه کمک میکنند، وجود دارد.
▬ «سرویس اینترنتی گوگل فلو ترندز» شاید مشهورترین مثال باشد: تحلیل میلیونها جست و جوی اصطلاحات مرتبط با آنفلوانزا (علائم، درمانها و... ) به بنیاد غیرانتفاعی گوگل این توان را میدهد تا رویتپذیری بیماری را به شیوههایی که میتوانند یا باید بتوانند به سیستمهای بهداشت محلی کمک کنند، فراهم کند.
▬ موتور جست و جوی گوگل درباره آنفلوانزا نیست و نشانههایش برای کشف یا پیشگیری از آنفلوانزا نیستند؛ این بخش از ارزشهای اجتماعی در واقع، از «خروجی داده»های همه کسانی که در سایتی واحد جست و جو میکنند، بیرون میآید. «روندهای آنفلوانزا» تنها مورد نیست؛ پژوهشگران دانشگاه هاروارد دریافتند که دادههای توییتر میتوانند برای پیگیری دامنه شیوع «وبا» در هائیتی به شیوهای مورد تجزیه و تحلیل قرار گیرند که سریعتر از تکنیکهای سنتی هستند.
▬ بر اساس گزارش تحقیقی «متیو اینگرام» «آنچه که پژوهش هاروارد و نقشه سلامت نشان میدهد این است که تحلیل دادههای به دست آمده از مجموعههای بزرگ مانند توییتهای مرتبط با هائیتی نه تنها برای پیگیری الگوها یا بررسی روابط پس از یک رویداد خوب هستند، بلکه میتوانند در حالی که رویدادها در حال وقوع هستند، مورد استفاده محققان جهان باشند.
▬ راجر: کاملاً، ما تا کنون چندین نمونه مانند اینها را دیدهایم. نمونه دیگر در علوم همکاری «جیمگری و آلکس شاللی» برای ساخت یک رصد خانه مجازی است که تکنولوژی ارتباطی پایگاه داده را ارتقا داد. نمونه تازهتر دیگر سیستم ترجمه زبان است که پژوهشگران در «مایکروسافت ریسرچ» با هدف کمک به کارگران نجات یافته از زمین لرزه سال ۲۰۱۰ هائیتی این سیستم را ساختند. ماشینی که در ۴ روز و ۱۷ ساعت و ۳۰ دقیقه ساخته و به منظور کمک به کارگران هائیتی ارائه شد.
░▒▓ سؤال دوم: به نظر شما «کلاندادهها» در چه حوزههایی میتوانند بر سرمایه اجتماعی اثر واقعی داشته باشند؟
▬ آلان: «کلاندادهها»، اطلاعاتی را آشکار میکنند که از منظر چشمان مشتاق عامه مردم پنهان میشوند. استفادهکنندگان اطلاعات و روزنامه نگاران در سراسر جهان باید به سادگی بتوانند مجموعههای داده را کشف کنند، آنها را به شیوهای با معنی با هم ادغام کنند و گزارشهایی درباره مسائلی که مورد توجه مردم هستند، ارائه دهند. به عنوان مثال، کمک به مردم در شرایط واکنش به بحران، پتانسیلی عظیم برای تولید اطلاعات دارد. مردم پس از زمین لرزه سال ۲۰۱۱ ژاپن و قبل از طوفان نیویورک در یک سال پس از این زمین لرزه، از «جداول جوش هستهای گوگل» به منظور تولید [اطلاعات در قالب] نقشههایی دارای اطلاعات اساسی استفاده کردهاند.
▬ لورا: مسأله سلامت نیز از چنین پتانسیلی برخوردار است. از آنجا که در حال حاضر مقادیر زیادی از اطلاعات ژنتیکی از طریق ثبت رکوردهای افراد تولید میشود، ادبیات علم پزشکی میتواند به ما در فراهم آوردن مشهورترین درمانها برای فرد بیمار کمک کند. یا در کشف درمانهای جدیدی که شاید موثرتر از درمانهایی که هم اینک انجام میشوند، به ما کمک کند. مثلاً، ما تا کنون روی ارتقای «کلاندادهها» و پیشبینی بهترین رژیمهای درمانی برای بیماران مبتلا به ایدز کار کردهایم.
▬ ما همچنین، میتوانیم پدیدههای دست ساخت بشر را نیز مورد بررسی قرار دهیم، به طور مثال، میتوانیم الگوهای ترافیکی را درک کرده و در پی آن برای کاهش ترافیک در ساعتهای پرترافیک برنامهریزی بهتری داشته باشیم. مثالهای بسیار دیگری نیز میتوان درباره استفاده از «کلاندادهها» در بهبود شرایط این سیاره ارائه کرد.
▬ پُل: این فرصتها حتماً باید بزرگ باشند؟ هر موضوع بزرگی روی جامعه اثر میگذارد، از تغییر زیست محیطی تا رشد جمعیت، تا نیاز به آب تمیز، غذا و بهداشت؛ همه اینها روی گروههای بزرگ تأثیر میگذارد. حجم، ثبات و تنوع دادهها در بسیاری از این حوزهها احتمالاً، فرصتهای چالش برانگیز پژوهشی ایجاد میکند.
▬ راجر: ارتقا بخشی پژوهشهای علمی همواره به eScience (علوم الکترونیکی) که از ستارهشناسی و اقیانوسشناسی گرفته تا علوم اجتماعی و اقتصاد را پوشش میدهد، ارجاع داده شده است. توان ما در کسب و تحلیل مقادیر زیادی از دادههای بیسابقه و جدید، پتانسیل اثرگذاری ژرف روی علوم را دارد.
░▒▓ سؤال سوم: چالشهای عمده در این حوزهها چیست؟
▬ آلان: کشف دادهها (نحوه یافتن دادههای باکیفیت از میان مجموعه دادههایی که روی وب قرار دارند) یک چالش بزرگ است. تعیین کیفیت دادهها و ارتباط آنها با موضوعهای ویژه و ترکیب چند مجموعه داده توسط افرادی که دانش اندکی درباره تکنیکهای پایگاه داده دارند، چالشی دائمی است.
▬ لورا: در هر پروژه مرتبط با «کلاندادهها»، موضوعهای یکسان متعددی وجود دارند. من سه دستهبندی عمده از این موضوعها را در اینجا ارائه میدهم: موضوعهایی که به دادهها مربوط هستند، موضوعهایی که به فرآیند استخراج بینش و کسب منفعت از دادهها ارتباط دارند و سرانجام، دادههایی که به موضوعهای مدیریت مانند حریم داده، امنیت و حاکمیت مرتبط هستند.
▬ در فضای اطلاعات، ما درباره چهار نوع داده سخن میگوییم. حجم (پرداختن به اندازه و حجم خالص دادهها)، تنوع (اداره کردن تعدد انواع دادهها و منابع و فرمتهای آنها)، شتاب (واکنش به سیل اطلاعات در زمان مورد نیاز) و صحت دادهها.
▬ چالشهای مرتبط با استخراج و نتیجهگیری از دادهها عبارتاند از: جمعآوری دادهها، مرتب کردن دادههای به دست آمده از منابع مختلف، تبدیل دادهها به شکلی مناسب برای تحلیل، مدلسازی دادهها به صورت ریاضی یا برخی شیوههای دیگر مانند شبیهسازی و.... و، سپس، دریافت خروجی و محصول.
▬ و امر نظارت نیز یکی دیگر از چالشها است؛ اطمینان از اینکه دادهها بهدرستی استفاده میشوند، بررسی شیوهای که دادهها به کار گرفته میشوند، استخراج میشوند و... ضوابط پژوهشی در همه این حوزهها وجود دارد.
▬ پُل: دسترس پذیری دادهها یکی دیگر از چالشها است؛ اینکه آیا اساساً دادهها در دسترس هستند؟ پاسخ مثبت است، اما، پوشش و جامعیت آنها اغلب کامل نیستند. معمولاً، اگر در یک فرآیند خوب، تصمیمگیری بر اساس دادههای بد یا ناقص باشد، تصمیمهای بد و ناقص حاصل خواهند شد. کیفیت داده نیز چالش دیگری است؛ دادهها تا چه حد خوب هستند؟ گستره پوشش دادهها تا چه حد وسعت دارد؟
▬ دقت نمونهگیری تا چه حد خوب است؟ تفسیرها و خوانشها تا چه حد بهموقع هستند؟ تا چه حد نمونهگیریها دارای سوگیری هستند؟ به طور مثال، مفاهیم نهفته در یک سونامی که چند کشور حاشیه اقیانوس آرام را تحت تأثیر قرار داد، چه هستند؟
▬ اطلاعات شخصی چالشی دیگر است. اطلاعاتی که اغلب درباره افراد است. آیا ما میتوانیم بدون به خطر انداختن حریم خصوصی افراد، و در عین حال، به منظور کمک به افراد اطلاعات شخصی کافی استخراج کنیم؟
▬ شاید بهجای پوشاندن سیاستهای حریم خصوصی، مصرفکنندگان، قانونگذاران و شرکتهای نرمافزاری باید به برخی از اشکال توافق دست یابند؛ اگر شما اجازه دسترسی به اطلاعات الف، ب، ج مرتبط با خود را بدهید، من از آنها برای اهداف ح، ط وی استفاده خواهم کرد و شما نیز منافع یا خدمات ک، ل و ن را به دست خواهید آورد. دو بخش نخست به طور فزایندهای بجا و مناسب هستند، البته، به طور غیررسمی.
▬ راجر: نخستین گام مهم پذیرش دیدگاه داده محور است. هدف صرفاً ذخیره داده برای جامعهای خاص نیست، بلکه بهبود کیفیت داده و ارائه آن به عنوان خدمتی دقیق و صحیح و مطابقت دادهها با سیستمهای عملیاتی است. در واقع، موضوع برقراری رابطه عمودی بین منابع بسیار متفاوت دادهای نیست، بلکه عملکردی کیفی است که باید به کار برده شود و تطبیق دادن همه دادهها با هم است. پژوهشگران در واقع، به داده نیازی ندارند، بلکه آنها برای پشتیبانی از اثر خود به پایگاههای اطلاعاتی مبتنی بر این دادهها نیاز دارند.
░▒▓ سؤال چهارم: چه مشکلات و موانعی جامعه ما را از کار کردن روی پروژههای سرمایه اجتماعی باز میدارد؟
▬ آلان: از چشمانداز فنی تصور نمیکنم موانع خاصی وجود داشته باشند. شاید مهمترین مانع ایدههایی مرتبط با بهکارگیری این تکنولوژی و اثر اجتماعی گذاشتن است. معمولاً، این ایدهها برآمده از جامعه فنی نیست، از این رو، ما نیازمند اظهارنظرهای شاغلان در این حوزه هستیم.
▬ لورا: تأمین بودجه و قابلیت دسترسی دادهها دو موضوع حائز اهمیت در اینجا هستند. بیشتر سرمایهگذاریها روی پروژههای سرمایه اجتماعی از سوی دولتها صورت میگیرد و ما میدانیم که این سرمایهگذاریها بخش کوچکی از بودجه کل است. افزون بر این، بازار ابزارهای جدید و مواردی از این دست که ممکن است در این فضاها ایجاد شوند نسبتاً محدود هستند، از این رو، این بخش همیشه برای شرکتهای خصوصی جذاب نیست تا روی آن سرمایهگذاری کنند. در حالی که امروزه، بسیاری از دادهها به طور عمومی در دسترس هستند، اما، اغلب قطعههای کلیدی مفقود هستند یا به طور شخصی نگه داری میشوند یا نمیتوان به صورت قانونی به آنها دست یافت مانند حریم خصوصی افراد یا منافع ملی یک کشور.
▬ راجر: شاید بزرگترین مانع، مانعی اجتماعی باشد. چنین پروژههایی نیازمند آگاهی جامعه به منظور واداشتن افراد به کنش است و اغلب یک قهرمان این چالشهای فنی را به شیوهای که برای جامعه دستیافتنی است، مطرح میکند. این پروژهها احتمالاً، به همکاری نزدیک میان جامعه فنی و کسانی که به این مشکل آشنایی دارند، نیاز خواهد داشت.
░▒▓ سؤال پنجم: به منظور پشتیبانی از ابتکار عملها برای دادههای بزرگ پایدار چه کاری میتوانیم بکنیم؟
▬ آلان: ساخت مجموعهای از دادههای بسیار با کیفیت که به طور گسترده در دسترس هستند، میتواند به عنوان ستون فقرات برای بسیاری از پروژههای ویژه داده خدمت کند. به طور مثال، مجموعههای دادهای که مرزهای کشور/شهرستان و سایر مناطق حکومتی را در برمی گیرد.
▬ لورا: به طور روز افزونی، ما شاهد اتحاد کنسرسیومهای مؤسسات به منظور انجام کار مشترک روی برخی از این مسائل هستیم. این مراکز احتمالاً، داده و پایگاههای اطلاعاتی برای کارهای مبتنی بر دادههای زیاد و فشرده فراهم میآورند، و برخی از چالشهایی که پیش از این ذکر شد، را با کسب و مدیریت داده کاهش میدهند، ابزارها و محیط لازم را ایجاد میکنند، ابزارهایی را برای حاکمیت فراهم میکنند و... گروه من در حال ایجاد چنین پایگاههایی با هدف تسهیل این همکاریهای مشترک است.
▬ پُل: بسیاری از حوزهها به پژوهشگران یا شرکتهای دارای مهارت/ تولید نیازمند هستند. فعالیتهایی مانند «بیگ دیدتا ویک هکتونز» [برنامه یک هفتهای که طی آن برنامه نویسهای کامپیوتری برای حل برخی مشکلات اجتماعی دور هم جمع شده و به همفکری پرداختند] میتواند راهی برای تشویق سازمان دهندهها به منظور برگزاری «هکتون»های دیگر و رقابتهایی که به طور مشخص روی یک مشکل اجتماعی هدفگذاری میشود. به ترغیب انتشار «اُپن دیتا» از مجموعه دادههای کلیدی عمومی ادامه دهید. با آژانسهایی که در این حوزهها کار میکنند و مشکلات را درک میکنند، گفت و گو کنید. شیوههای را برای کمک به آنها بیابید و آنها را در کاری که میخواهند انجام دهند یاری دهید و در این راه اعتماد و تفاهم ایجاد کنید.
▬ راجر: ابزارها و منابعی را به منظور ادامه پژوهش فراهم کنید. امروزه، تنها بخشی از دانشمندان و مهندسان از دسترسی عادی به منابع دارای کارآیی بالا و محاسبه فشرده داده به منظور پردازش و تحلیل مقادیر بسیار زیاد دادهها و اجرای مدلها و شبیه سازیها بهره میبرند. واقعیت برای اغلب جوامع علمی این است که سرعت کشف کردن اغلب مانع میشود، هنگامی که آنها باید برای دسترسی به منابع محدود در نوبت قرار گیرند یا هنگامی که آنها مجبورند چشم انداز پژوهش را در تطابق با قدرت پردازشگر بتدریج کاهش دهند.
▬ این مشکل بویژه در موسسههای پژوهشی کوچکتر حاد است. موسسههایی که دنبالههای جامعه پژوهشی را نمایندگی میکنند. دانشگاههای درجه یک و برخی دانشگاههای درجه دو زیرساختهای لازم و بودجه کافی برای تأمین و پشتیبانی منابع محاسبه را دارند، در حالی که موسسههای پژوهشی کوچکتر در حال کشمکش بر سر این موضوع هستند. شرکتها و آژانسهای سرمایهگذاری ما باید منابع را به منظور حمایت از پژوهشگران بویژه کسانی که به منابع کافی دسترسی ندارند فراهم کند.
░▒▓ سؤال ششم: آیا از وجود پروژهها یا ابتکارهایی برای «کلاندادهها» پایدار خبر دارید؟
▬ لورا: بله. زیاد! مرکز پژوهش آی. بی.ام به تنهایی در هر یک از حوزههایی که پیش از این، گفته شد و در حوزههای متعدد دیگر تلاشهایی کرده است. به طور مثال، ما روی مدلسازی سیل در شهر «ریو» در برزیل؛ کار کردهایم. مانیتور نوزادان نارس در بخش نوزادان بیمارستان تورنتو نیز از جمله یکی از کارهای ما است که امکان تشخیص عفونتهای تهدیدکننده زندگی را تا ۲۴ ساعت زودتر را میدهد.
برداشت آزاد از دنیای اقتصاد
هو العلیم