كشفت شركة «جوجل» النقاب عن محرك بحث يساعد الباحثين على تحديد مواقع البيانات المتاحة للاستخدام مجانًا على الإنترنت . وقد أطلقت الشركة الخدمة في يوم 5 سبتمبر الماضي، قائلةً إنها تستهدف “العلماء، وصحفيي البيانات، والمهووسين بالبيانات، وأي شخص آخر”.
ومحرك البحث «داتاسيت سيرش» Dataset Search، الذي يتوفر الآن جنبًا إلى جنب مع محركات بحث جوجل المتخصصة الأخرى، مثل تلك الخاصة بالأخبار والصور (فضلًا عن الباحث العلمي الخاص بجوجل (جوجل سكولار) Google Scholar، وكتب جوجل Google Books)، يحدد مواقع الملفات وقواعد البيانات حسبما صنفتها الجهات المالكة لها. وهو لا يقرأ محتوى الملفات ذاتها بالطريقة نفسها التي تتبعها محركات البحث مع صفحات الويب.
ويقول الخبراء إن «داتاسيت سيرش» يَسُد فجوة قائمة، وقد يُسهِم إسهامًا كبيرًا في نجاح حركة البيانات المفتوحة، التي تهدف إلى إتاحة البيانات للاستخدام، وإعادة الاستخدام مجانًا.
تُبقي هيئات حكومية، وناشرون علميون، ومؤسسات أبحاث، وباحثون أفراد على الآلاف من مستودعات البيانات المفتوحة في جميع أنحاء العالم، التي تحتوي على الملايين من مجموعات البيانات.
تقول ناتاشا نوي – عالِمة الحاسب الآلي في شركة «جوجل إيه آي» Google AI بماونتن فيو في ولاية كاليفورنيا – إن الباحثين الذين يرغبون في معرفة أنواع البيانات المتاحة، أو الذين يأملون في تحديد مواقع بيانات يعلمون بوجودها بالفعل، يضطرون – في كثير من الأحيان – إلى الاعتماد على المعلومات الشفهية.
وتشير نوي إلى أن هذه المشكلة تمثّل مشكلة حقيقية، خاصةً للباحثين في بداية مسيرتهم المهنية، الذين لم يدخلوا بعد بفي شبكة من العلاقات المهنية. وتُعتَبر كذلك جانبًا سلبيًّا لمَن يُجْرون أبحاثًا متعددة التخصصات، مثل متخصص في علم الأوبئة يحتاج للوصول إلى بيانات مناخية، قد تكون مرتبطة بانتشار أحد الفيروسات.
أبحاث مُصَنَّفة
وصفت نوي وزميلها بشركة «جوجل»، دان بريكلي، استراتيجية لحل هذه المشكلة لأول مرة في إحدى التدويناتفي يناير عام 2017 (انظر: go.nature.com/2oounre).
تعمل محركات البحث التقليدية من خلال مرحلتين أساسيتين: المرحلة الأولى هي فهرسة الصفحات المتاحة، عن طريق البحث على الإنترنت باستمرار. أما المرحلة الثانية، فهي تصنيف هذه الصفحات المفهرسة، بحيث عندما يُدخِل المستخدم كلمات البحث، يمكن أن يقدم محرك البحث النتائج وفق ترتيب درجة ملاءمتها.
كتب كلٌّ من نوي، وبريكلي أنه لمساعدة محركات البحث في فهرسة مجموعات البيانات الموجودة بالفعل، يجب على الجهات المالكة لمجموعات البيانات وضع علامات لها باستخدام مفردات موحدة، تُسمَّى «سكيما دوت أورج» Schema.org، وهي مبادرة أسستها شركة «جوجل»، وثلاث شركات أخرى من عمالقة محركات البحث (هي «مايكروسوفت»، و«ياهو»، و«ياندكس»)، ويديرها بريكلي. وطوّر فريق عمل «جوجل» كذلك خوارزمية خاصة لتصنيف مجموعات البيانات في نتائج البحث.
ونظرًا إلى هيمنة «جوجل» على مجال البحث على الإنترنت، فقد حثّ خبر تحرك الشركة إلى أنظمة البيانات المفتوحة الأطراف الفاعلة الرئيسة على اتباع القواعد سريعًا، وتوحيد بياناتها الوصفية، حسبما يقول مارك هانل، الرئيس التنفيذي لشركة «فيجشير» Figshare لتبادل البيانات بلندن. (تدير «فيجشير» مجموعة «هولتزبرينك بابليشينج جروب» Holtzbrinck Publishing Group، التي تملك أيضًا حصة غالبة في دار نشر دوريةNature .)
ويقول هانل إنه “بحلول شهر نوفمبر، ستكون كل الجامعات التي نعمل بها قد قامت بترميز كل بياناتها”. ويضيف: “أعتقد أن هذا سيُحْدث تغييرًا جذريًّا في مجال البيانات المفتوحة داخل الأوساط الأكاديمية”.
تفرض الجهات المموّلة أحيانًا إتاحة البيانات البحثية، ولن تصل هذه الجهات إلى أهدافها النهائية، إلا إذا كانت المعلومات قابلة للاسترداد بشكل فعال، حسبما يقول هانهل، الذي يضيف: “إن هذا يُضفي مشروعية على ما يحاول الممولون تحقيقه”.
مشارَكات بين الهيئات
كانت الإدارة الوطنية الأمريكية للمحيطات والغلاف الجوي (NOAA) أحد الداعمين الأوائل لتجربة «جوجل». وتتنوع اختصاصات هذه الإدارة بدءًا من مصائد الأسماك، وصولًا إلى هالة الشمس، ويحتوي أرشيفها على قرابة 70 ألف مجموعة بيانات، من بينها سجلات سفن تعود إلى القرن التاسع عشر. ويصل حجم هذا الكنز الدفين إلى ما يزيد على 35 بيتابايت، وهو ما يمكن مقارنته بمحتوي 35 ألف محرك أقراص ثابتة عادي.
ويقول إدوارد كيرنز – مدير البيانات بالإدارة الوطنية الأمريكية للمحيطات والغلاف الجوي بأشفيل في ولاية كارولينا الشمالية – إن أداة جوجل الجديدة ستساعد الإدارة الوطنية على تحقيق رسالتها المتعلقة بالبيانات المفتوحة. ويضيف كيرنز: “نحن نرغب في استكشاف طرق جديدة، لجعل هذه البيانات متاحة للآخرين”.
لقد كان التعاون بين الجهات المالكة للبيانات خطوة حاسمة لعمل محرك البحث «داتاسيت سيرش». وبالرغم من أن النظام قد يصبح أكثر تطورًا في المستقبل، إلا أن شركة «جوجل» ليست لديها خطط حاليًّا لقراءة البيانات بالفعل، أو تحليلها، على غرار ما تفعله بصفحات الويب، أو الصور. وتقول نوي: “إن أداة للبحث مثل هذه تكون جيدة فقط بمقدار ما تكون جهات نشر البيانات مستعدة لتقديمه”.
وكما هو الحال في جوجل سكولار، لا يقدم «داتاسيت سيرش» حاليًّا إمكانية الدخول للاستفسار الآلي، أو واجهة لبرمجة التطبيقات (API)، وإنْ كانت الشركة تقول إنها قد تضيف هذه الخاصية في المستقبل.
وتقول نوي إنه بينما يبدأ الباحثون في استخدام «داتاسيت سيرش»، ستراقب «جوجل» كيف يتفاعلون معه ويستخدمون هذه المعلومات لتحسين نتائج البحث، مضيفة أن الشركة ليست لديها خطط حالية لتقديم الخدمة مقابل المال.
وبينما يتطور محرك «داتاسيت سيرش»، قد يُدمَج كذلك مع جوجل سكولار؛ كي يمكن ربط نتائج البحث عن دراسة معينة بمجموعات البيانات ذات الصلة.