التحدي المتمثل في الحفاظ على البيانات الجيدة في عصر الذكاء الاصطناعي
إيف هنا. كان التحدي المتمثل في الحفاظ على البيانات الجيدة موجودًا قبل الذكاء الاصطناعي، ولكن يبدو أن الذكاء الاصطناعي سيزيد المشكلة سوءًا. هناك عدة طبقات لهذا اللغز. الأول هو الفجوة بين ما قبل الإنترنت وما بعده، حيث انخفضت قيمة مصادر الطباعة قبل ظهور الإنترنت وربما أصبح الوصول إليها أكثر صعوبة (حيث من المحتمل أن تضعف الجهود المبذولة للحفاظ عليها). السبب الثاني هو أن مواد عصر الإنترنت تختفي طوال الوقت. على سبيل المثال، حتى في أوائل فترة المراهقة، كان يُقال لي بانتظام إن الرأسمالية العارية كانت مصدرًا بالغ الأهمية للبحث حول الأزمة المالية لأن الكثير من المواد المصدرية قد اختفت أو يصعب الوصول إليها. يشرح الجزء أدناه كيف ينتج الذكاء الاصطناعي مشاكل جديدة عن طريق إنشاء طوفان من “المعلومات” وزيادة صعوبة تحديد المواد القديمة التي يجب الحفاظ عليها.
بقلم بيتر هول هو طالب دراسات عليا في علوم الكمبيوتر في معهد كورانت للعلوم الرياضية بجامعة نيويورك. وتتركز أبحاثه على الأسس النظرية للتشفير وسياسة التكنولوجيا. نشرت أصلا في أوندرك
أثناء نشأتي، طُلب من أبناء جيلي أن يكونوا حذرين مما ننشره على الإنترنت، لأن “الإنترنت إلى الأبد”. لكن في الواقع، يفقد الأشخاص الصور العائلية التي تمت مشاركتها على حسابات وسائل التواصل الاجتماعي التي تم حظرهم منها منذ فترة طويلة. تتيح خدمات البث إمكانية الوصول إلى العروض المحبوبة، والمحتوى الذي لم يكن من الممكن امتلاكه على الإطلاق. يخسر الصحفيون ورسامي الرسوم المتحركة والمطورون سنوات من العمل عندما تموت شركات الويب ومنصات التكنولوجيا.
وفي الوقت نفسه، ازدادت شعبية الأدوات التي تعتمد على الذكاء الاصطناعي، مثل ChatGPT وأداة إنشاء الصور Midjourney، ويعتقد البعض أنها ستحل يومًا ما محل العمل الذي كان البشر يقومون به تقليديًا، مثل كتابة النسخ أو تصوير مقاطع فيديو B-roll. وبغض النظر عن قدرتهم الفعلية على أداء هذه المهام، هناك شيء واحد مؤكد: الإنترنت على وشك أن يغرق بكمية كبيرة من المحتوى منخفض الجهد، الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، مما قد يؤدي إلى إغراق العمل البشري. تشكل هذه الموجة القادمة مشكلة لعلماء الكمبيوتر من أمثالي الذين يفكرون في خصوصية البيانات ودقتها ونشرها يوميًا. ولكن يجب على الجميع الانتباه. وبدون وجود خطط واضحة للحفظ، سنفقد الكثير من البيانات والمعلومات الجيدة.
وفي نهاية المطاف، فإن الحفاظ على البيانات هو مسألة موارد: من سيكون مسؤولاً عن تخزين المعلومات والحفاظ عليها، ومن سيدفع مقابل إنجاز هذه المهام؟ وعلاوة على ذلك، من الذي يقرر ما يستحق الاحتفاظ به؟ تعد الشركات التي تعمل على تطوير ما يسمى بنماذج الذكاء الاصطناعي الأساسية من بين اللاعبين الرئيسيين الذين يرغبون في فهرسة البيانات عبر الإنترنت، لكن اهتماماتهم لا تتوافق بالضرورة مع اهتمامات الشخص العادي.
تكاليف الكهرباء ومساحة الخادم اللازمة للاحتفاظ بالبيانات إلى أجل غير مسمى تتزايد بمرور الوقت. يجب الحفاظ على البنية التحتية للبيانات، بنفس الطريقة التي يتم بها الحفاظ على الجسور والطرق. خاصة بالنسبة لناشري المحتوى على نطاق صغير، يمكن أن تكون هذه التكاليف مرهقة. حتى لو تمكنا من تنزيل الإنترنت بالكامل وعمل نسخة احتياطية منه بشكل دوري، فإن هذا لا يكفي. مثلما تكون المكتبة عديمة الفائدة بدون نوع من الهيكل التنظيمي، فإن أي شكل من أشكال حفظ البيانات يجب أن يتم أرشفته بعناية. التوافق هو أيضا مشكلة. إذا انتقلنا يومًا ما من حفظ مستنداتنا كملفات PDF، على سبيل المثال، فسنحتاج إلى الاحتفاظ بأجهزة الكمبيوتر القديمة (المزودة ببرامج متوافقة).
ومع ذلك، عند حفظ كل هذه الملفات والمحتوى الرقمي، يجب علينا أيضًا احترام أصحاب حقوق الطبع والنشر والعمل معهم. أنفقت شركة Spotify أكثر من 9 مليارات دولار على ترخيص الموسيقى العام الماضي، على سبيل المثال؛ وأي نظام أرشفة بيانات يواجه الجمهور سيحمل أضعاف هذا القدر من القيمة. يعتبر نظام حفظ البيانات عديم الفائدة إذا تعرض للإفلاس بسبب الدعاوى القضائية. قد يكون هذا أمرًا صعبًا بشكل خاص إذا تم إنشاء المحتوى بواسطة مجموعة، أو إذا تم تغييره عدة مرات – حتى إذا وافق المنشئ الأصلي للعمل، فقد يظل هناك شخص ما موجود لحماية حقوق الطبع والنشر التي اشتراها.
أخيرًا، يجب أن نكون حريصين على أرشفة المعلومات الحقيقية والمفيدة فقط، وهي مهمة أصبحت صعبة بشكل متزايد في عصر الإنترنت. قبل ظهور الإنترنت، كانت تكلفة إنتاج الوسائط المادية – الكتب والصحف والمجلات وألعاب الطاولة وأقراص الفيديو الرقمية والأقراص المدمجة وما إلى ذلك – تحد بشكل طبيعي من تدفق المعلومات. على الإنترنت، تكون حواجز النشر أقل بكثير، وبالتالي يمكن نشر الكثير من المعلومات الكاذبة أو غير المفيدة كل يوم. عندما تصبح البيانات لا مركزية، كما هي الحال على الإنترنت، فإننا لا نزال بحاجة إلى طريقة ما للتأكد من أننا نروج لأفضل ما فيها، مهما كان تعريف ذلك.
لم يكن هذا الأمر أكثر أهمية من أي وقت مضى، على شبكة الإنترنت المبتلاة بالثرثرة الناتجة عن الذكاء الاصطناعي. لقد ثبت أن نماذج الذكاء الاصطناعي التوليدية مثل ChatGPT تحفظ بيانات التدريب عن غير قصد (مما أدى إلى دعوى قضائية رفعتها صحيفة نيويورك تايمز)، وتهلوس المعلومات الكاذبة، وفي بعض الأحيان تسيء إلى الحساسيات البشرية، كل ذلك في حين أصبح المحتوى الناتج عن الذكاء الاصطناعي منتشرًا بشكل متزايد على مواقع الويب وتطبيقات الوسائط الاجتماعية.
رأيي هو أنه نظرًا لأنه يمكن إعادة إنتاج المحتوى الناتج عن الذكاء الاصطناعي، فإننا لا نحتاج إلى الحفاظ عليه. في حين أن العديد من مطوري الذكاء الاصطناعي الرائدين لا يريدون الكشف عن الأسرار المتعلقة بكيفية جمعهم لبيانات التدريب الخاصة بهم، يبدو من المرجح بشكل كبير أن يتم تدريب هذه النماذج على كميات هائلة من البيانات المسروقة من الإنترنت، لذلك حتى شركات الذكاء الاصطناعي تشعر بالقلق من ذلك – تسمى البيانات الاصطناعية عبر الإنترنت مما يؤدي إلى تدهور جودة نماذجها.
وفي حين يستطيع المصنعون والمطورون والأشخاص العاديون حل بعض هذه المشاكل، فإن الحكومة في وضع فريد حيث تمتلك الأموال والسلطة القانونية اللازمة لإنقاذ اتساع نطاق ذكائنا الجماعي. تقوم المكتبات بحفظ وتوثيق عدد لا يحصى من الكتب والأفلام والموسيقى وغيرها من أشكال الوسائط المادية. حتى أن مكتبة الكونجرس تحتفظ ببعض أرشيفات الويب، خاصة الوثائق التاريخية والثقافية. ومع ذلك، هذا ليس كافيا تقريبا.
من المؤكد أن حجم الإنترنت، أو حتى الوسائط الرقمية فقط، يفوق بكثير المتاجر الرقمية الحالية في مكتبة الكونجرس. ليس هذا فحسب، بل رقميًا المنصات – أعتقد أن برامج مثل Adobe Flash التي عفا عليها الزمن الآن – يجب أيضًا الحفاظ عليها. مثلما يقوم دعاة الحفاظ على البيئة بصيانة الكتب والسلع المادية الأخرى التي يتعاملون معها والعناية بها، تحتاج السلع الرقمية إلى فنيين يعتنون بأجهزة الكمبيوتر وأنظمة التشغيل الأصلية ويحافظون عليها في حالة عمل جيدة. في حين أن مكتبة الكونجرس لديها بعض الممارسات المعمول بها لرقمنة تنسيقات الوسائط القديمة، إلا أنها تفشل في تلبية متطلبات الحفظ في المشهد الواسع للحوسبة.
تقوم مجموعات مثل مؤسسة ويكيميديا وأرشيف الإنترنت بعمل رائع في تعويض النقص. يحتفظ الأخير على وجه الخصوص بسجل شامل للبرامج والمواقع المهملة. ومع ذلك، تواجه هذه المنصات عقبات خطيرة أمام أهدافها الأرشيفية. غالبًا ما تطلب ويكيبيديا التبرعات وتعتمد على مدخلات المتطوعين لكتابة المقالات وفحصها. ينطوي هذا على مجموعة من المشكلات، ليس أقلها التحيزات فيما يتعلق بالمقالات التي يتم كتابتها، وكيفية كتابتها. يعتمد أرشيف الإنترنت أيضًا على مدخلات المستخدم، على سبيل المثال من خلال Wayback Machine، مما قد يحد من البيانات التي يتم أرشفتها ومتى. واجه أرشيف الإنترنت أيضًا تحديات قانونية من أصحاب حقوق الطبع والنشر، مما يهدد نطاقه وسبل عيشه.
ومع ذلك، فإن الحكومة ليست مقيدة بنفس القيود تقريبًا. ومن وجهة نظري فإن التمويل والموارد الإضافية اللازمة لتوسيع أهداف مكتبة الكونجرس في أرشفة بيانات الويب سوف تكون ضئيلة للغاية بالنسبة لميزانية الولايات المتحدة. تتمتع الحكومة أيضًا بسلطة إنشاء الاستثناءات اللازمة للملكية الفكرية بطريقة مفيدة لجميع الأطراف – انظر، على سبيل المثال، مسرح أرشيف الأفلام والأشرطة التابع لمكتبة نيويورك العامة، والذي حافظ على العديد من مسرح برودواي وخارجها. إنتاجات برودواي للأغراض التعليمية والبحثية على الرغم من أن هذه العروض تمنع بشدة الأشخاص من التقاط صور أو مقاطع فيديو لها. وأخيرا، تعتبر الحكومة، من الناحية النظرية، وكيلة الإرادة العامة والمصلحة العامة، والتي يجب أن تشمل معرفتنا وحقائقنا الجماعية. وبما أن أي شكل من أشكال الأرشفة يتضمن شكلاً من أشكال اختيار ما يتم حفظه (وبالإضافة إلى ما لا يتم حفظه)، فإنني لا أرى خيارًا أفضل من قيام هيئة عامة مسؤولة باتخاذ هذا القرار.
وبطبيعة الحال، كما أن حفظ السجلات التناظرية لم ينته مع المكتبات المادية، فإن أرشفة البيانات لا ينبغي أن تنتهي مع هذا الاقتراح. لكنها بداية جيدة. وخاصة بعد أن سمح الساسة للمكتبات بالتلاشي (كما يفعلون في منزلي في مدينة نيويورك)، فقد أصبح من المهم أكثر من أي وقت مضى أن نصحح المسار. يجب علينا أن نعيد تركيز اهتمامنا على تحديث مكتباتنا، وهي مراكز معلومات، لتتوافق مع عصر المعلومات.