التعلم الآلي يسرع عملية رقمنة سجل الأسلاف
على مدار الـ 42 عامًا الماضية، جمعت Ancestry أكثر من 71 مليار شهادة ميلاد ورخص زواج وسجلات عائلية أخرى من 88 دولة لبناء 148 مليون شجرة عائلية.
بالنسبة لمعظم تاريخ شركة الأنساب، كان جمع تلك البيانات وتصنيفها وتنظيمها عملية بطيئة للغاية. كان موظفو Ancestry والبائعين الخارجيين يقضون أشهرًا في إدخال البيانات يدويًا ونسخ السجلات العائلية الدولية. قال سريرام ثياجاراجان، كبير مسؤولي التكنولوجيا في شركة Ancestry منذ نوفمبر 2020، إن التوسع الدولي بدأ في عام 2001 عندما أطلقت الشركة موقعًا إلكترونيًا في المملكة المتحدة، لكن إضافة أسواق إضافية جاء بتكلفة عالية.
وقال ثياجاراجان لموقع Business Insider: “إن تكلفة الوقت المستغرق لرقمنة هذا المحتوى الغني من جميع أنحاء العالم كانت العامل المقيد بالنسبة لنا”.
معظم جهود الذكاء الاصطناعي الخاصة بشركة Ancestry قادها Thiagarajan، الذي انضم إلى الشركة كرئيس تنفيذي للمعلومات في سبتمبر 2017؛ وجاء دوره الموسع قبل شهر من إغلاق شركة الاستثمار بلاكستون صفقة استحواذها على شركة Ancestry بقيمة 4.7 مليار دولار.
وقال ثياجاراجان إنه منذ ذلك الحين، أدت استثمارات Ancestry في التعلم الآلي والذكاء الاصطناعي، إلى جانب التقدم في الذكاء الاصطناعي التقليدي والتوليدي، إلى تسريع عملية الرقمنة. وأضاف أن الذكاء الاصطناعي أفسح المجال أيضًا لأدوات المستخدم الجديدة، بما في ذلك تقنيات التعرف على الوجه وخط اليد التي تعمل بالذكاء الاصطناعي.
تدريب نماذج الذكاء الاصطناعي
في عام 2003، تم تعيين جاكسون ريس، عالم البيانات ومهندس أبحاث البرمجيات، من قبل أحد الأصدقاء للانضمام إلى شركة Ancestry كرئيس لقسم التصوير الرقمي في خدمات الحفظ. في ذلك الوقت، كان لدى Ancestry قسم تصوير يتكون من شخص واحد يقوم برقمنة بيانات التعداد السكاني، وسجلات المواليد والوفيات، ونماذج الهجرة، وغيرها من السجلات التاريخية، حسبما قال ريس لـBusiness Insider. تم تعيينه في البداية لجلب عمليات التصوير الخاصة بالشركة داخليًا وقام أيضًا بتوسيع فريق التصوير الرقمي الخاص بها إلى أكثر من 70 موظفًا في غضون ثلاث سنوات.
وقال ريس لموقع Business Insider إن الفريق الموسع عمل باستخدام تقنيات عفا عليها الزمن مثل الماسحات الضوئية للميكروفيلم، والتي تحول الأرشيفات الحكومية وقصاصات الصحف إلى ملفات رقمية.
وقال ريس إنه ابتداءً من عام 2014، اتجهت شركة Ancestry إلى مشاريع الذكاء الاصطناعي المبكرة التي ركزت على تطوير نماذج التعلم الآلي الخاصة بشركة Ancestry وأنظمة الرؤية الحاسوبية لبناء خوارزميات يمكنها قراءة المستندات الورقية. استمر هذا العمل المبكر حتى عام 2016.
ثم عمل فريقه مع BERT، وهي عائلة من نماذج معالجة اللغة الطبيعية التي أطلقتها جوجل في أكتوبر 2018، لبناء أدوات أكثر دقة لاستخراج البيانات. في السابق، عندما كان فريق Ancestry يتلقى الملايين من سجلات المواليد الجديدة، كان خبراء المجال يراجعون المستندات ثم يمررونها إلى المفهرسين، الذين يقومون بنسخها وتصنيفها، كما قال ريس.
ستقوم شركة Ancestry بعد ذلك بتدريب نماذج الذكاء الاصطناعي الخاصة بها على هذه البيانات، على أمل أنه بعد بضع جولات من التراجع بين خبراء المجال والمفهرسين وعلماء البيانات، ستكون دقة نموذج الذكاء الاصطناعي أعلى من 90%.
وقال ريس: “كان هذا هو السيناريو الأفضل؛ في بعض الأحيان كنا نجري ثمانية أو عشرة أو اثني عشر تكرارًا للحصول على نموذج تم الاتصال به بالفعل”.
بحلول عام 2019، قامت Ancestry بدمج النماذج المستندة إلى BERT لمعالجة مجموعة النعي ومبادرات استخراج السجلات الأخرى بسرعة أكبر. وقال ريس إن الشركة أبقت الموظفين أيضًا على اطلاع لمواصلة التحقق من صحة بيانات التدريب والتأكد من أن النماذج تتعامل بشكل فعال مع السجلات.
نقطة التحول في ChatGPT
قال Thiagarajan إن ظهور ChatGPT في نوفمبر 2022 كان بمثابة “نقطة تحول أخرى من حيث اكتشاف فن الاحتمالات”. وقال إن النماذج اللغوية الكبيرة الجديدة من OpenAI وAnthropic وغيرها من أدوات الذكاء الاصطناعي الفائقة أتاحت إمكانية تسريع رقمنة البيانات غير المنظمة، بما في ذلك الصور التي ينشئها المستخدمون والمستندات الممسوحة ضوئيًا والقصص المكتوبة.
الآن بعد أن أصبح الذكاء الاصطناعي قادرًا على استخراج السجلات بسرعة أكبر وبدقة أكبر، يمكن لـ Ancestry استيعاب سجلات المواليد والبيانات الأخرى، وتطبيق مزيج من النماذج الخاصة من OpenAI وGoogle وAnthropic بالإضافة إلى نماذج الذكاء الاصطناعي مفتوحة المصدر، و”ضبطها قليلاً لتناسب حالات الاستخدام لدينا”، كما قال ريس. وأضاف أن الشركة يمكنها معالجة ما يقرب من 200 لغة مختلفة مع القليل جدًا من التدريب النموذجي التكراري.
وقال Thiagarajan إنه بحلول سبتمبر 2023، كانت Ancestry تستخدم LLMs للميزات التي تواجه المستخدم أيضًا. Face Match، وهي أداة للتعرف على الوجه مدعومة بالذكاء الاصطناعي تساعد المستخدمين على التعرف على الأشخاص في صورهم العائلية، ظهرت لأول مرة في يوليو 2024.
مثال على أداة نسخ الملاحظات المكتوبة بخط اليد من Ancestry، والتي يتم تشغيلها بواسطة الذكاء الاصطناعي. مجاملة من النسب
في أبريل 2025، كشفت الشركة عن ميزة نسخ المستندات التي تتيح للعملاء تحميل عمليات مسح ضوئي لملفات JPG وPNG وإنشاء نسخ من الملاحظات المكتوبة بخط اليد لعائلاتهم. تتيح قصص Ancestry’s AI، التي تم إطلاقها في ديسمبر 2025، للعملاء النقر على صفحة الأسلاف داخل قاعدة بيانات الشركة والاستماع إلى قصة صوتية مروية عن حياتهم، يقرأها الذكاء الاصطناعي.
النتيجة
وقال ثياجاراجان إنه بحلول نهاية عام 2025، تم إنشاء أكثر من 50% من السجلات التاريخية لـ Ancestry المنشورة على الموقع باستخدام الذكاء الاصطناعي. وساعد الذكاء الاصطناعي في زيادة معدل نمو المحتوى ثلاث مرات من 800 مليون سجل في عام 2021، إلى 5.2 مليار سجل جديد في عام 2022، و18.6 مليار في العام التالي، وفقًا للشركة.
وقال Thiagarajan إن Ancestry واصلت أيضًا إطلاق حالات استخدام خارجية للذكاء الاصطناعي، بما في ذلك في يونيو 2026، عندما أضافت ترجمة لغوية إلى أداة نسخ المستندات التي تواجه العملاء.