تصور کنید از دستیار هوش مصنوعی خود میپرسید: «پردرآمدترین کارمند ما در شعبه اصفهان کیست و در سه ماه گذشته روی کدام پروژهها کار کرده است؟» این یک سوال ساده به نظر میرسد، اما پاسخ دقیق به آن، یکی از بزرگترین و پیچیدهترین چالشهای امروز دنیای هوش مصنوعی را آشکار میکند: درک «دادههای رابطهای». آیا مدلهای زبان بزرگ (LLM) مانند ChatGPT که در تولید متن و خلاقیت میدرخشند، میتوانند به اندازه یک سیستم پایگاه داده سنتی، قابل اعتماد و دقیق باشند؟ این سوال فقط یک کنجکاوی فنی نیست، بلکه آینده نحوه تعامل ما با اطلاعات را رقم میزند.
برای دههها، دنیای داده در سیطره پایگاههای داده رابطهای (Relational Databases) و زبان استاندارد آنها، یعنی SQL، بوده است. در این دنیا، همه چیز منظم و ساختاریافته است. اطلاعات در جداول تمیز و مرتبی ذخیره میشوند و روابط بین آنها به وضوح تعریف شده است: این «مشتری» این «محصول» را «خریداری» کرده است؛ این «کارمند» به این «بخش» «تعلق» دارد. این ساختار دقیق به ما اجازه میدهد تا با اطمینان کامل، پرسوجوهای پیچیده را اجرا کنیم و پاسخهای قطعی بگیریم. اینجا جایی برای حدس و گمان نیست؛ همه چیز بر اساس منطق و قوانین از پیش تعریفشده کار میکند.
اما با ظهور هوش مصنوعی و مدلهای زبان بزرگ، پارادایم جدیدی متولد شد. این مدلها دنیا را نه به شکل جداول منظم، بلکه به صورت یک اقیانوس بیکران از متن میبینند. آنها روابط را از طریق تحلیل الگوهای موجود در میلیاردها کلمه و جمله یاد میگیرند. وقتی یک LLM متنی را میخواند که میگوید «اسماعیل یزدانپور در شرکت X کار میکند»، یک ارتباط آماری بین «اسماعیل یزدانپور» و «شرکت X» برقرار میکند. این رویکرد، قدرت شگفتانگیزی در درک زبان طبیعی و پاسخ به سوالات عمومی به هوش مصنوعی بخشیده است.
چالش اصلی از جایی شروع میشود که این دو دنیا با هم برخورد میکنند. آیا میتوان به یک مدل زبانی برای مدیریت دادههای حیاتی و رابطهای یک کسبوکار اعتماد کرد؟ مشکل اینجاست که LLMها یک «مدل ذهنی» ساختاریافته و پایدار از جهان ندارند. آنها بر اساس احتمالات، کلمه بعدی را پیشبینی میکنند. این ویژگی میتواند منجر به پدیدهای به نام «توهم» یا Hallucination شود؛ یعنی تولید اطلاعاتی که به نظر معقول میآید اما در واقعیت نادرست است. در حالی که یک پایگاه داده SQL هرگز به شما نمیگوید که پرفروشترین محصول شما «کفش پرنده» است (مگر اینکه واقعاً آن را بفروشید!)، یک LLM ممکن است با اطمینان چنین پاسخی را تولید کند.
نکته کلیدی که استفان داونز در تحلیل خود به آن اشاره میکند، فراتر از جداول و ساختارهاست. ماهیت «رابطهای» بودن دادهها به خود جداول مربوط نیست، بلکه به «معنای» روابط بین موجودیتها برمیگردد. اینکه یک شخص «برای» یک شرکت کار میکند یا یک محصول «در» یک فروشگاه فروخته میشود، مفاهیمی هستند که معنای عمیقی دارند. پایگاههای داده این معانی را از طریق ساختارهای از پیش تعریفشده (Schema) به سیستم تحمیل میکنند، در حالی که LLMها سعی میکنند این معانی را از دل متن استنتاج کنند.
پس آینده چه خواهد بود؟ آیا هوش مصنوعی قرار است پایگاههای داده را به طور کامل کنار بزند؟ احتمالاً نه، حداقل نه به این زودی. سناریوی محتملتر، ایجاد یک همزیستی هوشمندانه است. میتوان از قدرت مدلهای زبان بزرگ به عنوان یک «مترجم» یا رابط کاربری هوشمند برای پایگاههای داده سنتی استفاده کرد. شما سوال خود را به زبان فارسی و محاورهای میپرسید و هوش مصنوعی آن را به یک کوئری دقیق SQL تبدیل کرده و به پایگاه داده ارسال میکند. سپس نتیجه را دریافت کرده و به زبانی قابل فهم برای شما توضیح میدهد. این رویکرد، بهترینهای هر دو دنیا را با هم ترکیب میکند: انعطافپذیری و درک زبان طبیعی هوش مصنوعی در کنار دقت، پایداری و قابلیت اعتماد پایگاههای داده ساختاریافته.
در نهایت، چالش دادههای رابطهای، مرز بعدی برای تکامل هوش مصنوعی است. توانایی یک سیستم برای ساختن یک مدل داخلی، قابل اعتماد و قابل استعلام از روابط موجود در جهان، همان چیزی است که هوش مصنوعی عمومی (AGI) را یک قدم به واقعیت نزدیکتر میکند. تا آن روز، SQL همچنان پادشاه قلمرو دادههای ساختاریافته باقی خواهد ماند، اما بدون شک، هوش مصنوعی جذابترین و قدرتمندترین مشاور او خواهد بود.
***
این نوشته، برداشتی آزاد و تلاشی برای بومیسازی ایدههایی است که در یادداشت خواندنی استفان داونز مطرح شده بود. خواندن متن اصلی را برای درک عمیقتر دیدگاه نویسنده پیشنهاد میکنم. هدف از این بازنویسی در وبلاگ شخصیام، به اشتراک گذاشتن مفاهیم کلیدی دنیای فناوری با نگاهی متفاوت است.
