در لینکدین، از فناوری یادگیری ماشین، به طور گسترده برای بهینه سازی محصولات استفاده می شود. به عنوان مثال، رتبه بندی نتایج جستجو، تبلیغات و به روز رسانی در خبر یا توصیه افراد، مشاغل، مقالات و فرصت های یادگیری. یکی از اجزای مهم این پشته فناوری، گراف دانش است که سیگنال های ورودی را به مدل های یادگیری ماشین و خطوط بینش داده برای تغذیه محصولات لینکدین ارائه می دهد. در ادامه این مقاله اطلاعات بیشتری را به شما ارائه خواهیم داد.

گراف دانش در لینکدین.

گراف دانش لینکدین

گراف دانش لینکدین یک پایگاه دانش بزرگ است که بر اساس “نهاد هایی” در لینکدین ساخته شده است، مانند اعضا، مشاغل، عناوین، مهارت ها، شرکت ها، مکان های جغرافیایی و…. این واحد ها و روابط بین آن ها، هستی شناسی دنیای حرفه ای را تشکیل می دهند و توسط لینکدین، برای تقویت سیستم های توصیه گر، جستجو، کسب درآمد و محصولات مصرفی، تجزیه و تحلیل تجارت و مصرف کننده، استفاده می شود.

ایجاد یک پایگاه دانش بزرگ یک چالش بزرگ است. وب سایت هایی مانند ویکی پدیا و Freebase در درجه اول به مشارکت مستقیم داوطلبان انسانی متکی هستند. رشد آن ها می تواند به راحتی فلات شود. سایر کار های مرتبط مانند پنل دانش گوگل و Microsoft’s Satori، بر استخراج خودکار حقایق از وب با استفاده از ماهیت افزونگی داده های بزرگ برای ایجاد پایگاه های دانش متمرکز است.

متفاوت از این تلاش ها، ما گراف دانش لینکدین را بر اساس مقدار زیادی محتوای تولید شده توسط کاربران از اعضا، استخدام کنندگان، تبلیغ کنندگان و مدیران شرکت، ایجاد می کنیم و با داده های استخراج شده از آن، آن را تکمیل می کنیم. گراف دانش باید با ثبت نام اعضای جدید، مشاغل جدید ارسال شده، شرکت های جدید، مهارت ها و عناوین در مشخصات اعضا ظاهر شود.

گراف دانش لینکدین یک نمودار پویا است. نهاد های جدید به گراف اضافه می شوند و روابط جدید به طور مداوم شکل می گیرد. روابط موجود نیز می تواند تغییر کند.

ساخت طبقه بندی واحد ها

در لینکدین، طبقه بندی entity، شامل هویت یک entity( به عنوان مثال، شناسه، تعریف، نام متعارف و مترادف در زبان های مختلف و…) و ویژگی های یک نهاد است. واحد ها به دو صورت ایجاد می شوند:

  • entity آلی تولید شده توسط کاربران، جایی که ویژگی های اطلاعاتی توسط کاربران تولید و نگهداری می شوند. مثال ها شامل اعضا، مشاغل ممتاز، شرکت هایی است که توسط مدیران آن ها ایجاد شده است و….
  • entity ایجاد شده به صورت خودکار توسط لینکدین ایجاد می شوند. از آنجا که پوشش اعضا از یک entity، کلید با ارزشی است که داده ها در LinkedIn EcoSystems هدایت می کنند، تمرکز بر ایجاد نهاد های جدیدی است که می توان اعضا را برای آن ها ترسیم کرد. با استخراج پروفایل اعضا برای نامزد های موجود و استفاده از منابع داده خارجی و اعتبارسنجی های انسانی برای غنی سازی ویژگی های نامزد، ده ها هزار مهارت، عنوان، موقعیت جغرافیایی، شرکت، گواهینامه و… ایجاد شده است، که می توان اعضا را بر آن ها ترسیم کنیم.

entity ارگانیک تولید شده توسط کاربر می توانند دارای نام های بی معنی، ویژگی های نامعتبر یا ناقص، محتوای کهنه و یا بدون هیچ عضو نگاشته شده ای، باشند. بنابراین در گراف دانش لینکدین، یک نسخه طبقه بندی استنباطی، برای entity ارگانیک و واحد های ایجاد شده خودکار در یک چارچوب پردازش محتوا، در زمان واقعی حفظ می شود. داده های طبقه بندی استنباط شده شامل نمره اطمینان در هر ویژگی نهادی است که توسط یک مدل پیش بینی یادگیری ماشین، بر اساس ویژگی های متن و سایر ویژگی های فراداده entity محاسبه شده است.

این نمره اطمینان با استفاده از یک entity اعتبار سنجی جداگانه تنظیم می شود، به طوری که برنامه های پایین دستی می توانند با تفسیر آن به عنوان احتمال، به راحتی تعادل بین دقت و پوشش را متعادل کنند. ما همچنین از روش های خوشه بندی داده ها و مرکز همبستگی نهاد ها برای شناسایی و حذف نهاد های تکراری در طبقه بندی استفاده می کنیم و روش های CRF و مبتنی بر قوانین را برای استخراج ویژگی های نهاد از متن استفاده می کنیم.

استنباط رابطه entity

از منظر گراف دانش لینکدین، روابط entity نشان دهنده لبه های بین گره های entity، صریح یا ضمنی است. از منظر طبقه بندی، روابط entity نشان دهنده ویژگی های متمرکز بر گره های entity خاص است. تقریباً همه جفت روابط موجود برای اکوسیستم لینکدین ارزشمند است. چند مورد از این روابط مانند: نگاشت از اعضا به سایر نهاد ها برای هدف قرار دادن تبلیغات، جستجوی افراد، جستجوی کارکنان، خوراک، تجارب و تجزیه و تحلیل مصرف کنندگان.

این روش برای نهاد های محبوب به خوبی کار می کند. برای آموزش یک مدل مشترک که نهاد های بلند را پوشش می دهد، همچنین از جمع آوری اطلاعات برای تولید داده های جدید برچسب دار استفاده می شود. نتایج پذیرفته شده به طور خودکار به محتوای تولید شده توسط کاربر تبدیل می شود. همه نوع بازخورد کاربر، برای تقویت تکرار طبقه بندی کننده ها جمع آوری می شود.

نمایش داده ها

طبقه بندی های entity و روابط نهاد ها به طور جمعی از نسخه استاندارد داده های لینکدین، در ساختار گراف دانش، تشکیل شده است. همه محصولات پایین دستی می توانند در سطح داده به یک زبان صحبت کنند. تیم های کاربردی، این داده های استاندارد را از طریق یک سری API ها به دست می آورند که با در نظر گرفتن متن یا شناسه های entity دیگر، شناسه های entity را خروجی می گیرند. نتایج طبقه بندی کننده های مختلف در قالب های مختلف ساختار یافته به طور مستقل نمایش داده می شوند و از طریق کتابخانه، API های REST، Kafka (سیستم پیام رسانی توزیع شده با توان بالا، http://kafka.apache.org/) رویداد های جریان و HDFS به طور مداوم ارائه می شوند.

در نتیجه، بردار پنهان یک entity، شامل معناشناسی آن در طبقه بندی های entity متعدد و روابط entity متعدد (طبقه بندی کننده) به صورت فشرده است. چنین نمایشی راه را برای استفاده از داده های استاندارد شده به عنوان ویژگی در مدل های مربوطه هموار می کند.

نفوذ دانش از گراف

دانش اضافی را می توان بر اساس گراف استاندارد دانش استنباط کرد و بینش هایی را برای تجزیه و تحلیل مشاغل و مصرف کنندگان لینکدین، ایجاد کرد. به عنوان مثال ، با انجام OLAP، برای تجمیع گزینشیِ داده های گراف از دیدگاه های مختلف، می توان بینش های بلادرنگ، مانند تعداد اعضای دارای مهارت خاصی در یک مکان (منبع)، تعداد مشاغل نیازمند به مهارتی خاص در همان مکان (تقاضا) و در نهایت شکاف مهارت پیچیده، پس از در نظر گرفتن پایان عرضه و تقاضا. بینش به رهبران و فروشندگان کمک می کند تا تصمیمات تجاری بگیرند و میزان پاسخ اعضا را در توصیه کنندگان و جستجو افزایش دهند.

کشف بینش داده ها از گراف استاندارد دانش، یک فرایند داده کاوی مبتنی بر تجربه است. این می تواند روابط ناشناخته قبلی بین entity را افشا کند، که در نتیجه راهی دیگر برای تکمیل نمودار دانش لینکدین است.

منبع: linkedin