پیش بینی مبتنی بر احساسات از نوسانات قیمت cryptocurrency جایگزین با استفاده از مدل درخت تقویت شیب

ساخت وبلاگ

Tianyu Ray Li 1 ، Anup S. Chamrajnagar 1 ، Xander R. Fong 1 ، Nicholas R. Rizik 1 and Feng Fu 1،2 *

  • 1 گروه ریاضیات ، کالج دارتموث ، هانوفر ، NH ، ایالات متحده
  • 2 گروه علوم داده های زیست پزشکی ، دانشکده پزشکی گیزل در دارتموث ، لبنان ، NH ، ایالات متحده

در این مقاله ، ما سیگنال های توییتر را به عنوان واسطه ای برای احساسات کاربر تجزیه و تحلیل می کنیم تا نوسانات قیمت یک رمزنگاری جایگزین با کلاه کوچک به نام ZClassic را پیش بینی کنیم. ما توییت ها را به صورت ساعتی به مدت 3. 5 هفته استخراج کردیم و هر توییت را به عنوان مثبت ، خنثی یا منفی طبقه بندی کردیم. سپس این توییت ها را در یک شاخص احساساتی ساعتی گردآوری کردیم و یک شاخص بدون وزن و وزنی ایجاد کردیم ، در حالی که دومی وزن بیشتری به بازتوییت می دهد. این دو شاخص ، در کنار جمع بندی خام احساسات مثبت ، منفی و خنثی به آن اضافه شده است~400 نقطه داده از داده های قیمت گذاری ساعتی برای آموزش یک مدل درخت رگرسیون تقویت شیب شدید. پیش بینی قیمت های تولید شده از این مدل با داده های قیمت تاریخی مقایسه شد ، با پیش بینی های حاصل از آن با داده های آزمایش 0. 81 ارتباط داشت. داده های پیش بینی کننده مدل ما اهمیت آماری در P<0.0001 level. Our model is the first academic proof of concept that social media platforms such as Twitter can serve as powerful social signals for predicting price movements in the highly speculative alteative cryptocurrency, or “alt-coin,” market.

رمزنگاری (یا ارز رمزنگاری) یک دارایی دیجیتالی است که برای کار به عنوان واسطه مبادله ای که از رمزنگاری برای تأمین معاملات خود استفاده می کند ، کنترل ایجاد ارزهای رمزنگاری اضافی و تأیید انتقال ایمن دارایی ها را انجام می دهد [1]. ارزهای رمزنگاری شده را می توان به عنوان انواع ارزهای دیجیتالی یا جایگزین طبقه بندی کرد ، متمایز از ارزهای سنتی در مقایسه با سیستم های بانکی مرکزی که ارزهای معمولی به آنها متکی هستند ، بر اساس اصل کنترل غیر متمرکز است. آغاز به کار ارزهای رمزنگاری به سال 2008 باز می گردد ، هنگامی که یک نهاد ناشناخته تحت نام مستعار Satoshi Nakamoto علناً مقاله ای با عنوان بیت کوین را منتشر کرد: یک سیستم نقدی الکترونیکی همتا به همتا [3]. در ژانویه سال 2009 ، ناکاموتو نرم افزار بیت کوین را به عنوان کد منبع باز پیاده سازی کرد و آن را در SourceForge برای عموم منتشر کرد [4]. مشارکتهای ناکاموتو موجی از توجه عمومی را به وجود آورد و دیگران را مجبور به ایجاد ارزهای رمزنگاری شده جایگزین کرد که به همان فناوری اساسی متکی بودند اما در هدف تخصصی بودند [5].

این موج از ارزهای رمزپایه جدید به دلیل ویژگی های نوآورانه دارایی ، توانایی بالقوه به عنوان ابزارهای معامله ای و نوسانات قیمت فوق العاده مورد توجه رسانه ها و سرمایه گذاران قرار گرفته است. در 2 سال گذشته ، کل سرمایه گذاری در کل بازار cryptocurrency 11،600 ٪ از 7. 4 میلیارد دلار در ژانویه 2016 به بیش از 800 میلیارد دلار از ژانویه 2018 افزایش یافته است [6]. این رشد نمایی نتیجه هر دو افزایش حدس و گمان سرمایه گذار و معرفی ارزهای مختلف رمزنگاری جدید است ، با برآوردهای فعلی از تعداد کل ارزهای رمزنگاری شده در صدر 1 ، 400 سکه مختلف [7]. بنابراین ، تجزیه و تحلیل پویایی تکاملی بازار cryptocurrency موضوعی از علاقه فعلی است و می تواند بینش مفیدی در مورد سهم بازار ارزهای رمزپایه ارائه دهد [5 ، 8 ، 9]. علاوه بر این ، از مجموعه داده های طولی معاملات بیت کوین برای شناسایی محرک های اقتصادی و اجتماعی در پذیرش رمزنگاری استفاده شده است [10].

گمانه زنی های این دارایی های دیجیتالی به چنین بزرگی افزایش یافته است که حتی ارزهای رمزنگاری شده و بدون عملکرد از ارزش بازار شرکتهای مستقر که سهام آنها در بازارهای سهام معامله می شود ، فراتر رفته است. این افزایش سریع و نمایی در قیمت های رمزنگاری نشان می دهد که نوسانات قیمت در درجه اول توسط حدس و گمان سرمایه گذار خرده فروشی هدایت می شود و این بازار علائم حباب مالی را نشان می دهد [11]. با توجه به این ، یک مطالعه جدید با مطالعه وابستگی دوربرد بازده بیت کوین و نوسانات از سال 2011 تا سال 2017 ، ناکارآمدی بازار بیت کوین را تعیین می کند [12]. چنین نوسانات چشمگیر بازار رمزنگاری ممکن است تا حدودی به دلیل شکنندگی اجتناب ناپذیر سیستم های غیرمتمرکز بر اساس فناوری blockchain باشد [13]. نکته قابل توجه ، توجه بیشتری به بهبود درک ما از رفتار بازار رمزنگاری شده است ، به عنوان مثال ، با استفاده از آزمایش های میدانی تأثیر همسالان (که توسط رباتها اعمال می شود) در تصمیمات تجاری انسان [14] و الگوسازی احتمالی خرید و فروش سفارشات [15].

با توجه به اینکه بازار جایگزین رمزنگاری جایگزین توسط سرمایه گذاران خرده فروشی حاکم است ، با تعداد کمی از سرمایه گذاران بزرگ نهادی ، احساسات در سیستم عامل های رسانه های اجتماعی و انجمن های آنلاین ممکن است یک رسانه مناسب برای تصرف کل سرمایه گذار سرمایه گذار ارائه دهد [16]. اخیراً نشان داده شده است که از داده های رسانه های اجتماعی مانند توییتر می توان برای ردیابی احساسات سرمایه گذار و تغییرات قیمت در بازار بیت کوین و سایر ارزهای رمزنگاری شده غالب استفاده کرد [17-20]. در گارسیا و شویتزر [18] ، نویسندگان نشان می دهند که احساسات توییتر ، در کنار سیگنال های اقتصادی حجم ، قیمت مبادله برای دلار ، اتخاذ فناوری بیت کوین ، حجم معاملات کلی می تواند برای پیش بینی نوسانات قیمت استفاده شود.

در نتیجه ، سرمایه گذاران ممکن است استراتژی مشابهی را در بازار بیت کوین اتخاذ کرده اند و از این طریق همبستگی بین احساسات توییتر و قیمت بیت کوین را تضعیف می کنند. علاوه بر این ، حجم معاملات روزانه ارزهای رمزنگاری شده به گونه ای افزایش یافته است که اکنون شرایط برای شرکت های تجاری با فرکانس بالا مناسب است تا از این همبستگی بهره برداری کنند [21]. برای اثبات مفهوم ، بنابراین ما تصمیم گرفتیم که استفاده از احساسات توییتر برای تجزیه و تحلیل نوسانات قیمت رمزنگاری های جایگزین نوپا (که معمولاً به عنوان "سکه های آلت" شناخته می شوند) می توانند بینش ارزشمندی را فراهم کنند و در نهایت منجر به یک فرصت داوری مناسب در سایر ارزهای جایگزین نوظهور شوند. بنابراین ، ما هدف ما تجزیه و تحلیل و ساخت یک مدل قیمت گذاری یادگیری ماشین برای این بازار بسیار سوداگرانه از طریق سنجش احساسات سرمایه گذار از طریق توییتر ، یک شبکه اجتماعی فراگیر که به شدت پیشنهاد شده است به عنوان یک سیگنال اجتماعی قدرتمند برای قیمت های بیت کوین خدمت کند [18].

مواد و روش ها

ما با تحقیق در مورد ارزهای مختلف رمزنگاری جایگزین شروع کردیم تا در نهایت تصمیم بگیریم که در محدوده تحلیل ما به بهترین وجه مناسب خواهد بود. در نهایت ، ما تصمیم گرفتیم ZClassic (ZCL) ، یک جامعه خصوصی ، غیرمتمرکز ، سریع و منبع باز را به عنوان هدف اصلی تمرکز دانشگاهی خود با توجه به پویایی فناوری منحصر به فرد و مناسب بودن حجم معاملات در محدوده محاسبات ما انتخاب کنیم. ظرفیت. اول از همه ، ماهیت تکنولوژیکی رمزنگاری zclassic خود را از طریق تجزیه و تحلیل توییت به سطح بالایی از پیش بینی می بخشد. به طور خاص ، Zclassic در تاریخ 28 فوریه 2018 به "چنگال سخت" به Bitcoin Private تبدیل شده است. یک سخت افزار یک تغییر اساسی در پروتکل blockchain است که باعث می شود بلوک ها یا معاملات قبلاً نامعتبر باشد [22].

در نتیجه ، رمزنگاری منفرد (ZClassic) قبل از چنگال سخت به دو ، Zclassic و بیت کوین خصوصی تقسیم می شود [22]. سخت افزار قبلی شامل پول نقد بیت کوین و طلای بیت کوین است ، و تاریخچه هرکدام نشان می دهد که نوسانات قیمت Zclassic تا حد زیادی در مورد موفقیت و دسترسی آینده بیت کوین به گمانه زنی ها خواهد بود. به عنوان مثال ، هر انتشار خبری که توسط سرمایه گذاران به عنوان نشانگر احتمال معامله بیت کوین در مبادله اصلی مشاهده می شود یا اینکه چنگال توسط یک مبادله خاص پشتیبانی می شود ، فشار قیمت را بر روی قیمت cryptocurrency پشتیبانی می کند. به همین ترتیب ، تجزیه و تحلیل توییت در زمان واقعی به عنوان ابزاری مناسب برای سنجش احساسات سرمایه گذار به دنبال این انتشار اخبار ، و مشخص کردن اخبار خود به خودی خود را نشان می دهد. ثانیا ، حجم معاملات نسبتاً پایین ZCL در مقایسه با ارزهای رمزنگاری شده جایگزین نشان می دهد که ممکن است مستعد حرکت قیمت مبتنی بر احساسات باشد.

برای جمع آوری توییت ها ، ما تصمیم گرفتیم که با توجه به موضعی از بسته ها و بنیادهای آنالیز توییتر ، در تجزیه و تحلیل داده ها و محاسبات آماری ، برنامه خود را در Rstudio پایه گذاری کنیم. به طور خاص ، ما از بسته RTWeet با منبع باز [23] استفاده کردیم که به API های استراحت و جریان توییتر دسترسی پیدا می کند. ما توانستیم از بسته RTWeet برای بازیابی استفاده کنیم ، از هر یک از 7 روز گذشته ، از نیمه شب به عقب ، توییت هایی که اصطلاحات "Zclassic" ، "ZCL" و "BTCP" را جستجو می کنیم. این فرایند جمع آوری 3 بار در طول سه هفته و نیم تکرار شد تا داده های کافی برای تجزیه و تحلیل ما ارائه شود. ما سپس همه مجموعه داده ها را ادغام کردیم و هر توییت تکراری را با توجه به اینکه یک توییت واحد می تواند شامل هر سه این اصطلاحات باشد ، حذف کردیم و بنابراین در مجموعه داده های نهایی سه بار حساب می شوند. در پایان ، ما مجموعه داده نهایی 130 ، 000 توییت منحصر به فرد را بدست آوردیم.

سپس ما یک الگوریتم برای طبقه بندی هر توییت به عنوان احساسات مثبت ، منفی یا خنثی با استفاده از پردازش زبان طبیعی ایجاد کردیم. فرهنگ لغت ، که در درجه اول از بسته پایتون "TextBlob" تهیه شده است ، که کلمات و عبارات تأثیرگذار را به یک مقدار قطبیت اختصاص می دهد (به عنوان مثال ، "بالا" و "عالی" مقادیر 0. 5 و 0. 4 -) ، که ما به عنوان احساسات می بینیم. بنابراین ، به هر توییت یک مقدار قطبیت بین 1 و 1 بر اساس ترکیب کلمات کلیدی و عبارات اختصاص داده می شود. اگر کل رشته توییت دارای ارزش قطبیت غیرزرو مثبت باشد ، برنامه ما احساسات را مثبت یا 1+ می کند. اگر کل رشته توییت دارای ارزش قطبیت غیرزرو منفی باشد ، برنامه ما احساسات را به عنوان منفی ، −1 نشان می دهد. اگر مقدار قطبیت صفر باشد ، توییت مقدار احساسات 0 را دریافت می کند.

یکی دیگر از جنبه های مهم که باید در مورد شخصیت هر توییت توجه داشته باشید ، اثر شبکه زنجیره ای است که هر بازتوییت ایجاد می کند. بدیهی است که بازتوییت ها می توانند باعث ایجاد اثر زنجیره ای شوند ، در نتیجه پراکندگی "توییت" اولیه را افزایش می دهد. به همین ترتیب ، این امکان وجود دارد که پست های بازتوییت شده حاوی اطلاعات مثبت یا منفی جدید باشند ، یا ممکن است توسط جامعه بازرگانی به عنوان "بصیرت" تلقی شود. به همین دلیل ، ما تصمیم گرفتیم یک شاخص احساسات دوم ایجاد کنیم که در آن بازتوییت ها به شدت وزن بیشتری از توییت ها داشته باشند و از آن به عنوان یکی از ویژگی های آموزش مدل ما استفاده می کنند. ما به ترتیب وزن 2 یا 2 +2 را به هر بازتوییت منفی و مثبت اختصاص دادیم زیرا فرض کردیم که retweets نشانگر وقایع جدیدتر است و اعتبار بیشتری نسبت به توییت های تک دارند. بنابراین ، ما معتقدیم که سرمایه گذاران cryptocurrency احتمالاً نسبت به توییت های تک به بازتوییت واکنش نشان می دهند. هر دو مقادیر شاخص های احساساتی وزنه برداری و بدون وزنی ما با جمع آوری وزن همه توییت های همزمان ، به صورت ساعتی محاسبه می شوند ، که به ما امکان مقایسه مستقیم این شاخص را با داده های قیمت ZCL در دسترس می دهد.

برای انتخاب مدل ، ما از اعتبار سنجی صلیب 10 برابر در 589 نقطه داده استفاده کردیم تا یک چارچوب مدل بهینه را در بین رگرسیون خطی ، رگرسیون لجستیک ، رگرسیون چند جمله ای ، رگرسیون نمایی ، مدل درخت و رگرسیون دستگاه بردار پشتیبانی انتخاب کنیم. یک مدل درختی به نام رگرسیون تقویت کننده شیب شدید (همچنین با نام XGBoost [24] شناخته می شود) ، کوچکترین از دست دادن یا عدم دقت را به نمایش گذاشت و به این ترتیب برای آموزش مدل بر روی داده های ما انتخاب شد. مدل XGBoost و همچنین سایر مدل های مبتنی بر درخت به دلایل زیر برای برنامه های کاربردی در داده های ما مناسب است:

1. مدل های درخت به دامنه حسابی داده ها و ویژگی ها حساس نیستند. بنابراین ، ما نیازی به عادی سازی داده ها نداریم و احتمالاً به دلیل عادی سازی از دست دادن جلوگیری می کنیم.

2. مدل های درخت به دلیل فرآیندهای ساخت و ساز خود ، مقیاس پذیرترین مدل یادگیری ماشین هستند-اضافه کردن بیشتر گره های کودکان به گره های درختی از قبل موجود ، درخت را به روز می کند و به استراتژی ما اجازه می دهد تا به عنوان مجموعه قیمت ما به طور دقیق پیش بینی قیمت را ادامه دهدو داده های توییت به آینده افزایش می یابد. همچنین این مدل را برای ارزهای دارای حجم صدای جیر جیر روزانه بزرگتر می کند.

3. در سطح انتزاعی ، مدل درخت یک روش یادگیری مبتنی بر قانون است که برخلاف یک روش یادگیری رگرسیون سنتی ، پتانسیل بیشتری برای رونمایی از روابط بینش بین ویژگی ها دارد.

XGBOOST یک مدل گروه درختی است که با وزن دادن به نمونه های گمراه شده به شدت ، تعداد وزنی از پیش بینی های درختان رگرسیون چندگانه را تولید می کند.

برای کامل بودن ، ما ایده های اصلی را در پشت XGBoost به شرح زیر ترسیم می کنیم. بگذارید تعریف کنیم

جایی که y i ^ پیش بینی مدل ما برای مشاهده i-th است ، ϕ (xمن) عملکرد پیش بینی ما است و هر F که یک درخت را در جنگل درخت رگرسیون ما نشان می دهد ، f. هدف ما به حداقل رساندن عملکرد هدف L ، تعریف شده در زیر:

فارکس پرشین...
ما را در سایت فارکس پرشین دنبال می کنید

برچسب : نویسنده : دلیله نمازی بازدید : 56 تاريخ : پنجشنبه 18 خرداد 1402 ساعت: 1:28