Le 15 librerie R più popolari che devi conoscere nel 2022
Con un elenco in continua espansione di librerie supportate, R oggi è più forte che mai.
Mentre molte persone oggi scelgono Python per le attività di apprendimento automatico, R rimane un punto fermo nel toolkit di qualsiasi sviluppatore. Con il suo codice pulito, la capacità di concatenare le funzioni e l’operatore pipe, R può spesso rendere le attività semplici super facili da eseguire. Regge bene anche compiti complessi come previsioni o modellazione.
Nel complesso, R oggi è più forte che mai, con un elenco in continua espansione di librerie supportate.
Ecco le 15 librerie R per il machine learning rilasciate nel 2022!
1 fastTopics
Il pacchetto implementa algoritmi per il conteggio dei dati dei modelli di argomento di adattamento e la fattorizzazione della matrice non negativa. I metodi sfruttano la relazione tra l’indice semantico latente probabilistico e la fattorizzazione della matrice non negativa di Poisson.
fastTopics fornisce strumenti per confrontare, annotare e visualizzare i modelli. Crea “trame strutturali” e identifica le caratteristiche chiave.
2 Metrica
Il pacchetto compila oltre 80 funzioni ed è progettato per valutare le prestazioni di previsione di modelli di previsione puntuale di regressione e classificazione come DNDC, APSIM, DSSAT e altri.
Metrica offre una cassetta degli attrezzi con un ampio spettro di metriche di errore, indici e coefficienti per diverse caratteristiche tra valori previsti e osservati, insieme ad alcune funzioni di visualizzazione di base per valutare le prestazioni dei modelli fornite in formato personalizzabile (ggplot).
3 SparseVFC (Sparse Vector Field Consensus per l’apprendimento del campo vettoriale)
Il pacchetto SparseVFC implementa l’algoritmo SparseVFC (sparse vector field consensus) per un robusto apprendimento del campo vettoriale. È ampiamente tradotto dalle funzioni MATLAB in https://github.com/jiayi-ma/VFC .
4 agua
Basato sul pacchetto h2oparsnip , agua consente agli utenti di adattare, ottimizzare e valutare i modelli tramite H2O utilizzando la sintassi di tidymodels. Tuttavia, la maggior parte degli utenti dovrà utilizzare le funzionalità tramite il nuovo motore computazionale di pastinaca “h2o”.
Durante l’adattamento del modello, i dati vengono passati direttamente al server h2o. I dati vengono passati una volta per l’ottimizzazione e vengono fornite istruzioni a h2o.grid() per elaborarli.
5 OpenAI
OpenAI è un wrapper R di endpoint API OpenAI. Questo pacchetto copre motori, completamenti, modifiche, file, ottimizzazioni, incorporamenti ed endpoint di ricerche, classificazioni e risposte legacy.
Per utilizzare l’API OpenAI, devi fornire una chiave API. Per iniziare, iscriviti all’API OpenAI in questa pagina . Dopo esserti registrato e aver effettuato l’accesso, devi aprire questa pagina , fare clic su “Personale” e selezionare “Visualizza chiavi API” nel menu a discesa. È quindi possibile copiare la chiave facendo clic sul testo verde “Copia”.
6 webmorphR
Con un focus sugli stimoli del viso, webmorphR mira a rendere più coerente la costruzione degli stimoli dell’immagine.
Gli stimoli utilizzati nella ricerca non possono essere condivisi per ragioni etiche ma webmorphR consente la condivisione di ricette per la creazione di stimoli, favorendo la generalizzabilità a volti nuovi.
7 cito
‘cito’ ha lo scopo di aiutarti a costruire e addestrare reti neurali con la sintassi R standard. Consente l’intero processo di creazione e addestramento del modello con una riga di codice. Inoltre, tutti i metodi R generici possono essere utilizzati sull’oggetto creato.
cito si basa sul framework ‘torch’ disponibile per R. Poiché è nativo di R, non è necessaria alcuna installazione di Python per questo pacchetto.
8 etree
L’obiettivo di etree è fornire un’implementazione amichevole di Energy Trees, un modello per la classificazione e la regressione con dati strutturati e di tipo misto. Il pacchetto attualmente copre funzioni e grafici come covariate strutturate.
9 mildsvm
Il pacchetto fornisce un modo semplice per imparare dai dati addestrando classificatori basati su Support Vector Machine (SVM). Inoltre, contiene funzioni utili per la creazione e la stampa di più frame di dati di istanza.
10 aorsf
Gli alberi decisionali vengono sviluppati suddividendo i dati di addestramento in due nuovi sottoinsiemi per avere più somiglianze all’interno dei nuovi sottoinsiemi che tra di loro. Il processo di suddivisione viene ripetuto sui sottoinsiemi di dati risultanti finché non viene soddisfatto un criterio di arresto.
11 calibrationband
Un pacchetto R per valutare la calibrazione delle previsioni dei risultati binari. Scritto da Timo Dimitriadis (Università di Heidelberg), Alexander Henzi (Università di Berna) e Marius Puke (Università di Hohenheim).
Una valutazione onesta della calibrazione per le previsioni dei risultati binari fornisce funzioni per valutare la calibrazione dei classificatori probabilistici utilizzando bande di confidenza per le funzioni monotone. Facilita anche la costruzione di test di bontà di adattamento invertita, il cui rifiuto consente una conclusione ricercata di un modello sufficientemente ben calibrato.
12 tidytags
Lo scopo di tidytags è rendere la raccolta dei dati di Twitter più accessibile e solida. tidytags recupera i dati dei tweet raccolti da un Twitter Archiving Google Sheet (TAGS) , ottiene ulteriori metadati da Twitter tramite il pacchetto rtweet R e fornisce funzioni aggiuntive per facilitare analisi sistematiche ma flessibili dei dati da Twitter. TAGS si basa sui fogli di calcolo di Google. Un tracker TAGS raccoglie continuamente tweet da Twitter in base a criteri di ricerca predefiniti e frequenza di raccolta.
13 Milim
Attualmente implementato come pacchetto R, il software porta l’apprendimento automatico per fornire una versatile soluzione di dati mancanti per vari tipi di dati: continui, binari, multinomiali e ordinali. In poche parole, si prevede che mlim superi qualsiasi altro software di imputazione dei dati mancanti disponibile per molti motivi.
Le elevate prestazioni di mlim sono principalmente dovute alla messa a punto di un algoritmo ELNET, che spesso supera qualsiasi procedura statistica standard o algoritmo di apprendimento automatico non ottimizzato e si generalizza molto bene.
Controlla la documentazione qui .
14 Kernelshap
Il pacchetto “kernelshap” implementa un perfezionamento multidimensionale dell’algoritmo Kernel SHAP descritto in Covert e Lee (2021). Il pacchetto consente il calcolo dei valori Kernel SHAP esattamente attraverso il campionamento iterativo (come in Covert e Lee, 2021) o attraverso un ibrido dei due. Non appena viene coinvolto il campionamento, l’algoritmo itera finché non vengono forniti la convergenza e gli errori standard.
Controlla la documentazione qui .
15 Survex
Basato su DALEX , questo pacchetto fornisce spiegazioni indipendenti dal modello per i modelli di sopravvivenza. Gli utenti che non hanno familiarità con l’apprendimento automatico spiegabile possono fare riferimento a Explanatory Model Analysis , che ha la maggior parte dei metodi inclusi in survex che estendono quelli descritti in EMA e implementati in DALEX ma a modelli con output funzionale.
DI TASMIA ANSARI da analyticsindiamag.com