Bine ați venit la Scribd!

Sparkr: Interactive R at Scale: Shivaram Venkataraman Zongheng Yang

Încărcat de

0% au considerat acest document util (0 voturi)

30 vizualizări36 pagini

- SparkR allows users to write R code that runs distributed computations on a Spark cluster - It uses JNI and rJava to connect R and Spark, allowing R functions to be executed on RDDs across the cluster - This provides interactive analysis in R at large scale by leveraging Spark's distributed processing capabilities

Descriere originală:

Spark meetup

Titlu original

SparkR-meetup

Drepturi de autor

Formate disponibile

PDF, TXT sau citiți online pe Scribd

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Raportați acest document

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

0% au considerat acest document util (0 voturi)

30 vizualizări36 pagini

Sparkr: Interactive R at Scale: Shivaram Venkataraman Zongheng Yang

Încărcat de

Anil Patial

Drepturi de autor:

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Indicator pentru conținut neadecvat

Salt la pagina

Sunteți pe pagina 1din 36

Căutați în document

SparkR: Interactive R at scale

Shivaram Venkataraman
Zongheng Yang
Fast !

Scalable Interactive
Statistics !

Packages Plots
Fast ! Statistics !

Scalable Packages

Interactive Shell Plots

Transformations
map
filter
groupby

RDD Actions
count
collect
save

Q: How can I use a loop

R
to [...insert task here...] ?!
A: Dont. Use one of the
apply functions.!

From: http://nsaunders.wordpress.com/2010/08/20/a-brief-introduction-to-apply-in-r/
R + RDD =
R2D2
lapply
lapplyPartition
groupByKey
reduceByKey
sampleRDD
R + RDD = collect
cache
RRDD

broadcast
includePackage
textFile
parallelize
Example: Word Count
lines <- textFile(sc, args[[2]])
Example: Word Count
lines <- textFile(sc, args[[2]])

words <- flatMap(lines,
function(line) {
strsplit(line, " ")[[1]]
})
wordCount <- lapply(words,
function(word) {
list(word, 1L)
})
Example: Word Count
lines <- textFile(sc, args[[2]])

words <- flatMap(lines,
function(line) {
strsplit(line, " ")[[1]]
})
wordCount <- lapply(words,
function(word) {
list(word, 1L)
})
counts <- reduceByKey(wordCount, "+", 2L)
output <- collect(counts)
Demo
MNIST
A

Minimize ||Ax b||2

How does this work ?
Dataow
Local Worker

Worker
Dataow
Local Worker

R Worker
Dataow
Local Worker

JNI Java
R Spark Spark
Context Context Worker
Dataow
Local Worker
R
Spark
Executor
exec

JNI Java
R Spark Spark
Context Context Worker
R
Spark
Executor
exec
From http://obeautifulcode.com/R/How-R-Searches-And-Finds-Stuff/
Dataow
Local Worker
R
Spark
Executor
exec

JNI Java
R Spark Spark
Context Context Worker
R
Spark
Executor
exec
Pipelined RDD
words <- flatMap(lines,)
wordCount <- lapply(words,)

R R
Spark Spark
Executor Executor
exec exec
Pipelined RDD

R R
Spark Spark
Executor Executor
exec exec

R R
Spark Spark
Executor Executor
exec
Alpha developer release

One line install !

install_github("amplab-extras/SparkR-pkg",
subdir="pkg")
SparkR Implementation
Very similar to PySpark

Spark is easy to extend

292 lines of Scala code
1694 lines of R code
549 lines of test code in R
EC2 setup

All Spark examples

Also on github MNIST demo

Hadoop2, Maven build

In the Roadmap

DataFrame support using Catalyst

Calling MLLib from R

Daemon R processes
RDD distributed lists

SparkR Serialize closure

Re-use R packages

Combine scalability & utility

SparkR
https://github.com/amplab-extras/SparkR-pkg

Shivaram Venkataraman shivaram@cs.berkeley.edu

Spark User mailing list user@spark.apache.org

Example: Logistic Regression
pointsRDD <- textFile(sc, "hdfs://myfile")
weights <- runif(n=D, min = -1, max = 1)

# Logistic gradient
gradient <- function(partition) {
X <- partition[,1]; Y <- partition[,-1]
t(X) %*% (1/(1 + exp(-Y * (X %*% weights))) - 1) * Y
}
Example: Logistic Regression
pointsRDD <- textFile(sc, "hdfs://myfile")
weights <- runif(n=D, min = -1, max = 1)

# Logistic gradient
gradient <- function(partition) {
X <- partition[,1]; Y <- partition[,-1]
t(X) %*% (1/(1 + exp(-Y * (X %*% weights))) - 1) * Y
}

#Iterate
weights <- weights - reduce(
lapplyPartition(pointsRDD, gradient), "+")
How does it work ?
RScript RScript
Spark Executor Spark Executor

Data: RDD[Array[Byte]]
Func: Array[Byte]
Spark Context
rJava

R Shell

S-ar putea să vă placă și

BI Apps 11-1-1 8 1 Migrating From DEV To TEST or PROD
Document27 pagini
BI Apps 11-1-1 8 1 Migrating From DEV To TEST or PROD
Blizard80
0% (1)
Lisp Interpreter in Rust
De la Everand
Lisp Interpreter in Rust
Vishal Patil
Evaluare: 1 din 5 stele
1/5 (1)
J Nativememory Linux PDF
Document37 pagini
J Nativememory Linux PDF
anguemar78
Încă nu există evaluări
Speeding Up R With Multithreading, Task Merging, and Other Techniques
Document30 pagini
Speeding Up R With Multithreading, Task Merging, and Other Techniques
Ada Yung
Încă nu există evaluări
Introduction To Big Data With Apache Spark: Uc Berkeley
Document43 pagini
Introduction To Big Data With Apache Spark: Uc Berkeley
Karthigai Selvan
Încă nu există evaluări
Unit-5 Spark
Document24 pagini
Unit-5 Spark
nosopa5904
Încă nu există evaluări
5 - Programming With RDDs and Dataframes
Document32 pagini
5 - Programming With RDDs and Dataframes
ravikumar lanka
Încă nu există evaluări
Spark
Document17 pagini
Spark
Ravi Kumar
Încă nu există evaluări
Spark Tutorial
Document17 pagini
Spark Tutorial
Gerardo Perez
Încă nu există evaluări
Distributed Database Systems: - Spark I
Document59 pagini
Distributed Database Systems: - Spark I
Thomas Ariyanto
Încă nu există evaluări
From Query Plan To Query Performance:: Supercharging Your Spark Queries Using The Spark UI SQL Tab
Document52 pagini
From Query Plan To Query Performance:: Supercharging Your Spark Queries Using The Spark UI SQL Tab
WF1 Hackathon1
Încă nu există evaluări
Big Data - Spark
Document72 pagini
Big Data - Spark
SuprasannaPradhan
100% (1)
Rcaller: A Library For Calling R From Java: by M.Hakan Satman August 17, 2013
Document6 pagini
Rcaller: A Library For Calling R From Java: by M.Hakan Satman August 17, 2013
khkarthik
Încă nu există evaluări
2011 Hyunjung Park VLDB Map-Reduce, RAMP, Big Data
Document4 pagini
2011 Hyunjung Park VLDB Map-Reduce, RAMP, Big Data
Sunil Thalia
Încă nu există evaluări
Spark Architecture
Document12 pagini
Spark Architecture
abikoolin
Încă nu există evaluări
Apache Spark: CS240A Winter 2016. T Yang
Document36 pagini
Apache Spark: CS240A Winter 2016. T Yang
omegapoint077609
Încă nu există evaluări
Pyspark Questions & Scenario Based
Document25 pagini
Pyspark Questions & Scenario Based
Sowjanya Vakkalanka
Încă nu există evaluări
APACHE SPARK and Scala
Document49 pagini
APACHE SPARK and Scala
Veershetty
Încă nu există evaluări
SQL I - 1x05 FRANZ 17
Document13 pagini
SQL I - 1x05 FRANZ 17
Freddy Andres Navarrete
Încă nu există evaluări
Tuning Spark Best Performance
Document49 pagini
Tuning Spark Best Performance
Quý Đỗ
Încă nu există evaluări
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
Document99 pagini
"Analytics Using Apache Spark": (Lightening Fast Cluster Computing)
santoshi sairam
Încă nu există evaluări
CS226 06 RDD
Document29 pagini
CS226 06 RDD
chenna kesava
Încă nu există evaluări
Advanced Spark Training
Document49 pagini
Advanced Spark Training
Syed Safian
0% (1)
Machine Learning in Spark
Document26 pagini
Machine Learning in Spark
brockthebone
Încă nu există evaluări
RhinoPython CheetSheet
Document1 pagină
RhinoPython CheetSheet
vbk
100% (1)
Wa0011
Document32 pagini
Wa0011
It's Me
Încă nu există evaluări
Rcaller: A Java Package For Interfacing R: Mehmet Hakan Satman and Kopilov Aleksandr
Document3 pagini
Rcaller: A Java Package For Interfacing R: Mehmet Hakan Satman and Kopilov Aleksandr
Testau
Încă nu există evaluări
R Studio Assignments
Document95 pagini
R Studio Assignments
samarth agarwal
Încă nu există evaluări
Data Science With R Workflow: Important Resources
Document2 pagini
Data Science With R Workflow: Important Resources
kumar kumar
Încă nu există evaluări
r2 Cheatsheet
Document2 pagini
r2 Cheatsheet
Anonymous vcdqCTtS9
Încă nu există evaluări
BenChristensen FunctionalReactiveProgrammingWithRxJava PDF
Document154 pagini
BenChristensen FunctionalReactiveProgrammingWithRxJava PDF
Aman Dhapola
Încă nu există evaluări
PySpark CheatSheet Edureka
Document1 pagină
PySpark CheatSheet Edureka
BL Pipas
Încă nu există evaluări
SPARK
Document36 pagini
SPARK
chenna kesava
Încă nu există evaluări
Data Science With R Workflow: Click The Links For Documentation
Document3 pagini
Data Science With R Workflow: Click The Links For Documentation
MBA_2011
Încă nu există evaluări
Data Science With R Workflow: Click The Links For Documentation
Document3 pagini
Data Science With R Workflow: Click The Links For Documentation
enrique gonzalez duran
Încă nu există evaluări
Stat 1st Unit
Document32 pagini
Stat 1st Unit
siddharthasanapala136
Încă nu există evaluări
Apache Spark: The Next Gen Toolset For Big Data Processing
Document9 pagini
Apache Spark: The Next Gen Toolset For Big Data Processing
Sanjay K Prasad
Încă nu există evaluări
RSTUDIO
Document44 pagini
RSTUDIO
samarth agarwal
Încă nu există evaluări
Java POO 4 Herencia
Document8 pagini
Java POO 4 Herencia
Javier Gamboa Cruzado
Încă nu există evaluări
Chapter 1
Document24 pagini
Chapter 1
Ace
Încă nu există evaluări
Notes
Document26 pagini
Notes
vijay kumar
Încă nu există evaluări
PySpark Transformations Tutorial
Document58 pagini
PySpark Transformations Tutorial
ravikumar lanka
100% (1)
Les 03
Document30 pagini
Les 03
Lucky1
Încă nu există evaluări
Learning Apache Spark With Python
Document10 pagini
Learning Apache Spark With Python
dalalroshan
Încă nu există evaluări
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
Document11 pagini
Suppose You Have A Large Dataset Stored in A Distributed File System Like HDFS
Israa
Încă nu există evaluări
Spark Intro
Document9 pagini
Spark Intro
Nouhaila
Încă nu există evaluări
Big Data Analysis With Scala and Spark: Heather Miller
Document17 pagini
Big Data Analysis With Scala and Spark: Heather Miller
dd
Încă nu există evaluări
Spark RDD: Nikolay Join Us in Telegram T.me/apache - Spark 2019
Document28 pagini
Spark RDD: Nikolay Join Us in Telegram T.me/apache - Spark 2019
RAHUL SANAP
Încă nu există evaluări
Spark End To End QUESTIONS
Document10 pagini
Spark End To End QUESTIONS
sandraarbelaezc
Încă nu există evaluări
r2 Cheatsheet PDF
Document2 pagini
r2 Cheatsheet PDF
vereyedalu
Încă nu există evaluări
Data Science With R Workflow: Click The Links For Documentation
Document3 pagini
Data Science With R Workflow: Click The Links For Documentation
danielfontourabsb
Încă nu există evaluări
Programming With Big Data in R: George Ostrouchov and Mike Matheson Oak Ridge National Laboratory
Document35 pagini
Programming With Big Data in R: George Ostrouchov and Mike Matheson Oak Ridge National Laboratory
fcodelpuerto
Încă nu există evaluări
Hadoop
Document38 pagini
Hadoop
Jahangeer Mohammed
Încă nu există evaluări
Data Platform and Analytics Foundational Training: (Speaker Name)
Document14 pagini
Data Platform and Analytics Foundational Training: (Speaker Name)
Kathalina Suarez
Încă nu există evaluări
Set and Setq - Afralisp
Document3 pagini
Set and Setq - Afralisp
sixramesh123
Încă nu există evaluări
Python Fromtutorials
Document3 pagini
Python Fromtutorials
divi_ramana
Încă nu există evaluări
Midhun BIGDATA Curicullum
Document17 pagini
Midhun BIGDATA Curicullum
Fukkk
Încă nu există evaluări
SQL Functions: Input Output
Document13 pagini
SQL Functions: Input Output
Anis Budiono
Încă nu există evaluări
Spark Interview Questions
Document7 pagini
Spark Interview Questions
Rajesh Sugumaran
100% (1)
Spark
Document37 pagini
Spark
Rohit Ranjan
Încă nu există evaluări
09 Programming Hadoop - Spark, R and Pig
Document80 pagini
09 Programming Hadoop - Spark, R and Pig
Neeraj Garg
Încă nu există evaluări
Learning Apache Spark 2
De la Everand
Learning Apache Spark 2
Muhammad Asif Abbasi
Încă nu există evaluări
Informatica Interview Question
Document12 pagini
Informatica Interview Question
Mukesh Kumar
100% (4)
Oracle BI Applications 11-1-1 8 1 Upgrade Guide
Document97 pagini
Oracle BI Applications 11-1-1 8 1 Upgrade Guide
dilip
Încă nu există evaluări
Generative Adversarial Nets
Document9 pagini
Generative Adversarial Nets
Bogdan Musat
Încă nu există evaluări
SiebalAnalyticsUserGuide 75 PDF
Document216 pagini
SiebalAnalyticsUserGuide 75 PDF
Anil Patial
Încă nu există evaluări
Statistical Analysis On Students Perform
Document68 pagini
Statistical Analysis On Students Perform
Anil Patial
Încă nu există evaluări
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Document82 pagini
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Anil Patial
0% (1)
OBIA - Which Schema Name Should Be Used To Read Data From An EBS Source (Doc ID 943392.1)
Document1 pagină
OBIA - Which Schema Name Should Be Used To Read Data From An EBS Source (Doc ID 943392.1)
Anil Patial
Încă nu există evaluări
Informatica Commandline Reference
Document95 pagini
Informatica Commandline Reference
Yogesh Durairaja
Încă nu există evaluări
Normalizing Data in OTBI Enterprise
Document1 pagină
Normalizing Data in OTBI Enterprise
Anil Patial
Încă nu există evaluări
Performing Functional Setup of OTBI Enterprise For HCM Cloud Service
Document19 pagini
Performing Functional Setup of OTBI Enterprise For HCM Cloud Service
Anil Patial
Încă nu există evaluări
Managing Oracle Bid Is Over Er Preferences
Document17 pagini
Managing Oracle Bid Is Over Er Preferences
Anil Patial
Încă nu există evaluări
Setting Up Data Security in OTBI Enterprise
Document11 pagini
Setting Up Data Security in OTBI Enterprise
Anil Patial
Încă nu există evaluări
Managing An Initial Load Plan in OTBI Enterprise
Document15 pagini
Managing An Initial Load Plan in OTBI Enterprise
Anil Patial
Încă nu există evaluări
Obia 796 Installation
Document76 pagini
Obia 796 Installation
shahed3052
100% (1)
Ame Ou Mar05
Document27 pagini
Ame Ou Mar05
Anil Patial
Încă nu există evaluări
BITIG
Document64 pagini
BITIG
Anil Patial
Încă nu există evaluări
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Document82 pagini
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Anil Patial
0% (1)
Custom Offering and Fact Group For OBIA 11.1.1.8.1 or 11.1.1.7.1
Document8 pagini
Custom Offering and Fact Group For OBIA 11.1.1.8.1 or 11.1.1.7.1
Anil Patial
Încă nu există evaluări
ODI User Password Reset
Document5 pagini
ODI User Password Reset
Anil Patial
Încă nu există evaluări
Golden Gate Journalize KM
Document3 pagini
Golden Gate Journalize KM
Anil Patial
Încă nu există evaluări
Parleys - Tom - Hadoop - Training Material
Document55 pagini
Parleys - Tom - Hadoop - Training Material
Anil Patial
Încă nu există evaluări
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Document82 pagini
Installing BI Apps 11.1.1.8.1: Part 1 - Pre-Requisites - Red Stack Tech
Anil Patial
0% (1)
Ame 11-5-10 Technical Review
Document35 pagini
Ame 11-5-10 Technical Review
Anil Patial
Încă nu există evaluări
Mastering OBIEE11g Dashboard and Reporting Guide
Document142 pagini
Mastering OBIEE11g Dashboard and Reporting Guide
Amit Sharma
100% (1)
AME Configuration Guide
Document19 pagini
AME Configuration Guide
Anil Patial
Încă nu există evaluări
Discoverer Plus OLAP Best Practices
Document21 pagini
Discoverer Plus OLAP Best Practices
Anil Patial
Încă nu există evaluări
GroupAccounts ConfigureMultipleSegments
Document6 pagini
GroupAccounts ConfigureMultipleSegments
Anil Patial
Încă nu există evaluări
Informatica Commandline Reference
Document95 pagini
Informatica Commandline Reference
Yogesh Durairaja
Încă nu există evaluări
Android NDK
Document8 pagini
Android NDK
studystuff.in
Încă nu există evaluări
Ru Dublgis Dgismobile
Document51 pagini
Ru Dublgis Dgismobile
Александр Бадалов
Încă nu există evaluări
NFC Read and Write
Document7 pagini
NFC Read and Write
Rafael Villarreal
Încă nu există evaluări
Android Development (SPPU) Unit 1
Document57 pagini
Android Development (SPPU) Unit 1
Swapnil Mayekar
100% (1)
5.packages and Interfaces
Document67 pagini
5.packages and Interfaces
Saumya Pancholi
Încă nu există evaluări
SEI CERT Oracle Coding Standard For Java: Front Matter Front Matter
Document2 pagini
SEI CERT Oracle Coding Standard For Java: Front Matter Front Matter
Nguyễn Minh
Încă nu există evaluări
An Introduction To Android Development: CS231M - Alejandro Troccoli
Document22 pagini
An Introduction To Android Development: CS231M - Alejandro Troccoli
sinte
Încă nu există evaluări
CS8392 Unit 1
Document108 pagini
CS8392 Unit 1
vign3840
Încă nu există evaluări
Citra Log
Document10 pagini
Citra Log
Andy Rodríguez
Încă nu există evaluări
JNI Examples For Android
Document11 pagini
JNI Examples For Android
fmingos
Încă nu există evaluări
Power Management From Linux Kernel To Android
Document11 pagini
Power Management From Linux Kernel To Android
Bhaskar Devan
Încă nu există evaluări
PLI Programming Guide
Document666 pagini
PLI Programming Guide
parani_scribd
Încă nu există evaluări
Trace
Document18 pagini
Trace
Farid Ahmad
Încă nu există evaluări
Trace
Document11 pagini
Trace
Uel Cabz Laquihon
Încă nu există evaluări
Trace
Document149 pagini
Trace
Arya Saputra
Încă nu există evaluări
Developer Kit For Java
Document576 pagini
Developer Kit For Java
Jacek Wiergiles
Încă nu există evaluări
JCA/JDBC Driver: General Notes
Document32 pagini
JCA/JDBC Driver: General Notes
valmir
Încă nu există evaluări
GNU Linear Programming Kit Java Binding: Reference Manual
Document21 pagini
GNU Linear Programming Kit Java Binding: Reference Manual
German Marrugo
100% (1)
Jni Programs
Document9 pagini
Jni Programs
Utkarsh Singh
Încă nu există evaluări
Knowledge - Lockbox
Document10 pagini
Knowledge - Lockbox
Hariprasad Manchi
Încă nu există evaluări
How JVM Works - JVM Architecture?: Placements Practice Gate Cs Ide Q&A Geeksquiz
Document6 pagini
How JVM Works - JVM Architecture?: Placements Practice Gate Cs Ide Q&A Geeksquiz
Razz Kumar
Încă nu există evaluări
Device Drivers in Java
Document7 pagini
Device Drivers in Java
jtzero
Încă nu există evaluări
Programming For The Java Virtual Machine
Document517 pagini
Programming For The Java Virtual Machine
akozy
Încă nu există evaluări
Petri Net
Document524 pagini
Petri Net
Alexander D
Încă nu există evaluări
1-Android Internals 10305904 - Nimit
Document36 pagini
1-Android Internals 10305904 - Nimit
Anonymous igVRM2mA6k
Încă nu există evaluări
Simpleitk Prototype
Document107 pagini
Simpleitk Prototype
Dewi Rahmawati
Încă nu există evaluări
Java Kit For As400 7.1
Document536 pagini
Java Kit For As400 7.1
Sommerville Michael
Încă nu există evaluări
Trace
Document13 pagini
Trace
Rahman Rham
Încă nu există evaluări