• Spark의 주요 장점 중 하나는 데이터 스트리밍 관리, 원활한 데이터 쿼리, 기계 학습 예측 및 다양한 분석에 대한 실시간 액세스를 포괄하는 아키텍처를 구축하는 것입니다. 허레이! 따라서 아파치 스파크를 사용하여 영화 추천 시스템을 성공적으로 만들었습니다. 이것으로, 우리는 Spark MLlib가 제공하는 많은 인기있는 알고리즘 중 하나만 다루었습니다. 우리는 데이터 과학 알고리즘에 대한 향후 블로그에서 기계 학습에 대해 자세히 알아봅니다. 다음 게시물에서는 스파크 프레임워크의 일부인 기계 학습 라이브러리인 독자 MLlib을 소개합니다. Apache Spark는 스트리밍, SQL, 기계 학습(ML) 및 그래프 처리를 위한 내장 모듈이 있는 빅 데이터 처리를 위한 빠르고 사용하기 쉬운 일반 엔진으로 알려져 있습니다. 이 기술은 데이터 엔지니어를 위한 수요가 많은 기술이지만, 데이터 과학자들은 EXPLOROR 데이터 분석(EDA), 기능 추출 및 물론 ML. 스파크를 사용한 로지스틱 회귀를 사용하여 스파크의 정확한 모델을 얻을 수 있습니다. 영어로 된 위반 설명과 특정 비즈니스가 식품 검사를 통과하거나 실패할지 여부 사이의 관계입니다. 이 예제에서는 Spark를 사용하여 시카고 시 데이터 포털을 통해 획득한 식품 검사 데이터(Food_Inspections1.csv)에 대한 몇 가지 예측 분석을 수행합니다.
이 데이터 집합에는 각 시설에 대한 정보, 발견된 위반(있는 경우) 및 검사 결과를 포함하여 시카고에서 수행된 식품 시설 검사에 대한 정보가 포함되어 있습니다. CSV 데이터 파일은 /HdiSamples/HdiSamples/FoodInspectionData/Food_Inspections1.csv에서 클러스터와 연결된 저장소 계정에서 이미 사용할 수 있습니다. MapR 전자 책: AI 및 기계 학습 마루에 대한 구매자 가이드는 Hadoop / 스파크 생태계의 프로젝트를 위해 아파치가 개발 한 열 저장 형식입니다. 로컬 컴퓨터에 Spark를 설치하려면 새 conda 환경을 만드는 것이 좋습니다. 이 새로운 환경은 파이썬 3.6, 스파크 및 모든 종속성을 설치합니다. 아파치 하이브는 데이터 웨어하우스 소프트웨어 패키지입니다. 하이브와 데이터 프레임을 인터페이싱하려면 활성화된 Hivesupport가 있는 SparkSession과 Spark가 자동으로 로드될 수 있도록 클래스 경로에 필요한 모든 종속성이 필요합니다. SparkSession 개체에는 spark.sparkContext를 통해 액세스할 수 있는 SparkContext 개체가 있습니다. 이전 버전과의 호환성을 위해 rdd1 = sc.parallelize([`a`,7)(`a`,2))에서와 같이 Sc를 사용하여 SparkContext를 호출할 수도 있습니다(“a`,2)). 스파크를 배우고 스파크 영역에서 경력을 쌓고 전문 지식을 구축하여 RDD, 스파크 스트리밍, 스파크SQL, MLlib, GraphX 및 Scala를 사용하여 실제 사용 사례를 사용하여 대규모 데이터 처리를 수행하려면 아파치 스파크 인증 교육을 확인하십시오.
여기서 이해해야 할 중요한 것은 Spark의 실행이 “게으른” 실행이기 때문에 아직 실행된 것이 없다는 것입니다. 데이터가 실제로 읽혀지지 않았습니다. rdd 및 헤더 변수는 실제로 마음속의 개념일 뿐입니다. Spark를 푸시하여 작업할 수 있으므로 collect() 메서드를 사용하여 헤더를 살펴보겠습니다. inferSchema 를 True로 설정하여 Spark에 데이터 유형을 자동으로 추측하도록 지시합니다. 기본적으로 False로 전환됩니다. SQLContext를 사용하면 엔진을 다른 데이터 원본과 연결할 수 있습니다. Spark SQL의 기능을 시작하는 데 사용됩니다. 데이터 집합은 중요하지 않으며 계산에 시간이 오래 걸린다고 생각할 수 있습니다. 스파크는 상당한 양의 데이터를 처리하도록 설계되었습니다.
데이터 집합이 커지면 다른 기계 학습 라이브러리에 비해 Spark의 성능이 증가합니다. 변수의 순서는 데이터 집합의 프레젠테이션에서 위에서 본 것과 동일하며 모든 열에 연속 값이 있어야 한다는 것을 배웁니다. Spark가 더 많은 작업을 수행하도록 강요하고 캘리포니아 주택 데이터를 살펴보고 이를 확인해 보겠습니다.