반응형

dataframe 4

Spark SQL: 열 목록에 Aggregate 함수 적용

Spark SQL: 열 목록에 Aggregate 함수 적용 집합 함수를 데이터 프레임의 모든 열(또는 목록)에 적용할 수 있는 방법이 있습니까?groupBy? 즉, 모든 열에 대해 이 작업을 수행하지 않을 수 있는 방법이 있습니까? df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...) 집합 함수를 여러 열에 적용하는 방법은 여러 가지가 있습니다. GroupedDataclass는 다음을 포함하여 가장 일반적인 함수들을 위한 많은 방법들을 제공합니다.count,max,min,mean그리고.sum, 다음과 같이 직접 사용할 수 있습니다. 파이썬: df = sqlContext.createDataFrame( [(1.0,..

programing 2023.10.05

데이터 프레임의 모든 특정 값 바꾸기

데이터 프레임의 모든 특정 값 바꾸기 데이터 프레임을 사용할 경우 모든 행과 열을 따라 특정 값을 모두 교체하려면 어떻게 해야 합니까?예를 들어 모든 빈 레코드를 다음과 같이 바꾸겠다고 합니다.NA의 (위치를 입력하지 않음): df df[df==""] df A B 1 12 2 xyz 3 jkl 100 Pikku Katja와 gallen이 좀 더 일반적인 해결책을 요청해서 아직 코멘트를 할 수 없으니 답변을 작성하겠습니다.문은 다음과 같이 결합할 수 있습니다. > df[df=="" | df==12] df A B 1 2 xyz 3 jkl 100 인자의 경우 zxzak의 코드는 이미 인자를 산출합니다. > df str(df) 'data.frame': 3 obs. of 2 variables: $ A: Facto..

programing 2023.09.25

PySpark의 테이블 데이터 프레임을 csv로 내보내는 방법은 무엇입니까?

PySpark의 테이블 데이터 프레임을 csv로 내보내는 방법은 무엇입니까? Spark 1.3.1(PySpark)을 사용하고 있으며 SQL 쿼리를 사용하여 테이블을 생성했습니다.나는 지금 어떤 물건을 가지고 있습니다.DataFrame이것을 . 을 하고 하고 을 .DataFrame개체("table"이라고 함)를 csv 파일로 이동하여 조작하고 열을 플롯할 수 있습니다.어떻게 내보낼 수 있습니까?DataFrame에 "에v "table 감사합니다!드라이버 메모리에 데이터 프레임을 저장할 때 로컬 파일 시스템에 저장하려면 방법을 사용하여 Spark DataFrame을 로컬 Pandas DataFrame으로 변환한 후 간단히 사용할 수 있습니다.to_csv: df.toPandas().to_csv('mycsv.cs..

programing 2023.09.10

다른 열에 그룹화된 평균값을 계산하는 방법

다른 열에 그룹화된 평균값을 계산하는 방법 다음 데이터 프레임의 경우: StationID HoursAhead BiasTemp SS0279 0 10 SS0279 1 20 KEOPS 0 0 KEOPS 1 5 BB 0 5 BB 1 5 저는 다음과 같은 것을 사고 싶습니다. StationID BiasTemp SS0279 15 KEOPS 2.5 BB 5 원하는 결과를 얻기 위해 이와 같은 스크립트를 작성할 수 있다는 것을 알고 있습니다. def transform_DF(old_df,col): list_stations = list(set(old_df['StationID'].values.tolist())) header = list(old_df.columns.values) header.remove(col) header_..

programing 2023.09.10
반응형