Python3.7: error while loading shared libraries: libpython3.7m.so.1.0

Posted on 2021-12-29 Edited on 2023-04-28 In python Symbols count in article: 429 Reading time ≈ 1 mins.

在ubuntu上安装了其他版本的python之后遇到如下报错：

参考[https://stackoverflow.com/questions/58649177/python3-7-error-while-loading-shared-libraries-libpython3-7m-so-1-0]

对于我的这种情况，先查看libpython3.7m.so.1.0这个文件在哪里？

1	locate libpython3.7m.so.1.0

上面的命令如果返回无，要先更新下系统内文件系统的index字典

updatedb

找出libpython3.7m.so.1.0在哪一个lib文件夹内，然后将该lib路径加入搜索路径，可以通过：

1	export LD_LIBRARY_PATH=/lib:/usr/lib:/usr/local/lib

以上方式只对该session起作用，如果reboot了系统就会失效，想要永久的方式:

1	sudo ldconfig /usr/local/lib

pandas中对于时间TimeStamp的处理

Posted on 2021-12-14 Edited on 2022-03-23 In pandas Symbols count in article: 2.3k Reading time ≈ 2 mins.

`pandas.to_datetime()`

pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True)[source]¶

Parameters

arg int, float, str, datetime, list, tuple, 1-d array, Series, DataFrame/dict-like

The object to convert to a datetime
format str, default None

The strftime to parse time, eg “%d/%m/%Y”, note that “%f” will parse all the way up to nanoseconds.

该函数可以接受一个series，可以接受一个dateFrame。如果不确定它是否可以以默认的格式去解析你的时间，format参数可以不传递。

df = pd.DataFrame({'year': [2015, 2016],
...                    'month': [2, 3],
...                    'day': [4, 5]})
>>> pd.to_datetime(df)
0   2015-02-04
1   2016-03-05
dtype: datetime64[ns]

上面的这种产生datetime的方式，在创建dateframe的时候，可以指定缩写或者缩写的复数形式，其他形式不接受：[‘year’, ‘month’, ‘day’, ‘minute’, ‘second’, ‘ms’, ‘us’, ‘ns’])

`pandas.to_timedelta()`

timedelta是两个时间之间的差值，该函数可以帮助我们求两个timestamp之间的差是多少（单位可以是days,hours,minutes,seconds）

Parameters

arg str, timedelta, list-like or Series
unit str, optional

Denotes the unit of the arg for numeric arg. Defaults to "ns".

Possible values:
- ‘W’
- ‘D’ / ‘days’ / ‘day’
- ‘hours’ / ‘hour’ / ‘hr’ / ‘h’
- ‘m’ / ‘minute’ / ‘min’ / ‘minutes’ / ‘T’
- ‘S’ / ‘seconds’ / ‘sec’ / ‘second’
- ‘ms’ / ‘milliseconds’ / ‘millisecond’ / ‘milli’ / ‘millis’ / ‘L’
- ‘us’ / ‘microseconds’ / ‘microsecond’ / ‘micro’ / ‘micros’ / ‘U’
- ‘ns’ / ‘nanoseconds’ / ‘nano’ / ‘nanos’ / ‘nanosecond’ / ‘N’

这里如果传入的是str，是不允许再传入unit参数了，不然会报错。

>> pd.to_timedelta('15days 2hours')
Timedelta('15 days 02:00:00')

>> pd.to_timedelta('1 days 06:05:01.00003')
Timedelta('1 days 06:05:01.000030')

>> pd.to_timedelta(4,unit='days')
Timedelta('4 days 00:00:00')

`Series.dt()`

>> seconds_series = pd.Series(pd.date_range("2000-01-01", periods=3, freq="s"))
seconds_series
0   2000-01-01 00:00:00
1   2000-01-01 00:00:01
2   2000-01-01 00:00:02
dtype: datetime64[ns]
>> seconds_series.dt.second
0    0
1    1
2    2
dtype: int64

dt是Series的一个方法，当调用dt时，Series中必须是timestamp的格式。

当调用完dt后可以获取时间的具体年份等信息：

seconds_series.dt.date # 2000-01-01
seconds_series.dt.hour # 00
seconds_series.dt.quarter # 返回第几季度
seconds_series.dt.time # 00:00:00
seconds_series.dt.year # 2000
seconds_series.dt.month # 01
seconds_series.dt.day # 01
seconds_series.dt.weekday # 返回一个0-6的数，0表示周一，6表示周日
seconds_series.dt.dayname() # 会返回星期的名字：Monday

有的时候我们想获取某一天是全年中的第几周，这时候weekday就不管用了，此时采用：

1	dseries.dt.isocalendar()['week']

pandas中count(),value_counts(),unique)区别

Posted on 2021-12-13 Edited on 2021-12-14 In pandas Symbols count in article: 403 Reading time ≈ 1 mins.

count()

不管是Series还是DateFrame，两个类都有这个方法。

对于DateFrame，返回的是每一列中非空的元素的个数，可以指定是以行去统计还是以列去统计。

对于Series，返回的是Series中非空元素的个数。

对于groupby，返回的是每一组中元素的个数，这里的个数不包含空字段。

value_counts()

对于DateFrame，返回的是unique行的个数，这里的unique行指的是只要其中一个column的值不一样就算不一样的行。

对于Series，返回的是每一个unique元素的个数，也就是每一个unique的元素，它会统计它在Series中出现了多少次。

unique()

对于Series，返回的是所有unique的元素们，如果你想统计所有不一样的元素有多少个，可以统计list中元素的个数，如：

1	len(df['a'].unique().tolist())