An introduction to seaborn

Rui Qin

1. Introduction

Data visualization is an important part of data analysis. In STATW 5702, we learned how to create graphs of data by ggplot2, a data visualization package in R. Likewise, there are some libraries in Python able to do the same job as ggplot2. Seaborn is a data visualization tool based on Python library, matplotlib. Like ggplot2 in R, seaborn can create multiple kinds of statistical graphs for exploratory and explanatory purpose. In this file I will show some examples of graphs that we have learnt in class and I will use three languages, English, Chinese, and Japanese, to briefly explain them.

数据可视化是数据分析中非常重要的一部分。课上,我们学习并掌握了R语言中通过ggplot2绘制统计图表。Python中也有同样的数据可视化库包括matplotlib和seaborn。他们均可以将数据框中的数据以图标的形式表现出来,以此达到数据分析的目的。这里我将用seaborn展示几组课上学过的常用图表绘制方法。

データ可視化はデータ解析にとってとても重要なんです。クラスでggplot2とRを利用し、統計グラフを作るのが勉強しました。同様に、Pythonのデータ可視化ライブラリもあります。よく使われるのはmatplotlibとseabornです。ggplot2のように、seabornは色々な統計グラフを作れます。これから、私はseabornの使い方を説明したいと思います。

2. Installing/安装/インストール

There are two ways to install seaborn:

seaborn可通过两种方式安装:

seabornのインストール方法は二つあります:

3. Histogram/直方图/柱図表

Often data scientists would like to know distributions of continuous variables. Histogram is one of the most widely used tools that visually present distributions of data.

通常我们需要知道变量的分布情况。直方图有着能直观地呈现变量分布的优点,所以我们经常采用以分析连续变量。

連続変数の分布状況直にをあらわせるので、柱図表はよく使われています。

4. Scatterplot/散点图/散布図

To show correlation between continuous variables, we use scatterplot in exploratory analysis.

散点图可用之判断两连续变量之间的关系。

散布図によって、二つの連続変数の関係を見えます。

5. Boxplot/箱型图/箱ひげ図

Compared to histogram and scatterplot, Boxplot is better at showing median, range, and outliers.

相较于直方图与散点图, 箱型图能更好地展示中位数,间距,以及异常值。

柱図表と散布図より、箱ひげ図の方が中央値と範囲と外れ値を見やすいです。

6. Violin Plot/小提琴图/バイオリン図

It's said that boxplot fails to show distribution of variables. Hence, we could use violin plot.

然而,箱型图难以描绘出变量的分布情况。因此我们使用小提琴图弥补这一缺陷。

箱ひげ図が変数の分布状況描けないと言ったから、バイオリン図を使います。

7. Bar chart/柱状图/棒グラフ

For categorical data, we can use bar chart.

使用柱状图以展示分类数据。

棒グラフで、カテゴリ変数を解析します。

8. Style

There are five styles to choose in seaborn: darkgrid, whitegrid, dark, white, and ticks. According to different exploratory or explanatory purposes, different styles can be chosen so that graphs are easy to understand.

seaborn中总共有五种风格可供选择:darkgrid, whitegrid, dark, white, 和ticks。根据不同情况,可以选择不同的风格确保表格清晰易懂。

seabornの中に、スタイルは五つあります:darkgridとwhitegridとdarkとwhiteとticks。スタイルを選んで、グランを理解やすくします。

8. External resources/参考资料/引用

https://seaborn.pydata.org/index.html#