Wednesday 11 a.m.–11:45 a.m.

Room 202 #pyconjp_202

週末サイエンティストのススメ

Yuta Kashino

Audience level:
Intermediate
Category:
Science
Slide:
slide http://www.slideshare.net/yutakashino/pyconjp2016
Video:
video https://youtu.be/KFXf4pJ_Ko0?list=PLMkWB0UjwFGlYvIcvKsGhJ7SJIODj_zJZ

Description

クラウドサービス等で安価になった計算資源,大量にあるオープンなデータ,そして多様なオープンソースのツール群.これらを利用すれば,勤務外や週末に計算機上で科学的な解析・分析や推測や予測を自分の手で行うことができる時代になっています.本トークでは他の言語に較べて鬼のように豊かなエコシステムをもつ,Pythonの科学計算スタックを屈指し,プライベートプロジェクトとしてサイエンスをすることについて,環境の構築方法,スタックの紹介,そして事例を提示します.計算環境を整え,基礎知識を蓄え,少しのやる気さえあれば,みんながサイエンスのプロジェクトを行うことができます.普段の職業は「みんなちがって」も「みんな」が計算機上でサイエンスが可能になっている「いい」時代にいるのです.みんなちがってみんないい.Pythonの科学計算スタックはそれを可能にすることを本トークで実感することができたら幸いです.

Abstract

科学プロジェクトの民主化,プライベートプロジェクト化,それが可能になっていることを伝えるのが,本トーク「週末サイエンティストのススメ」の目的です.それが可能になってきたのは以下の理由があります. ![][1] - まず,安価にコンピューティングリソースが手に入れることができること.Amazon Web Service, Google Cloud Platform, Microsoft Azure, さくらインターネット等のクラウドホスティングや専用サーバサービスを利用すれば,それほどお金をかけることなく好きなだけコンピューティングリソースを手に入れることが出来ます.科学の営みは不断なる試行錯誤を行うことです.その試行錯誤をスケールさせるために,安価なコンピュータリソースが必要になるのは言うまでもありません. - 次に,公的にオープンなデータを手に入れることができること.Kaggleなどの機械学習コンペのデータが比較的自由に手に入りますし,オープンアクセスジャーナルを中心として研究データを公開する論文が増えてます.そしてNASAやCERN,NOAA、NICTなどの各国の科学研究機関が積極的にデータを公開しはじめてますし,各国政府,行政機関がオープンデータの名の下にデータを利用自由に公開しています.大量のオープンデータがあるということは,多様で信頼のある科学プロジェクトの基礎となります. - そして,オープンソースとしての豊かなPython科学計算スタック.科学計算ライブラリ,数値計算ライブラリ,数学ライブラリ,統計解析・データ分析ライブラリ,データ可視化ライブラリがPythonエコシステムには非常に充実していて,他の言語環境の追随を許しません.それぞれの科学計算スタックの開発プロジェクトは多くの開発者が開発に参加し,頻繁にアップデートが行われています.このPythonの科学計算スタックを利用すれば,大きな苦労をすることなく最新の科学計算手法を利用した科学プロジェクトを行うことが可能になっています. 最初に,本トークでは,上記の計算機環境/オープンデータ/Python科学計算スタックの充実が「週末サイエンティスト」を可能にすることを伝え,サイエンスプロジェクトが既にみんなが参加できる活動になっていることを提議したいと思います. 次に本トークでは,Python科学計算スタックをあまり苦労しないで始めるための環境作りについて,そのコツとノウハウをお伝えしたいと思います.計算機をどうするか,OSは何を選択するか,Pythonのディストリビューションはどうするか,科学プロジェクトとして実験をするにはどうすればいいか,そういう話題になります. 更に本トークでは,たくさんあるPython科学計算スタックを整理し,分類した上で,それぞれのライブラリやツールを紹介したいと思います.Python科学計算スタックのライブラリやツールは非常に多くあります.なぜ数多くのライブラリやツールが存在するかというと,自然や社会を科学で切り取る手法がたくさんあり,その手法ごとに実装が異なるためです.日曜大工に必要な工具でさえ,ドライバー,スパナ,ドリル,グラインダー,サンダー,ジグソー,ハンマー,ブロワーなどたくさんあります.そのことを思えばサイエンスに必要な工具がたくさん必要になることは明らかです. 最後に,本トークではPython科学計算スタックを利用した科学プロジェクトの事例を具体的に紹介する予定です.機械学習・ニューラルネット,ベイジアン推定,離散問題,疫学などを科学プロジェクトの事例として考えています.このトークで紹介する事例については,Jupyter NotebookやPythonのソースコードを公開し,具体的に参加者が実行することで「週末サイエンティスト」となることができることを実感してもらえれば幸いです. [1]: http://public.bakfoo.com.s3.amazonaws.com/2016doffscientist/resources/3094C5921639A17314498C73ECDD0571.png
  • このエントリーをはてなブックマークに追加