Key Word(s): pandas

cs109a_section_scaffold_1

CS109A Introduction to Data Science

Lab 01: Introduction to Web Scraping¶

Harvard University
Fall 2021
Instructors: Pavlos Protopapas and Natesh Pillai
Lab Team: Marios Mattheakis, Hayden Joy, Chris Gumb, and Eleni Kaxiras
Authors: Varshini Reddy, Marios Mattheakis and Pavlos Protopapas

In [21]:

## RUN THIS CELL TO GET THE RIGHT FORMATTING 
import requests
from IPython.core.display import HTML
styles = requests.get("https://raw.githubusercontent.com/Harvard-IACS/2018-CS109A/master/content/styles/cs109.css").text
HTML(styles)

Out[21]:

Lab Learning Objectives¶

When we're done today, you will approach messy real-world data with confidence that you can get it into a format that you can manipulate.

Specifically, our learning objectives are:

Understand the tree-like structure of an HTML document and use that structure to extract desired information.
Use Python data structures such as lists, dictionaries to store and manipulate information.
Practice using Python packages such as BeautifulSoup, including how to navigate their documentation to find functionality.
Identify other (semi-)structured formats commonly used for storing and transferring data, such as CSV.

Pre-Requisites¶

Before you start working on the lab, we expect you to be familiar with Python programming. Following is the list of topics you need to brush up on before attending the lab session. We have provided some quick start references as well.

Python Data Structures
- Lists
- Dictionaries
Functions in python
Python classes
Files and strings

In [16]:

# Importing necessary libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from bs4 import BeautifulSoup
import requests
import json
from IPython.display import HTML
%matplotlib inline 

In [2]:

# Setting up 'requests' to make HTTPS requests properly takes some 
#       extra steps.

requests.packages.urllib3.disable_warnings()

import warnings
warnings.filterwarnings("ignore")

Lab Data Analysis Questions¶

Is science becoming more collaborative over time? How about literature? Are there a few "geniuses" or lots of hard workers? One way we might answer those questions is by looking at Nobel Prizes winners. We could ask questions like:

1) Has anyone won a prize more than once?
2) How has the total number of recipients changed over time?
3) How has the number of recipients per award changed over time?

To answer these questions, we will need data: who received what award and when.

When possible: find a structured dataset (.csv, .json, .xls)¶

After a google search we stumble upon this dataset on github. It is also in the lab folder named github-nobel-prize-winners.csv.

We use Pandas to read it. Pandas will be covered next week in more details.

In [5]:

df = pd.read_csv("data/github-nobel-prize-winners.csv")
df.head() 

Out[5]:

	year	discipline	winner	desc
0	1901	chemistry	Jacobus H. van 't Hoff	in recognition of the extraordinary services h...
1	1901	literature	Sully Prudhomme	in special recognition of his poetic compositi...
2	1901	medicine	Emil von Behring	for his work on serum therapy, especially its ...
3	1901	peace	Henry Dunant	NaN
4	1901	peace	Frédéric Passy	NaN

Research Question 1: Did anyone recieve the Nobel Prize more than once?¶

How would you check if anyone recieved more than one nobel prize?

We will be using Python lists for this, which is a pre-requisite for this lab as mentioned earlier. If you have any questions with regards to lists or list comprehensions, refer to the slides from us here.

In [6]:

# Initialize the list storing all the names 
name_winners = []

for name in df.winner:
    
    # Check if we already encountered this name: 
    if name in name_winners:
        
        # (TODO) If so, print the name
        print(___)
    else:
        # (TODO) Otherwise append the name to the list
        name_winners.append(___)
        

We don't want to print "No Prize was Awarded" all the time.

In [7]:

# List storing all the names 
name_winners = []

for name in df.winner:
    
    # (TODO) Check if we already encountered this name and the name is not "No Prize was Awarded": 
    if name in name_winners and name != ___ : 
        # (TODO) If so, print the name
        print(___)
        
    else:
        # (TODO) Otherwise append the name to the list
        name_winners.append(___)
        

we can use .split() on a string to separate the words into individual strings and store them in a list.¶

Experiment with the .split() below before using it.

In [9]:

UN_string = "Office of the United Nations"
print(UN_string.split())
n_words = len(UN_string.split())
print("Number of words: " + str(n_words));

['Office', 'of', 'the', 'United', 'Nations']
Number of words: 5

Let us only print winners with only two words in their name:

In [8]:

name_winners = []

for name in df.winner:
    
    # (TODO) Check if we already encountered this name and the name consists of no more than 2 words: 
    if name in name_winners and len(___) <= 2: 
        # (TODO) If so, print the name
        print(___)
        
    else:
        # (TODO) Otherwise append the name to the list
        name_winners.append(___)
        

Marie Curie recieved the nobel prize in physics in 1903 and chemistry in 1911. She is one of only four people to recieve two Nobel Prizes.

All questions, such as "did anyone receive the Noble Price more than once?", are easy to answer when the data is present in such a clean tabular form. However, many times (if not most) we do not find the data we need in such a format.

In such cases, we need to perform web scraping and cleaning to get the data we desire. The end result of this lab is to create a pandas dataframe after web scraping and cleaning.

WEB SCRAPING¶

The first step in web scraping is to understand the HTML structure of the webpage.¶

But, what is HTML?¶

HTML stands for Hyper Text Markup Language. It is the standard markup language for documents designed to be displayed in a web browser. It can be assisted by technologies such as Cascading Style Sheets and scripting languages such as JavaScript.

Standard HTML documents¶

HTML documents generally have the following structure:

**\** **\** **\** **\Page Title\** **\** **\** **\

Page Heading\

** **\

The first paragraph of page\

** **.** **.** **.** **.** **\** **\**

What does each of these tags indicate?¶

The \<!DOCTYPE html> declaration defines that this document is an HTML5 document
The \ element is the root element of an HTML page
The \ element contains meta information about the HTML page
The \</strong> element specifies a title for the HTML page (which is shown in the browser's title bar or in the page's tab)</p> </li> <li><p>The <strong>\<body></strong> element defines the document's body, and is a container for all the visible contents, such as headings, paragraphs, images, hyperlinks, tables, lists, etc.</p> </li> <li><p>The <strong>\<h1></strong> element defines a large heading. There are other heading tags in html, <strong>\<h2>, \<h3>, \<h4>, \<h5>, \<h6></strong></p> </li> <li><p>The <strong>\<p></strong> element defines a paragraph</p> </li> </ul> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="What-is-an-HTML-Element?">What is an HTML Element?<a class="anchor-link" href="#What-is-an-HTML-Element?">¶</a></h3><p>An HTML element is defined by a start tag, some content, and an end tag:</p> <p><strong>\<tagname> Tag content \</tagname></strong></p> <p>An example of an HTML element is as follows:</p> <p><strong>\<h1> The Page Heading \</h1></strong></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="WEB-SCRAPING">WEB SCRAPING<a class="anchor-link" href="#WEB-SCRAPING">¶</a></h3><p>The official <a href = https://www.nobelprize.org/prizes/lists/all-nobel-prizes/> Nobel website </a> has the data we want, but in 2018 and 2019 the physics prize was awarded to multiple groups so we will use an archived version of the web-page for an easier introduction to web scraping.</p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>The Internet Archive periodically crawls most of the Internet and saves what it finds. (That's a lot of data!) So let's grab the data from the Archive's "Wayback Machine" (great name!). We've just given you the direct URL, but at the very end you'll see how we can get it out of a JSON response from the Wayback Machine API.</p> <p>Let's take a look at the <a href="http://web.archive.org/web/20180820111639/https://www.nobelprize.org/prizes/lists/all-nobel-prizes/">2018 version of the Nobel website</a> and to look at the underhood HTML: right-click and click on <code>inspect</code>.You should see something like this.</p> <p><img src="images/inspect-element.png" alt="Inspect" style="width:1000px"></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="Mapping-the-HTML-tags-to-the-webpage">Mapping the HTML tags to the webpage<a class="anchor-link" href="#Mapping-the-HTML-tags-to-the-webpage">¶</a></h3><p>When you inspect, try to map each element on the webpage to its HTML.</p> <p><img src="images/html2.png" alt="HTML" style="width:1000px"></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [12]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># here is what we will get after selecting using the class by year tag.</span> <span class="c1"># we use the HTML parser module to render the html </span> <span class="n">einstein</span> <span class="o">=</span> <span class="n">HTML</span><span class="p">(</span><span class="s1">'</span><span class="se">\</span> <span class="s1"> <div class ="Class: by year"> </span><span class="se">\</span> <span class="s1"> <h3> </span><span class="se">\</span> <span class="s1"> <a href="http://web.archive.org/web/20180820111639/https://www.nobelprize.org/nobel_prizes/physics/laureates/1921/"> </span><span class="se">\</span> <span class="s1"> The Nobel Prize in Physics 1921 </span><span class="se">\</span> <span class="s1"> </a> </span><span class="se">\</span> <span class="s1"> </h3> </span><span class="se">\</span> <span class="s1"> <h6> </span><span class="se">\</span> <span class="s1"> <a href="http://web.archive.org/web/20180820111639/https://www.nobelprize.org/nobel_prizes/physics/laureates/1921/einstein-facts.html"></span><span class="se">\</span> <span class="s1"> Albert Einstein</a> </span><span class="se">\</span> <span class="s1"> </h6> </span><span class="se">\</span> <span class="s1"> <p> </span><span class="se">\</span> <span class="s1"> “for his services to Theoretical Physics, and especially for his discovery of the law of the photoelectric effect” </span><span class="se">\</span> <span class="s1"> </p> </span><span class="se">\</span> <span class="s1"> '</span><span class="p">)</span> <span class="n">display</span><span class="p">(</span><span class="n">einstein</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> <div class="jp-Cell-outputWrapper"> <div class="jp-OutputArea jp-Cell-outputArea"> <div class="jp-OutputArea-child"> <div class="jp-OutputPrompt jp-OutputArea-prompt"></div> <div class="jp-RenderedHTMLCommon jp-RenderedHTML jp-OutputArea-output " data-mime-type="text/html"> <div class ="Class: by year"> <h3> <a href="http://web.archive.org/web/20180820111639/https://www.nobelprize.org/nobel_prizes/physics/laureates/1921/"> The Nobel Prize in Physics 1921 </a> </h3> <h6> <a href="http://web.archive.org/web/20180820111639/https://www.nobelprize.org/nobel_prizes/physics/laureates/1921/einstein-facts.html"> Albert Einstein</a> </h6> <p> “for his services to Theoretical Physics, and especially for his discovery of the law of the photoelectric effect” </p> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [23]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">snapshot_url</span> <span class="o">=</span> <span class="s1">'http://web.archive.org/web/20180820111639/https://www.nobelprize.org/prizes/lists/all-nobel-prizes/'</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># (TODO) make a GET request to snapshot_url</span> <span class="n">snapshot</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> <span class="n">snapshot</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Response [200] is a success status code. Let's google: <a href="https://www.google.com/search?q=response+200+meaning&oq=response+%5B200%5D+m&aqs=chrome.1.69i57j0l5.6184j0j7&sourceid=chrome&ie=UTF-8"><code>response 200 meaning</code></a>. All possible codes <a href="https://developer.mozilla.org/en-US/docs/Web/HTTP/Status">here</a>.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [14]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="nb">type</span><span class="p">(</span><span class="n">snapshot</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Try to request "www.xoogle.be". What happens?</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [15]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">snapshot_url2</span> <span class="o">=</span> <span class="s1">'http://web.archive.org/web/20180820111639/https://www.xoogle.be'</span> <span class="c1"># (TODO) make a GET request to snapshot_url2</span> <span class="n">snapshot</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> <span class="n">snapshot</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Always remember to “not to be evil” when scraping with requests! If downloading multiple pages (like you will be doing on HW1), always put a delay between requests (e.g., <code>time.sleep(1)</code>, with the <code>time</code> library), so you do not unwittingly hammer someone’s webserver and/or get blocked.</p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Let's look at the content we just scraped!</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">snapshot</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">snapshot_url</span><span class="p">)</span> <span class="n">raw_html</span> <span class="o">=</span> <span class="n">snapshot</span><span class="o">.</span><span class="n">text</span> <span class="nb">print</span><span class="p">(</span><span class="n">raw_html</span><span class="p">[:</span><span class="mi">5000</span><span class="p">])</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <hr> <h1 id="What-makes-Python-special-?">What makes Python special ?<a class="anchor-link" href="#What-makes-Python-special-?">¶</a></h1> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><img src="images/CustomPython.png" alt="images/CustomPython.png" title="Title"></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><img src="images/StandardLibrary.png" alt="images/StandardLibrary.png" title="Title"></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><img src="images/ThirdParty.png" alt="images/ThirdParty.png" title="Title"></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><img src="images/Gravity.png" alt="images/Gravity.png" title="Title"></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [15]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="kn">import</span> <span class="nn">this</span> </pre></div> </div> </div> </div> </div> <div class="jp-Cell-outputWrapper"> <div class="jp-OutputArea jp-Cell-outputArea"> <div class="jp-OutputArea-child"> <div class="jp-OutputPrompt jp-OutputArea-prompt"></div> <div class="jp-RenderedText jp-OutputArea-output" data-mime-type="text/plain"> <pre>The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. Errors should never pass silently. Unless explicitly silenced. In the face of ambiguity, refuse the temptation to guess. There should be one-- and preferably only one --obvious way to do it. Although that way may not be obvious at first unless you're Dutch. Now is better than never. Although never is often better than *right* now. If the implementation is hard to explain, it's a bad idea. If the implementation is easy to explain, it may be a good idea. Namespaces are one honking great idea -- let's do more of those! </pre> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="Regular-Expressions">Regular Expressions<a class="anchor-link" href="#Regular-Expressions">¶</a></h2><p>You can find specific patterns or strings in text by using Regular Expressions (or re, regex, regexp): This is a pattern matching mechanism used throughout Computer Science and programming (it's not just specific to Python).</p> <p>A short summary of regular expressions from us can be found <a href="references/RegularExpressions.pdf">here</a>.</p> <p>Some great resources that we recommend, if you are interested in them (could be very useful for a homework problem):</p> <ul> <li><a href="https://docs.python.org/3.3/library/re.html">https://docs.python.org/3.3/library/re.html</a></li> <li><a href="https://regexone.com">https://regexone.com</a></li> <li><a href="https://docs.python.org/3/howto/regex.html">https://docs.python.org/3/howto/regex.html</a>.</li> </ul> <p>Specify a specific sequence with the help of regex special characters. Some examples:</p> <ul> <li><code>\S</code> : Matches any character which is not a Unicode whitespace character: spaces, tabs, newlines</li> <li><code>\d</code> : Matches any Unicode decimal digit, <code>0</code>, <code>1</code>, ..., <code>9</code></li> <li><code>*</code> : Causes the resulting RE to match 0 or more repetitions of the preceding RE, as many repetitions as are possible.</li> </ul> <p><strong>Let's find all the occurances of 'Marie' in our raw_html:</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [17]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="kn">import</span> <span class="nn">re</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [18]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="sa">r</span><span class="s1">'Marie'</span><span class="p">,</span> <span class="n">raw_html</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Note we use an r before the string to get the raw text.</p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>Using <code>\S</code> to match 'Marie' + ' ' + 'any character which is not a Unicode whitespace character':</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [19]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="sa">r</span><span class="s1">'Marie \S'</span><span class="p">,</span><span class="n">raw_html</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>How would we find the lastnames that come after Marie?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [20]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># Your code here</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Hint: The \w character represents any alpha-numeric character. \w* is greedy and gets a repeat of the characters until the next bit of whitespace.</p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Now, we have all our data in the notebook. Unfortunately, it is the form of one really long string, which is hard to work with directly. This is where BeautifulSoup comes in.</p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h4 id="This-is-an-example-of-code-that-grabs-the-first-title.-Regex-can-quickly-become-complex,-which-motivates-beautiful-soup.">This is an example of code that grabs the first title. Regex can quickly become complex, which motivates beautiful soup.<a class="anchor-link" href="#This-is-an-example-of-code-that-grabs-the-first-title.-Regex-can-quickly-become-complex,-which-motivates-beautiful-soup.">¶</a></h4> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [21]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">first_title</span> <span class="o">=</span> <span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="sa">r</span><span class="s1">'<h3><a.*>.*<\/a><\/h3>'</span><span class="p">,</span> <span class="n">raw_html</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span> <span class="nb">print</span><span class="p">(</span><span class="n">first_title</span><span class="p">)</span> <span class="c1">#you can do this via regex, but it gets complicated fast! This motivates Beautiful Soup.</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="Parse-the-HTML-with-BeautifulSoup">Parse the HTML with BeautifulSoup<a class="anchor-link" href="#Parse-the-HTML-with-BeautifulSoup">¶</a></h2> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>BeautifulSoup works by parsing the raw html text into a tree. Every tag in the raw html becomes a node in the tree. We can then navigate the tree by selecting a node and querying its parent, children, siblings, etc.</p> <p><img src="images/html-dom.png" alt="HTML Parsed Tree"></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">soup</span> <span class="o">=</span> <span class="n">BeautifulSoup</span><span class="p">(</span><span class="n">raw_html</span><span class="p">,</span> <span class="s1">'html.parser'</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Key BeautifulSoup functions we’ll be using in this lab:</p> <ul> <li><strong><code>tag.prettify()</code></strong>: Returns cleaned-up version of raw HTML, useful for printing</li> <li><strong><code>tag.select(selector)</code></strong>: Return a list of nodes matching a <a href="https://developer.mozilla.org/en-US/docs/Learn/CSS/Introduction_to_CSS/Simple_selectors">CSS selector</a></li> <li><strong><code>tag.select_one(selector)</code></strong>: Return the first node matching a CSS selector</li> <li><strong><code>tag.text/soup.get_text()</code></strong>: Returns visible text of a node (e.g.,"<code><p>Some text</p></code>" -> "Some text")</li> <li><strong><code>tag.contents</code></strong>: A list of the immediate children of this node</li> </ul> <p>You can also use these functions to find nodes.</p> <ul> <li><strong><code>tag.find_all(tag_name, attrs=attributes_dict)</code></strong>: Returns a list of matching nodes</li> <li><strong><code>tag.find(tag_name, attrs=attributes_dict)</code></strong>: Returns first matching node</li> </ul> <p>BeautifulSoup is a very powerful library -- much more info here: <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">https://www.crummy.com/software/BeautifulSoup/bs4/doc/</a></p> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="Let's-practice-some-BeautifulSoup-commands,">Let's practice some BeautifulSoup commands,<a class="anchor-link" href="#Let's-practice-some-BeautifulSoup-commands,">¶</a></h3> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>Print a cleaned-up version of the raw HTML</strong></p> <p>Which function should we use from above?</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">pretty_soup</span> <span class="o">=</span> <span class="n">soup</span><span class="o">.</span><span class="n">prettify</span><span class="p">()</span> <span class="nb">print</span><span class="p">(</span><span class="n">pretty_soup</span><span class="p">[:</span><span class="mi">500</span><span class="p">])</span> <span class="c1">#what about negative indices?</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>Find the first “title” object</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">soup</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s2">"title"</span><span class="p">)[:</span><span class="mi">50</span><span class="p">]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>Extract the text of first “heading” object given by $<h3>$</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">soup</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'a h3'</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="Extracting-award-data">Extracting award data<a class="anchor-link" href="#Extracting-award-data">¶</a></h2> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Let's use the structure of the HTML document to extract the data we want.</p> <p>From inspecting the page in DevTools, we found that each award is in a <code>div</code> with a <code>by_year</code> class. Let's get all of them.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [26]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_nodes</span> <span class="o">=</span> <span class="n">soup</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'.by_year'</span><span class="p">)</span> <span class="c1">#<div class ="by year"</span> <span class="nb">len</span><span class="p">(</span><span class="n">award_nodes</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Let's pull out an example.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [27]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span> <span class="o">=</span> <span class="n">award_nodes</span><span class="p">[</span><span class="mi">200</span><span class="p">]</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span><span class="o">.</span><span class="n">prettify</span><span class="p">()</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>We use the HTML library to render the HTML below</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [0]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">HTML</span><span class="p">(</span><span class="n">award_node</span><span class="o">.</span><span class="n">prettify</span><span class="p">())</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h4 id="Let's-practice-getting-data-out-of-a-BS-node-(award_node)">Let's practice getting data out of a BS node (award_node)<a class="anchor-link" href="#Let's-practice-getting-data-out-of-a-BS-node-(award_node)">¶</a></h4> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="The-prize-title">The prize title<a class="anchor-link" href="#The-prize-title">¶</a></h3><p>Check the html from above and note that the prize title is in the h3 tag.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [29]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'h3'</span><span class="p">)</span><span class="o">.</span><span class="n">text</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>How do we separate the year from the selected prize title?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [30]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'h3'</span><span class="p">)</span><span class="o">.</span><span class="n">text</span><span class="p">[</span><span class="o">-</span><span class="mi">4</span><span class="p">:]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>How do we drop the year from the title?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [31]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'h3'</span><span class="p">)</span><span class="o">.</span><span class="n">text</span><span class="p">[:</span><span class="o">-</span><span class="mi">4</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Let's put them into functions:</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [32]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># wrap the above code inside a function</span> <span class="k">def</span> <span class="nf">get_award_title</span><span class="p">(</span><span class="n">award_node</span><span class="p">):</span> <span class="k">return</span> <span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'h3'</span><span class="p">)</span><span class="o">.</span><span class="n">text</span><span class="p">[</span><span class="n">___</span><span class="p">]</span><span class="o">.</span><span class="n">strip</span><span class="p">()</span> <span class="k">def</span> <span class="nf">get_award_year</span><span class="p">(</span><span class="n">award_node</span><span class="p">):</span> <span class="k">return</span> <span class="nb">int</span><span class="p">(</span><span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'h3'</span><span class="p">)</span><span class="o">.</span><span class="n">text</span><span class="p">[</span><span class="n">___</span><span class="p">])</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>Make a list of titles for all awards</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [54]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1">#original code:</span> <span class="n">list_awards</span> <span class="o">=</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">award_node</span> <span class="ow">in</span> <span class="n">award_nodes</span><span class="p">:</span> <span class="n">list_awards</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">get_award_title</span><span class="p">(</span><span class="n">___</span><span class="p">))</span> <span class="n">list_awards</span><span class="p">[:</span><span class="mi">50</span><span class="p">]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>How can we make this into a oneliner?</strong></p> <p>We can use <em>list comprehension</em></p> <div class="highlight"><pre><span></span><span class="n">l</span> <span class="o">=</span> <span class="p">[</span><span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">some_list</span><span class="p">]</span> </pre></div> <p>which is equivalent to</p> <div class="highlight"><pre><span></span><span class="n">l</span> <span class="o">=</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">x</span> <span class="ow">in</span> <span class="n">some_list</span><span class="p">:</span> <span class="n">element</span> <span class="o">=</span> <span class="n">f</span><span class="p">(</span><span class="n">x</span><span class="p">)</span> <span class="n">l</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">element</span><span class="p">)</span> </pre></div> <p>List comprehensions are explained in the slides from us linked above.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [34]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># (TODO) use list comprehension to get a list of titles</span> <span class="p">[</span><span class="n">get_award_title</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> <span class="k">for</span> <span class="n">award_node</span> <span class="ow">in</span> <span class="n">award_nodes</span> <span class="p">]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="The-recipients">The recipients<a class="anchor-link" href="#The-recipients">¶</a></h3><p>Check the html from above and note that the prize title is in the h6 a selector.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [35]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'h6 a'</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>How do we handle there being more than one?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [36]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="p">[</span><span class="n">node</span><span class="o">.</span><span class="n">text</span> <span class="k">for</span> <span class="n">node</span> <span class="ow">in</span> <span class="n">award_node</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'h6 a'</span><span class="p">)]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Let's encapsulate this process into a function and make it into a function.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [37]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">get_recipients</span><span class="p">(</span><span class="n">award_node</span><span class="p">):</span> <span class="k">return</span> <span class="p">[</span><span class="n">node</span><span class="o">.</span><span class="n">text</span> <span class="k">for</span> <span class="n">node</span> <span class="ow">in</span> <span class="n">award_node</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'h6 a'</span><span class="p">)]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>We'll leave them as a list for now, to return to this later.</p> <p><strong><em>This is how you would get the links: (Relevant for the homework)</em></strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [38]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="p">[</span><span class="n">state_node</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s2">"href"</span><span class="p">)</span> <span class="k">for</span> <span class="n">state_node</span> <span class="ow">in</span> <span class="n">award_node</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'h6 a'</span><span class="p">)]</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="The-prize-"motivation"">The prize "motivation"<a class="anchor-link" href="#The-prize-"motivation"">¶</a></h3><p><strong>How would you get the 'motivation'/reason of the prize from the following <code>award_node</code>?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [39]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">award_node</span> <span class="o">=</span> <span class="n">award_nodes</span><span class="p">[</span><span class="mi">200</span><span class="p">]</span> <span class="n">award_node</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [40]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="nb">print</span><span class="p">(</span><span class="n">award_node</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'p'</span><span class="p">)[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">text</span><span class="p">);</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>Putting everything into functions:</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [41]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">get_award_motivation</span><span class="p">(</span><span class="n">award_node</span><span class="p">):</span> <span class="n">award_node</span> <span class="o">=</span> <span class="n">award_node</span><span class="o">.</span><span class="n">select_one</span><span class="p">(</span><span class="s1">'p'</span><span class="p">)</span> <span class="k">if</span> <span class="ow">not</span> <span class="n">award_node</span><span class="p">:</span> <span class="c1">#0, [], None, and {} all default to False in a python conditional statement.</span> <span class="k">return</span> <span class="kc">None</span> <span class="k">return</span> <span class="n">award_node</span><span class="o">.</span><span class="n">text</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="Let's-create-a-Pandas-dataframe">Let's create a Pandas dataframe<a class="anchor-link" href="#Let's-create-a-Pandas-dataframe">¶</a></h2><p>Next, we parse the collected data and create a <code>pandas.DataFrame</code>. A DataFrame is like a table, where each row corresponds to a data entry and each column corresponds to a feature. Once we have a DataFrame, we can easily export it to our disk in CSV, JSON, or other formats.</p> <p>The easiest way to create a DataFrame is to build a list of dictionaries. Dictionaries are a pre-requisite for this lab. Refer to the slides from us <a href="references/Dictionaries.pdf">here</a> for a better understanding.</p> <p>Each entry (dict) in the list is a data point, where keys are column names in the table. Let's see it in action.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [1]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">awards</span> <span class="o">=</span> <span class="p">[]</span> <span class="k">for</span> <span class="n">award_node</span> <span class="ow">in</span> <span class="n">soup</span><span class="o">.</span><span class="n">select</span><span class="p">(</span><span class="s1">'.by_year'</span><span class="p">):</span> <span class="n">recipients</span> <span class="o">=</span> <span class="n">get_recipients</span><span class="p">(</span><span class="n">award_node</span><span class="p">)</span> <span class="c1"># Initialize the dictionary</span> <span class="n">award</span> <span class="o">=</span> <span class="p">{}</span> <span class="c1">#{key: value}</span> <span class="c1"># Call `get_award_title` to get the title of award_node</span> <span class="n">award</span><span class="p">[</span><span class="s1">'title'</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_award_title</span><span class="p">(</span><span class="n">award_node</span><span class="p">)</span> <span class="c1"># Call `get_award_title` to get the year of award_node</span> <span class="n">award</span><span class="p">[</span><span class="s1">'year'</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_award_year</span><span class="p">(</span><span class="n">award_node</span><span class="p">)</span> <span class="c1"># Call `get_recipients` to get the list of recipients of award_node</span> <span class="n">award</span><span class="p">[</span><span class="s1">'recipients'</span><span class="p">]</span> <span class="o">=</span> <span class="n">recipients</span> <span class="c1"># Count number of recipients using the built-in `len()` function</span> <span class="n">award</span><span class="p">[</span><span class="s1">'num_recipients'</span><span class="p">]</span> <span class="o">=</span> <span class="nb">len</span><span class="p">(</span><span class="n">recipients</span><span class="p">)</span> <span class="c1"># (TODO) call `get_award_motivation` to get the motivation of award_node</span> <span class="n">award</span><span class="p">[</span><span class="s1">'motivation'</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_award_motivation</span><span class="p">(</span><span class="n">award_node</span><span class="p">)</span> <span class="n">awards</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">award</span><span class="p">)</span> <span class="n">awards</span><span class="p">[</span><span class="mi">0</span><span class="p">:</span><span class="mi">2</span><span class="p">]</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [2]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># (TODO) convert the list of dictionaries to a pandas DataFrame</span> <span class="n">df_awards_raw</span> <span class="o">=</span> <span class="n">pd</span><span class="o">.</span><span class="n">DataFrame</span><span class="p">(</span><span class="n">awards</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [55]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">df_awards_raw</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p>To export the data to a local CSV file, let's used the <code>.to_csv()</code> method. After you run the follwing code, you can find a <code>scraped_awards.csv</code> in the same directory with this notebook. You can open the notebook using Microsoft Excel or Numbers, but make sure you are using the UTF-8 codec.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [45]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">to_csv</span><span class="p">(</span><span class="s1">'scraped_awards.csv'</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="Some-quick-EDA.">Some quick EDA.<a class="anchor-link" href="#Some-quick-EDA.">¶</a></h3> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [46]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">info</span><span class="p">()</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [47]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">year</span><span class="o">.</span><span class="n">min</span><span class="p">()</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <p><strong>What is going on with the recipients column?</strong></p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [48]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">head</span><span class="p">()</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h3 id="Visualizing-Number-of-Recipients-by-Year">Visualizing Number of Recipients by Year<a class="anchor-link" href="#Visualizing-Number-of-Recipients-by-Year">¶</a></h3><p>Finally, we visualize the number of recipients for each Nobel Prize by year. Don't worry about the syntax for the moment, you'll get used to it in future exercise.</p> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [49]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="n">titles</span> <span class="o">=</span> <span class="nb">set</span><span class="p">(</span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">title</span><span class="p">)</span> <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">20</span><span class="p">,</span> <span class="mi">44</span><span class="p">),</span> <span class="n">dpi</span><span class="o">=</span><span class="mi">100</span><span class="p">)</span> <span class="n">axes</span> <span class="o">=</span> <span class="n">fig</span><span class="o">.</span><span class="n">subplots</span><span class="p">(</span><span class="nb">len</span><span class="p">(</span><span class="n">titles</span><span class="p">),</span> <span class="mi">1</span><span class="p">)</span> <span class="k">for</span> <span class="n">title</span><span class="p">,</span> <span class="n">ax</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span><span class="n">titles</span><span class="p">,</span> <span class="n">axes</span><span class="p">):</span> <span class="c1"># (TODO) select entries whose titles match `title`</span> <span class="n">plot_df</span> <span class="o">=</span> <span class="n">df_awards_raw</span><span class="p">[</span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">title</span> <span class="o">==</span> <span class="n">title</span><span class="p">]</span> <span class="c1"># (TODO) plot the selected entries using bar-plot, where x-axis is year and y-axis is number of recipeints</span> <span class="n">ax</span><span class="o">.</span><span class="n">bar</span><span class="p">(</span><span class="n">___</span><span class="p">,</span> <span class="n">___</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">"#97CFC4"</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_title</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_xlabel</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_ylabel</span><span class="p">(</span><span class="n">___</span><span class="p">)</span> </pre></div> </div> </div> </div> </div> </div><div class="jp-Cell jp-CodeCell jp-Notebook-cell jp-mod-noOutputs "> <div class="jp-Cell-inputWrapper"> <div class="jp-InputArea jp-Cell-inputArea"> <div class="jp-InputPrompt jp-InputArea-prompt">In [50]:</div> <div class="jp-CodeMirrorEditor jp-Editor jp-InputArea-editor" data-type="inline"> <div class="CodeMirror cm-s-jupyter"> <div class=" highlight hl-ipython3"><pre><span></span><span class="c1"># `counter` is used to save the number of nobel prize winners every year</span> <span class="n">counter</span> <span class="o">=</span> <span class="p">{}</span> <span class="k">for</span> <span class="n">year</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="nb">min</span><span class="p">(</span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">year</span><span class="p">),</span> <span class="nb">max</span><span class="p">(</span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">year</span><span class="p">)</span> <span class="o">+</span> <span class="mi">1</span><span class="p">):</span> <span class="c1"># (TODO) compute total number of recipients that year </span> <span class="n">count</span> <span class="o">=</span> <span class="n">df_awards_raw</span><span class="p">[</span><span class="n">df_awards_raw</span><span class="o">.</span><span class="n">year</span> <span class="o">==</span> <span class="n">year</span><span class="p">]</span><span class="o">.</span><span class="n">num_recipients</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span> <span class="n">counter</span><span class="p">[</span><span class="n">year</span><span class="p">]</span> <span class="o">=</span> <span class="n">count</span> <span class="n">fig</span> <span class="o">=</span> <span class="n">plt</span><span class="o">.</span><span class="n">figure</span><span class="p">(</span><span class="n">figsize</span><span class="o">=</span><span class="p">(</span><span class="mi">20</span><span class="p">,</span> <span class="mi">6</span><span class="p">),</span> <span class="n">dpi</span><span class="o">=</span><span class="mi">100</span><span class="p">)</span> <span class="n">ax</span> <span class="o">=</span> <span class="n">fig</span><span class="o">.</span><span class="n">add_subplot</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">,</span> <span class="mi">1</span><span class="p">)</span> <span class="c1"># (TODO) make another bar-plot, where x-axis is year and y-axis is total number of recipeints</span> <span class="n">ax</span><span class="o">.</span><span class="n">bar</span><span class="p">(</span><span class="n">___</span><span class="p">,</span> <span class="n">___</span><span class="p">,</span> <span class="n">color</span><span class="o">=</span><span class="s2">"#97CFC4"</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_title</span><span class="p">(</span><span class="s1">'Total Amount of Nobel Prize'</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_xlabel</span><span class="p">(</span><span class="s1">'year'</span><span class="p">)</span> <span class="n">ax</span><span class="o">.</span><span class="n">set_ylabel</span><span class="p">(</span><span class="s1">'#Recipients'</span><span class="p">);</span> </pre></div> </div> </div> </div> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="End-of-Normal-Lab">End of Normal Lab<a class="anchor-link" href="#End-of-Normal-Lab">¶</a></h2> </div> </div> <div class="jp-Cell-inputWrapper"><div class="jp-InputPrompt jp-InputArea-prompt"> </div><div class="jp-RenderedHTMLCommon jp-RenderedMarkdown jp-MarkdownOutput " data-mime-type="text/markdown"> <h2 id="Optional-Further-Readings">Optional Further Readings<a class="anchor-link" href="#Optional-Further-Readings">¶</a></h2><p>Here are a couple resources that he referenced early in his course that helped solidify my understanding of data science.</p> <p><a href="https://www.tandfonline.com/doi/full/10.1080/10618600.2017.1384734">50 Years of Data Science</a> by Dave Donoho (2017)</p> <p><a href="https://vita.had.co.nz/papers/tidy-data.pdf"> Tidy data</a> by Hadley Wickam (2014)</p> </div> </div> </body> </html> </body> <script type="text/javascript">if (!document.getElementById('mathjaxscript_pelican_#%@#$@#')) { var mathjaxscript = document.createElement('script'); mathjaxscript.id = 'mathjaxscript_pelican_#%@#$@#'; mathjaxscript.type = 'text/javascript'; mathjaxscript.src = '//cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML'; mathjaxscript[(window.opera ? "innerHTML" : "text")] = "MathJax.Hub.Config({" + " config: ['MMLorHTML.js']," + " TeX: { extensions: ['AMSmath.js','AMSsymbols.js','noErrors.js','noUndefined.js'], equationNumbers: { autoNumber: 'AMS' } }," + " jax: ['input/TeX','input/MathML','output/HTML-CSS']," + " extensions: ['tex2jax.js','mml2jax.js','MathMenu.js','MathZoom.js']," + " displayAlign: 'center'," + " displayIndent: '0em'," + " showMathMenu: true," + " tex2jax: { " + " inlineMath: [ ['$','$'] ], " + " displayMath: [ ['$$','$$'] ]," + " processEscapes: true," + " preview: 'TeX'," + " }, " + " 'HTML-CSS': { " + " linebreaks: { automatic: true, width: '95% container' }, " + " styles: { '.MathJax_Display, .MathJax .mo, .MathJax .mi, .MathJax .mn': {color: 'black ! important'} }" + " } " + "}); "; (document.body || document.getElementsByTagName('head')[0]).appendChild(mathjaxscript); } </script> </main> <footer class="footer"> <div class="container"> <span class="text-muted">Copyright 2018 © <a class="text-muted" href="https://iacs.seas.harvard.edu/">Institute for Applied Computational Science</a> </span> </div> </footer>  <script src="https://ajax.googleapis.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script> <script src="https://cdnjs.cloudflare.com/ajax/libs/popper.js/1.14.3/umd/popper.min.js" integrity="sha384-ZMP7rVo3mIykV+2+9J3UJ46jBk0WLaUAdn689aCwoqbBJiSnjAK/l8WvCWPIPm49" crossorigin="anonymous" ></script> <script src="https://stackpath.bootstrapcdn.com/bootstrap/4.1.1/js/bootstrap.min.js" integrity="sha384-smHYKdLADwkXOn1EmN1qk/HfnUcbVRZyYmZ4qpPea6sjB/pTJ0euyQp0Mk8ck+5T" crossorigin="anonymous" ></script> </body> </html>