PYTHON 資料電脳梁山泊烏賊塾 PYTHON 入門文字列文字列リテラルプログラムの中で文字列を表す方法は幾つか有るが基本的な方法は下記の 2 種で有る対象と成る文字の集まりをダブルクオーテーション ( " ) で囲うかシングルクオーテーション ( ' ) で囲う PYTHON3 "

PYTHON 入門文字列文字列リテラルプログラムの中で文字列を表す方法は幾つか有るが基本的な方法は下記の 2 種で有る対象と成る文字の集まりをダブルクオーテーション ( " ) で囲うかシングルクオーテーション ( ' ) で囲う " 文字列 " ' 文字列 ' 他のプログラミング言語ではダブルクオーテーションとシングルクオーテーションで囲う場合ではエスケープ処理等の扱いが異なる物が多いが Python では孰れも全く同じで有る文字列の標準出力への出力 print 関数は引数に指定されたオブジェクトを標準出力に出力する print 関数は引数の出力の後自動的に改行 ( n) を追加して出力する猶引数の最後がカンマ (, ) で終わって居る場合は改行が出力されない複数の引数を指定する場合はカンマ (, ) で区切って複数の引数を記述する此の場合 2 個目の引数からは頭に空白が 1 個付加されて出力される従ってカンマで区切って出力する場合は此の様に空白が 1 個含まれて了うので空白を入れたくない場合は出力する文字列を連結してから出力する print 関数の引数に文字列以外を指定した場合には先ず文字列に変換してから出力が行われるエスケープシーケンス Python ではダブルクオーテーションで囲った文字列でもシングルクオーテーションで囲った文字列でもエスケープシーケンスを使用する事が出来る使用出来るエスケープシーケンスは下記の通りで有るエスケープシーケンス意味文字そのもの ' シングルクオーテーション " ダブルクオーテーション a ベル b バックスペース f 改ページ r キャリッジリターン n 改行 t 水平タブ v 垂直タブ N{name} Unicode データベース中で名前 name を持つ文字 uxxxx 16 ビットの16 進数値 xxxx を持つUnicode 文字 Uxxxxxxxx 32 ビットの16 進数値 xxxxxxxx を持つUnicode 文字 -1-

ooo 8 進数 ooo を持つASCII 文字 xhh 16 進数 hh を持つASCII 文字 0 NULL +( 改行 ) 文字列を途中で改行する ( 行継続記号 ) 長い文字列の場合に下記の様にプログラム中で改行するとエラーと成る "The browser displays an error message" 上記の様な場合には下記の様に改行の直前にを入力する "The browser displays an error message" の直後に改行が有る場合には行が次の行へ続いて居る事を表すので上記は下記の様に 1 行で記述された場合と同じ扱いに成る "The browser displays an error message" トリプルクオーテーション文字列を作成する方法として下記の様にシングルクオーテーション ( ' ) かダブルクオーテーション ( " ) を 3 個続けた物で文字列を囲う方法が有る此の場合複数行の文字列を作成する事が出来る """1 行目文字列 2 行目文字列 3 行目文字列 """ '''1 行目文字列 2 行目文字列 3 行目文字列 ''' 此の場合プログラム中で改行されて居る箇所は改行文字で有る n が入力されて居ると看做される例えば下記の様に使用する print("""<html> <head> <title>test</title> </head> <body> <p>test Page</p> </body> </html>""") 猶此の形式の場合には文字列の中で単独のダブルクオーテーションやシングルクオーテーションを使う時にエスケープシーケンスは必要無い ( エスケープシーケンスを使用しても問題は無い ) -2-

raw 文字列 raw 文字列を使用する事でエスケープシーケンスを無効にする事が出来る raw 文字列は下記の様に通常の文字列の先頭に r 又は R を付けた物で有る r" 文字列 " r' 文字列 ' R" 文字列 " R' 文字列 ' raw 文字列はファイルのパスの様な記号を多く含む文字列を作成する場合に便利で有る r"c: My Document node track test.txt" 猶 raw 文字列でもダブルクオーテーションで囲った文字列の中にダブルクオーテーションを含める場合は " とする必要が有る亦シングルクオーテーションの場合も同様に ' とするバイト列と文字列バイト列は特定のエンコード方式でエンコードされて居りリテラルでは b'a' の様に表現する一方文字列は Unicode のコードポイントを並べた物で有りリテラルでは ' あいう ' の様に表現する b"squid" # バイト列 b'squid' # バイト列 " 烏賊 " # 文字列 ' 烏賊 ' # 文字列 Python3 のバイト列は Python2 のバイト文字列と扱いが似て居るが Python2 のバイト文字列は文字列で有るが Python3 のバイト列は文字列ではない全く別の型で有る Python3 の文字列と Python2 のユニコード文字列は同等と考えて良いリテラル表記に違いが有り u を文字列の前につけなくてはならなかった Python2 のユニコード文字列に対して Python3 の文字列は其れが不要で有る猶バイト列は非 ASCII 文字を含む場合リテラル表記が使えないので文字列を特定のエンコード方式でエンコードする必要が有る print(b" 烏賊 ") print(" 烏賊 ") # SyntaxError # 烏賊 print(b" xe7 x83 x8f xe8 xb3 x8a".decode('utf-8')) # 烏賊 print(" 烏賊 ") # 烏賊因みに非 ASCII 文字の文字コードは下記の様にして取得する事が出来る print(" 烏賊 ".encode('utf-8')) # b' xe7 x83 x8f xe8 xb3 x8a' -3-

両者を type 関数で確認するとバイト列は bytes 型で有り文字列は str 型で有る事が解る print(type(b"a")) print(type("a")) # <class 'bytes'> # <class 'str'> 前述の様に Python3 のバイト列は文字列ではない其の為文字列と連結不可能で有るしサポートして居るメソッドも異なる両者の標準出力の例を下記に示す ( 文字列は sys.stdout にバイト列は sys.stdout.buffer に書き込む ) import sys sys.stdout.write(' あ ' + ' いう ' + ' n') sys.stdout.buffer.write((' あ ' + ' いう ' + ' n').encode('utf-8')) 文字列は文字を Unicode として扱い日本語の様な全角文字でもアルファベットの様な ASCII 文字でも 1 文字を 1 文字として扱うバイト列がバイト単位なのに対して Unicode 文字列では文字単位で処理を行う事が出来る其の為通常 Python で日本語を取り扱う場合は文字列を使用する文字列の連結文字列の連結には下記の様に + 演算子を使用する print("python" + "3.7") # print("python " + b"3.7".decode('utf-8')) print(" 西暦 " + "2000 年 ") 文字列とバイト列の連結は出来ない (TypeError が発生する ) バイト列を文字列と連結するには一旦バイト列をデコードして文字列に変換する必要が有る文字列の繰り返し文字列の繰り返しには下記の様に * 演算子を使用する * 演算子は * 演算子の左辺の文字列を右辺に指定した数値だけ繰り返した新しい文字列を返す print("-" * 40) print("~" * 20) 文字列の長さ文字列の長さを取得するには下記の様に len 関数を使用する通常の文字列の場合はバイト数 Unicode 文字列の場合は文字数を取得する print(len("squid")) # 5 print(len(" 烏賊 ")) # 2-4-

数値を文字列に変換文字列以外の数値等のオブジェクトを文字列に変換するには下記の様に str 関数を使用する print("year" + str(2000)) print(" 円周率 " + str(3.14159)) インデックスを指定して要素を取得文字列を構成する個々の要素は先頭から順に割り当てられたインデックス番号を指定する事で個別に取得する事が可能で有る ( 要素番号は 0 から順に番号が割り当てられるが負の値を指定する事も可能で -1 なら一番最後の要素 -2 なら最後から二番目の要素と成る ) str = "Hello" print(str[0]) # H print(str[1]) # e print(str[2]) # l print(str[3]) # l print(str[4]) # o 非 ASCII 文字を含む文字列も同じ様にインデックスを指定して要素を取得する事が出来る文字列では個々の要素は文字単位なので要素も文字単位と成る str = " 烏賊の王様 " print(str[0]) # 烏 print(str[1]) # 賊 print(str[2]) # の print(str[3]) # 王 print(str[4]) # 様部分文字列の取得部分文字列を取得するには下記の様にスライス機能を使用する str = "ABCDE" print(str[1:3]) print(str[1:-1]) #"BC" #"BCD" スライス機能の書式は下記の通りで有る文字列オブジェクト [ 開始インデックス : 終了インデックス ] 終了インデックスを省略すると最後の文字の次のインデックスが指定された事に成り結果的に開始インデックスから最後の文字迄が抽出される亦開始インデックスを省略すると最初の文字の前のインデックスが指定された事に成り結果的に先頭の文字から終了インデックスの前の文字迄が抽出される -5-