SDTM FILE SIZE ISSUE (SAS LENGTH)

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "SDTM FILE SIZE ISSUE (SAS LENGTH)"

Transcription

1 1 SDTM FILE SIZE ISSUE (SAS LENGTH) CJUG LISaS Learning Industry Standard around SDTM 14 th September 2012 Version 1.0

2 2 はじめに 本スライドは SDTM IG v3.1.3 で新たに追加された VARIABLE LENGTHS の記述について 背景理解と解釈 今後の対策などについてまとめたものです なお 2012 年 8 月末時点での情報を元に検討しており 9 月以降は変わっている可能性があります また 内容についての保証はないことにご注意ください Some of the views and opinions expressed in this presentation are those of the individual discussion member and should not be attributed to the organization by which the member is employed.

3 背景 3

4 4 SDTM における SAS Length の規定 SDTM で変数の Length は規定されていない XPT ファイルの要件上 最大値は 200 しかしながら 一部の変数のみ制約が示されている ARMCD, ACTARMCD: max 20 Y/N flags ( 例 :--FL, AESER, IEORRES): 1 --TESTCD, ETCD, --PARMCD, QNAM, IDVAR: max 8 --TEST, --PARM, QLABEL: max 40 ( これらはXPTの変数およびLabelの上限と一致している 転置を想定 ) Variable Label= Diastolic Blood Pressure edc Raw data SYSBP DIABP SDTM VSTESTCD VSTEST VSORRES SYSBP DIABP Systolic Blood Pressure Diastolic Blood Pressure

5 5 事の発端 SDTM Column Resizing: Background and Industry Testing Results; Electronic Data (edata) Team, CDER FDA, October 13, 年 1 月 ~2011 年 2 月に扱った 565 試験のうち 20 試験を抽出 432 データセットを使って調査 SDTM(SAS V5.xpt) の各変数の Length を データの中身に合わせた最大長 で作り直したところ 平均 70% 最大で 90% ファイルサイズが減った SAS V5.xpt 形式の SDTM は ファイルサイズが大きすぎる! ということが分かった Ref: 02c87e38e/files/dhananjay_chhatre session_9.pdf

6 6 データの中身に合わせた最大長? 1 RACE において CRF に以下の 5 カテゴリがあるとする BLACK OR AFRICAN AMERICAN (25byte) AMERICAN INDIAN OR ALASKA NATIVE (32byte) ASIAN (5byte) NATIVE HAWAIIAN OR OTHER PACIFIC ISLANDER (41byte) WHITE (5byte) 2 結果的に白人しか組入れされなかった場合 データの中には WHITE しか存在しない 3 変数 RACE の SAS-XPT の Length は 5 となる CRF に Set された最大長 41 ではない SDTM, XPT の最大長 200 ではない 社内標準で規定された最大長 xxx ではない

7 Note: FDA は ZIP 等による XPT ファイルの圧縮を許容していない (Study data Specifications v2.0) また SAS の COMPRESS オプションは XPT ファイルでは使用できない 7 試行 SDTM IG v3.1.2+amendment / Permissible variables のうち 7 割を使用 (CDISC Controlled Terminology フル使用 ) Pattern 1: ARMCD や Flag など規定されている文字変数以外は全て $200 Pattern 2: 社内標準やデータ上取りうる最大値を確保 ( 例 : 日時変数は $20 CRF で Set された CDISC Controlled Terminology の最大 ) Pattern 3: データの最大長の Length を使用 Domain Subject * Test * Visit Record Pattern 1 Pattern 2 Pattern 3 DM KB 19KB 11KB DM KB 98KB 47KB LB 30*25* MB 5.98MB 2.44MB LB 500*25* MB 59.7MB 22.0MB

8 続いて FDA CDER Common Data Standards Issues Document (Version 1.1/December 2011) Quote: "Column Length/Size; For both CDISC and non-cdisc datasets, in order to significantly reduce dataset file sizes, the allotted character variable length/size for each column in a dataset should be the maximum length used. Lengths/Sizes of columns should not arbitrarily be set to 200, For example, if your USUBJID column has a maximum length of 18 being used throughout the dataset, the USUBJID s column size should be set to 18, not to 200. Alternative solutions to this problem that involve some inclusion of a small amount of padding to column width may be acceptable as long as they don t result in significant increases in file size due to the padding. Dataset Splitting; If datasets are greater than 1 gb in size, please split the datasets into smaller datasets no larger than 1 gb in size ファイルサイズの上限は 1GB CDISC 標準を考慮した データ構造に特化した Best Practice (2011~) ファイルサイズを減らすために 使った分だけの Length がよい ただし サイズの増加に顕著な影響を及ぼさない場合は +α が許されるとも Ref: onrequirements/electronicsubmissions/ucm pdf 8

9 9 SDTM IG v3.1.3 / 15 July 2012 Quote: VARIABLE LENGTHS ; Very large transport files have become an issue for FDA to process. One of the main contributors to the large file sizes has been sponsors using the maximum length of 200 for character variables. To help rectify this situation: The maximum SAS Version 5 character variable length of 200 characters should not be used unless necessary. Sponsors should consider the nature of the data, and apply reasonable, appropriate lengths to variables. For example: The length of flags will always be 1 --TESTCD and IDVAR will never be more than 8, so length can always be set to 8 The length for variables which use controlled terminology can be set to the length of the longest term. ファイルサイズ増大の原因の 1 つは 200 バイトの Length 必要でないとき以外は使わない 適切な処置をとること 例 : フラグは 1, --TESTCD と IDVAR は 8, その他 Controlled terminology を使うものはその最大値

10 10 SDTM IG の解釈 SDTM v3.1.3 に記載のある The length for variables which use controlled terminology can be set to the length of the longest term. をどのように解釈し Length を決めればよいか? どのような影響があるか? A) 社内標準で用意されているもの or SDTM IG で推奨されている最大値 ( 例 :ARMCD=20) B) CRF に Set されたもの C) 実際に得られたデータ ファイルサイズは C) B) A) となる 他に検討すべき要因はないか?

11 FDA Study Data Specifications v July 2012 CDISC 標準かどうかに限定しない データを提出する際の総則 (2004~), Annotated CRF やフォルダ構造含む Quote: 2.4 Sizing of Columns; For all datasets, in order to significantly reduce dataset file sizes, the allotted character column length/size for each column should be the maximum length used. Lengths/sizes of columns should not arbitrarily be set to 200. For example, if USUBJID has a maximum length of 18, the USUBJID s column size should be set to 18, not 200. An inclusion of a small amount of padding to column width may be acceptable as long as this doesn t result in significant increases in file size. 11 CDER Common Data Standards Issues Document (Version 1.1/December 2011) からの引用に近い しかしながら 文書の性質上 強制力は上がったといえる Ref: M pdf

12 Submission を通じて Length は一致して いないといけない? CDER Common Data Standards Issues Document Quote: Datasets should be resized to the maximum length used prior to splitting. This will ensure split datasets have matching variable lengths for future merges. LB Domain (Laboratory); The size of the LB domain is often quite large and can exceed the reviewers ability to open the file using standard-issue computers. This size issue can be addressed by splitting the large LB dataset into smaller data sets according to LBCAT and LBSCAT, using LBCAT for initial splitting. FDA の公式的な見解では Split datasets( 例 ; Hematology LB + Chemistry LB + Urinalysis LB など --CAT などで分割することを意味する ) においては Length は一致していないとならない SAS や JReview/WebSDM で結合した際には 1 つ目にロードしたデータセットの変数の length に 2 つ目以降が依存してしまう ( データが欠落する恐れがある ) という問題がある 拡大解釈により 潜在的には Domain 間のデータも含まれる ( 例 :USUBJID) しかし Submission 内の複数試験で一致させる必要があるとの記述はない 12

13 13 SDTM IG (v3.1.2 & v3.1.3) では SPLITTING DOMAINS Quote: Sponsors may choose to split a domain of topically related information into physically separate datasets. ( 中略 ) 5) Variables of the same name in separate datasets should have the same SAS Length attribute to avoid any difficulties if the sponsor or FDA should decide to append datasets together. SDTM IG に記載されている SPLITTING DOMAIN の章は ファイルサイズが原因で分割することは意図していない FA や QS など 複数のソースデータ ( 例 :SF-36, ADAS, HAM-D など ) が 1 つの Domain に包括される場合に 使いにくいなどの理由でスポンサーが分割することを意味する 結果的には前述の Split datasets と同じになるため 同一 Domain に該当するデータの変数の Length は 一致していないといけない

14 14 OpenCDISC の対応 OpenCDISC Enterprise( 有料版 ) では 試験間の Length の差をチェックしてくれている Quote: FDA encourages you to 1. not use unreasonably long variable length (e.g., 200 chars for baseline flag (--BLFL)) 2. have consistently in variables' lengths across a whole submission (to avoid potential truncation problems during data pooling/manipulation across domains and studies) It s quite challenging to check this for all data variables in the OpenCDISC Validator Community version (it s done in OC Enterprise version, which performs cross-standards and cross-studies validation). 試験間で Length が一致しているべき ということについての出典の記載はない SAS や JReview/WebSDM で結合した際の潜在的な問題が考慮されている Ref:

15 15 Split dataset に関する見解 CDER Common Data Standards Issues Document (Version 1.1/December 2011) Quote: LB Domain (Laboratory); Sponsors should submit these smaller files in addition to the larger non-split standard LB domain file. CDER には分割したデータと 分割していないデータ両方を提出する DIA 11234: CDER Data Standards Common Issues Document webinar questions (July 28, 2011 webinar) Quote: For CBER do NOT send both split and non-split datasets in your submission. CBER prefers that non-split data sets are submitted, when this is not possible split the datasets using CAT and document in the reviewers guide and/or the define.xml CBER の見解は CDER とは異なる ( 両方は欲しくない ) Ref: da_webinar_july2011_q_a.pdf

16 事例に合わせた検討 16

17 17 さてここで疑問 SAS の Length を Cut するなんて簡単 Manual or Auto by programming PharmaSUG 2012 でも報告あり CC17. Efficiently Trim Character Variable Lengths to Fit Data, Reduce Dataset Size, Wayne Zhong, Octagon Research Solutions Inc., Wayne, PA 他に何か問題があるか? パターン分けして考えてみる 1. In-house Standard もしくは 開発において初めから終わりまで SDTM を CSR 作成に用いる場合 2. Legacy Data で CSR を作成して Submission 時に ( 後付けで )SDTM を作成する場合

18 18 1. SDTM を CSR 作成に用いる場合の例 Variable Data Length AETERM ARMCD Variable Data Length AETERM ARMCD 5 5 Variable Data Length AETERM ARMCD DB 固定直前に Length が確定する データが入らないと決まらない 特に Verbatim text=aeterm etc. Length を Cut するのは 試験実施時か Submission 前か ARMCD などは Cut するより固定のほうがいいのではないか ただし OpenCDISC では Length が IG で記載された Limit 未満の場合には Warning が出るようになっている

19 もし Length を複数の試験で一致させると したら ( そのような明確な規制はないが ) 19 Variable Data Length AETERM ARMCD Variable Data Length AETERM ARMCD 5 5 Variable Data Length AETERM ARMCD Submission の際 Variable Length AETERM 120 ARMCD 20 Variable Length AETERM 120 ARMCD 20 Variable Length AETERM 120 ARMCD 20

20 20 Metadata も含めて検討してみると RACE において CRF に以下の 5 カテゴリがあるとする BLACK OR AFRICAN AMERICAN (25byte) AMERICAN INDIAN OR ALASKA NATIVE (32byte) ASIAN (5byte) NATIVE HAWAIIAN OR OTHER PACIFIC ISLANDER (41byte) WHITE (5byte) もしデータに NATIVE HAWAIIAN OR OTHER PACIFIC ISLANDER が存在しないならば RACE の Length を 41 ではなく 最大長の 32 に Cut することになる Metadata は 32 になるが acrf/codelist には残ったまま 同様に 解析結果においては データにない Terminology も CRF のカテゴリに合わせて表示されている この差を Inconsistency/Gap= 矛盾 とみるのかどうか

21 21 FDA の非公式な見解の一つ ( 伝聞 ) CDISC International Interchange 2011 における質疑応答 Quote; "After the presentation, there was a follow-up question on what the lengths in the define.xml should be. The response was that they should be *exactly* the lengths in the compressed datasets that are submitted. Greater/equal is not what they are looking for they want an accurate description of the actual properties of the datasets that are actually submitted. 提出されたデータ (XPT) と define file(.pdf/.xml) の内容は 完全に一致している必要がある ということ Length を Cut した場合 Metadata の変更は必須 Controlled terminology との Inconsistency については不明 Ref:

22 22 2. Legacy Data Conversion の場合 Length は変換の過程 (CDISC Controlled Terminology への Mapping など ) で変更する Metadata も通常 イチから作成する 実作業にひと手間加わるだけ Length の Cut という作業に焦点が当たるわけではなく 単に SDTM 作成作業の一つとして発生 XPT と Metadata/define file の不整合は起こらない Inconsistency の懸念のみが残る

23 まとめ 23

24 24 今は Length を短くするしかない ファイルサイズはレコード数 文字変数の数などで左右 ファイルサイズを減らしたいという意図で考えた場合 一部の Domain( 例 :DM) においては データの中身に合わせた最大長 に切り詰めたとしても あまりファイルサイズは減らない (Page 7 参照 ) Findings domain ではかなりのインパクトがある % file size reduction が小さいのは SV や TA である ( 繰り返しになるが )Inconsistency の懸念が残る

25 25 要件が曖昧な中での 想定される動き Length は Cut Metadata は整合させる 複数試験での一致は Pending いつもどおり 細かいことは pre-nda meeting 等での相談が推奨される? XPT を破棄し XML での Data Submission の推奨 SDTM の規則で 個々のデータに Length の概念が追加される 例 1: データに合わせて Cut する必要があるかどうか Length Extensible =Yes/No のイメージ 例 2:USUBJID や ARMCD のみ Cut する必要はない など 分割データの結合時の問題は 将来的には Vendor 側の対応で解決されるかもしれない (FDA により Request 済 ) つまり Split dataset/ 複数試験で Length を一致させる必要はなくなる ( もし必要があれば )OpenCDISC Enterprise などでチェック

26 まとめ 問題の焦点 解決方法 サイズを縮小する工夫 テキスト変数の Length Cut ファイルの分割は本質ではない 電子ファイルのサイズを小さくする 1. XPT のまま ファイルサイズを縮小する工夫をする 2. 別のフォーマットを使う 例えば XML ファイル ( 現在は不可 ) XPT を ZIP 等で圧縮 -> Study Data Specifications で禁止テキスト変数の Length を Cut -> 注意してやれば OK 原則論 : 最低限必要な長さに設定する 闇雲に 200 byte にするのはよくない データ長が規定されている変数には そのルールを適用する ( 例 : --FLG, --TEST, --TESTCD, IDVAR, ARMCD など ) 変数のデータ長は Metadata に正しく記載する実際の作業 : ( 上限 1GB の範囲内で ) 実データ or Terminology の最大長を利用 ただし サイズの増加に顕著な影響を及ぼさない場合は +α が許される (+α については SDTM IG v3.1.3 の記載を遵守すればよい ) サイズを無視してデータセットを作成 -> 1GB を超えた -> 分割が必要! というロジックで考える CDER は分割前のデータも提出することを要求しているため 最初からバラバラに作るのではない ただし QS や FA Domain では ファイルサイズとは独立して考え その内容から分割するかもしれない 26

27 27 参考文献 リンク 1) SDTM Column Resizing: Background and Industry Testing Results; Electronic Data (edata) Team, CDER FDA, October 13, y_chhatre session_9.pdf 2) CDER Common Data Standards Issues Document v1.1, December nts/electronicsubmissions/ucm pdf 3) CDISC Public Discussion Forums; "Editor for SAS XPT files?" 4) Study Data Specifications v2.0, July 18, ) OpenCDISC Forum; "Non-recommended variable length" 6) DIA 11234: CDER Data Standards Common Issues Document webinar questions, July 28, _webinar_july2011_q_a.pdf

28 28 補足 :FDA の組織について 医薬品評価研究センター Center for Drug Evaluation and Research (CDER) すべての処方箋薬と OTC 薬 生物学的製剤評価研究センター Center for Biologics Evaluation and Research (CBER) ワクチン 細胞置換療法 ( 輸血 ) や動物由来組織片移植などの生物学的製剤 医療機器 放射線保健センター Center for Devices and Radiological Health (CDRH) 医療機器 Ref:

29 1 SDTM FILE SIZE ISSUE (SAS LENGTH) UPDATE CJUG LISaS Learning Industry Standard around SDTM 12 th April 2013 Version 1.0

30 2 Disclaimers Some of the views and opinions expressed in this presentation are those of the individual discussion member and should not be attributed to the organization by which the member is employed.

31 3 Background The SDTM File size issue (SAS Length) topic was discussed at the CJUG meeting on Sep. 14, This slide deck is focused on the update based on the following 2 topics. FDA public meeting entitled Regulatory New Drug Review: Solutions for Study Data Exchange Standards on November 5, 2012 SDTM-IG v3.1.4 Batch 2 Review Package - SDS Proposal for Alternate Handling of Supplemental Qualifiers

32 4 SAS Length Definition in SDTM Length definition in SDTM IG; IG v The length for variables which use controlled terminology can be set to the length of the longest term. Restrictions or Recommendations SAS XPT file requirement: 200 ARMCD, ACTARMCD: max 20 Y/N flags (e.g., --FL, AESER, IEORRES): 1 --TESTCD, ETCD, --PARMCD, QNAM, IDVAR: max 8 --TEST, --PARM, QLABEL: max 40

33 5 CDISC INTERCHANGE PRESENTATION SDTM Column Resizing: Background and Industry Testing Results; Electronic Data (edata) Team, CDER FDA, October 13, randomly selected studies from 565 unique studies tabulated by the edata Team (OBI/CDER) between Maximum length required (used) vs. Pre-defined limit (e.g., $200) An average reduction in file size of 70% among all 20 studies. Quote; CDISC standardized datasets are increasing file sizes of submissions using transport v5.

34 6 FDA PUBLIC MEETING ENTITLED REGULATORY NEW DRUG REVIEW: SOLUTIONS FOR STUDY DATA EXCHANGE STANDARDS ON NOVEMBER 5, 2012 The purpose of this meeting was to solicit input from industry, technology vendors, and other members of the public regarding the advantages and disadvantages of current and emerging open, consensus-based standards for the exchange of regulated study data.

35 7 Meeting Summary : Study Data Exchange Solutions - Quote; There were five options presented for replacing the current exchange format, SAS Transport v5: 1. SAS Transport v5 extensions 2. Clinical Data Interchange Standards Consortium (CDISC) Operational Data Model (ODM) 3. Health Level Seven (HL7) v3 including Clinical Document Architecture (CDA) 4. Semantic Web (Resource Description Framework (RDF); Web Ontology Language (OWL)) 5. Analytical Information Markup Language (AnIML)

36 8 Extended XPT (SAS Transport v5 extensions) Quote; As of 19-October-2012, organizations can download the new macros from support.sas.com, along with installation and use instructions. ( The macros have been tested for all SAS releases dating back to SAS 8.2. Reference: DATA DELIVERY STRATEGY FOR INDUSTRY AND FDA - TRANSITIONING TO CDISC VIA THE NEW SAS TRANSPORT FILE EXTENSIONS, BILL GIBSON, SAS Institute.

37 9 Limitations Quote; Industry and FDA integrate these new macros into their business processes. Other software products (JMP, JMP Clinical, jreview) integrate these new macros. The following software products can NOT read the extended XPT files as of April OpenCDISC SAS Universal Viewer Reference: DATA DELIVERY STRATEGY FOR INDUSTRY AND FDA - TRANSITIONING TO CDISC VIA THE NEW SAS TRANSPORT FILE EXTENSIONS, BILL GIBSON, SAS Institute.

38 10 SAS Program example /* Use the %LOC2XPT macro to create a V9 transport file */ %loc2xpt(libref=test, memlist=thisisalongdatasetname, filespec='c: trans.v9xpt ); /* Use the %XPT2LOC to convert V9 transport file to a SAS data set. */ %xpt2loc(libref=work, memlist=thisisalongdatasetname, filespec='c: temp trans.v9xpt );

39 11 General Discussions on the meeting Quote; There was interest in exploring SAS v5 extensions as a short term solution for technical limitations to the current format. It s clear that it would not solve the structural limitations and a longer-term solution would also need to be identified. Attendees discussed that this would be a lower level of effort to assess as a short term solution but more information is needed.

40 12 Summary Using Extended XPT could be a short term solution for the following limitations; Field name size Field name characters Field label size Character value size However Using Extended XPT would not decrease file sizes. XML could be a long term solution for the file size issue.

41 13 SDTM-IG V3.1.4 BATCH 2 REVIEW PACKAGE - SDS PROPOSAL FOR ALTERNATE HANDLING OF SUPPLEMENTAL QUALIFIERS

42 14 SDS Proposal for Alternate Handling of Supplemental Qualifiers - Quote; It is proposed that NSVs be permitted to be represented in the parent datasets. This would: Improve efficiency of FDA reviewers, allowing direct viewing of standard variables and NSVs from the same structure, eliminating the need for tools or the writing of programs to display the data together. Eliminate some current Supplemental Qualifier structural limitations by allowing: Numeric NSVs to be represented in a numeric data type Character NSVs to be defined with an appropriate length for each variable, rather than the typical default of $200 for QVAL Allow metadata for NSVs (including Controlled Terminology) to be applied at the variable level instead of the value-level.

43 15 When we can represent NSVs in parent domains Variable lengths for character NSVs should be set to the appropriate length for that variable, as with all standard character variables. It seems that these new, but still under review, requirements of CDISC standardized datasets decrease file sizes.

44 16 Examples dm.xpt* : 109 KB To represent NSVs in DM domain; QNAM->Variable Name, QLABEL->Variable Label, QORIG and QEVAL are removed. Type of SUPPDM* File Size Total File Size ( + DM) 6 pop flags in QNAM QVAL=$200 6 pop flags in QNAM QVAL=$1 1,032 KB 1,141 KB 800 KB 909 KB DM + NSVs 468 KB 111 KB 100 flags in QNAM QVAL=$1 16,919KB 17,028 KB 6,099 KB *: Datasets of Updated Version of Pilot Submission Package (2013) are used.

45 Questions? 17

46 18 Reference 1) FDA public meeting entitled Regulatory New Drug Review: Solutions for Study Data Exchange Standards on November 5, ElectronicSubmissions/ucm htm 2) SDTM-IG v Batch 2 Review Package m_ig_3.1.4_batch_2.zip 3) Usage Note 46944: New SAS transport format and tools available 4) SDTM File size issue (SAS Length), CJUG SDTM Team, September 14, 2012

47 1 SDTM FILE SIZE ISSUE (SAS LENGTH) UPDATE2 CJUG LISaS Learning Industry Standard around SDTM 21 st May 2013

48 2 Introduction The SDTM File size issue (SAS Length) topic was discussed at the CJUG SDTM meeting on Sep. 14, 2012 and Apr. 12, This slide deck is focused on the comparison of file size by two file format; A) SDTM-XPT files created by CJUG SDTM team (Study data: HTT-55-MA2AC, 2012) Note that some datasets are re-sized by maximum length used, the others are not (=$200 used). vs. B) SDTM-XML files (ODM v1.3) created by CDISC XML team based on the A)

49 3 Result: Comparison of file size -1 A) XPT v5 File size (byte) B) ODM v1.3 File size (byte) Compared to XPT AE.xpt 19,840 AE.xml 25, % CE.xpt 8,400 CE.xml 16, % CM.xpt 12,400 CM.xml 17, % CO.xpt 8,320 CO.xml 7,869 95% DA.xpt 10,400 DA.xml 27, % DM.xpt 8,320 DM.xml 21, % DS.xpt 26,480 DS.xml 36, % DV.xpt 3,200 DV.xml 2,361 74% EG.xpt 572,960 EG.xml 227,523 40% EX.xpt 14,240 EX.xml 31, % FA.xpt 18,960 FA.xml 14,813 78% IE.xpt 4,160 IE.xml 4,033 97% LB.xpt 178,800 LB.xml 331, % MB.xpt 15,760 MB.xml 33, % MH.xpt 38,000 MH.xml 43, % MS.xpt 34,880 MS.xml 100, % PC.xpt 34,800 PC.xml 114, % PE.xpt 4,240 PE.xml 281 7% PP.xpt 6,880 PP.xml 13, %

50 4 Result: Comparison of file size -2 A) XPT v5 File size (byte) B) ODM v1.3 File size (byte) Compared to XPT QS.xpt 58,160 QS.xml 114, % RELREC.xpt 39,840 RELREC.xml 58, % SC.xpt 15,600 SC.xml 36, % SE.xpt 7,360 SE.xml 23, % SU.xpt 10,160 SU.xml 12, % SUPPEG.xpt 168,960 SUPPEG.xml 109,296 65% SUPPFA.xpt 8,160 SUPPFA.xml 10, % SUPPVS.xpt 117,760 SUPPVS.xml 100,052 85% SV.xpt 11,760 SV.xml 33, % TA.xpt 2,960 TA.xml 2,180 74% TE.xpt 3,200 TE.xml 1,662 52% TI.xpt 6,080 TI.xml 3,495 57% TS.xpt 13,600 TS.xml 14, % TV.xpt 2,880 TV.xml 2,401 83% VS.xpt 79,760 VS.xml 277, % Total XPT 1,567,280 Total XML 1,873, % PE.xpt is ZERO record. In other words, The file size of XPT is about 84% of XML file size.

51 5 Result: EG vs. VS domain -1 VS.xpt=80KB -> VS.xml=277KB XML is larger than XPT because CJUG-VS.xpt is re-sized. Variable Name Variable Label Length VSGRPID Group ID 1 VSSPID Sponsor-Defined Identifier 1 VSTESTCD Vital Signs Test Short Name 8 VSTEST Vital Signs Test Name 40 VSCAT Category for Vital Signs 1 VSSCAT Subcategory for Vital Signs 1 VSPOS Vital Signs Position of Subject 8 VSORRES Result or Finding in Original Units 14 VSORRESU Original Units 4 VSSTRESC Character Result/Finding in Std Format 14 VSSTRESU Standard Units 14 VSSTAT Completion Status 1 VSREASND Reason Not Performed 1 VSLOC Location of Vital Signs Measurement 14

52 6 Result: EG vs. VS domain -1 EG.xpt=573KB -> EG.xml=228KB XML is smaller than XPT because CJUG-EG.xpt is NOT re-sized. Variable Name Variable Label Length EGGRPID Group ID 200 EGSPID Sponsor-Defined Identifier 3 EGTESTCD ECG Test or Examination Short Name 8 EGTEST ECG Test or Examination Name 40 EGCAT Category for ECG 200 EGSCAT Subcategory for ECG 200 EGPOS ECG Position of Subject 6 EGORRES Result or Finding in Original Units 200 EGORRESU Original Units 9 EGSTRESC Character Result/Finding in Std Format 200 EGSTRESU Standard Units 9 EGSTAT Completion Status 8 EGREASND Reason ECG Not Performed 200 EGLOC Lead Location Used for Measurement 200

53 7 FDA Survey SDTM Column Resizing: Background and Industry Testing Results; Electronic Data (edata) Team, CDER FDA, October 13, randomly selected studies from 565 unique studies tabulated by the edata Team (OBI/CDER) between Comparison of file size for datasets from all 20 studies (432 datasets) by file format;.xpt modified (Maximum length used) -> Mean=10MB.xpt received -> Mean=50MB.xml -> Mean=20MB Note that there is no information about ODM version, maybe v1.2

54 8 Summary -1 According to the presentation by FDA; 0.5 : 1 : 2.5.xpt modified (wellcontrolled, re-sized by maximum length used) <.xml <.xpt received (noncontrolled, e.g., all variables = $200) Study data: HTT-55-MA2AC, CJUG-SDTM, 2012; 0.84 : 1.xpt (Follow IG, but Some datasets are re-sized, the others are not re-sized) <.xml Are you happy with the result?

55 9 Summary -2 Generally XML is smaller than received (non-controlled) XPT, and larger than modified (well-controlled) XPT because of the tags. As of 2013, However key-variables should be controlled appropriately, No maximum length used, for future merges (see the slide-deck on last Sep.). From another perspective, essentially File size is Unimportant. What matters is Quality of data review software or process at FDA. Jozef Aerts, he is a member of CDISC XML team, is writing that explains this point of view. Looking forward to his article.

56 10 Reference 1) SDTM Column Resizing: Background and Industry Testing Results; Electronic Data (edata) Team, CDER FDA, October 13, session_9.pdf 2) SDTM File size issue (SAS Length), CJUG SDTM Team, September 14, ) SDTM File size issue (SAS Length) UPDATE, CJUG SDTM Team, April 12, 2013